madics.jpeg

Atelier Apprentissage-Big Data-HPC et Expériences Numériques. Institut de Mathématiques de Toulouse-16 Novembre 2015

Programme

Résumé L’assimilation de données est l’ensemble des techniques qui permettent de combiner un modèle et des observations (ou données). D’un côté, le modèle, qui est généralement représenté sous forme d’équations mathématiques : c’est la phase de modélisation, d’un phénomène physique, biologique, chimique, etc, qui consiste à représenter ce phénomène à l’aide d’équations mathématiques. Et de l’autre, les données, représentant une source d’information expérimentale ou observationnelle. Et le but est généralement de reconstituer l’état du système, puis de prévoir son évolution dans le futur. L'assimilation de données a permis des avancées majeures dans de nombreux domaines (comme la météorologie, l'océanographie, l'imagerie médicale, …) pour lesquels la quantité de données et la taille des grilles de résolution numérique des modèles sont sources de difficultés pour la mise en œuvre opérationnelle.

Didier Auroux est professeur de mathématiques appliquées à l'Université Nice Sophia Antipolis depuis 2009. Ses principaux thèmes de recherche sont l'assimilation de données, le traitement d'images, et plus généralement le contrôle optimal, l'analyse numérique, les problèmes inverses, et le calcul scientifique.

Abstract The present and expected tremendous increase in computing power of mainframe computers offers fantastic opportunities for numerical simulations in a number of fields, including uncertainty quantification. However, to achieve reasonable efficiency on present and future machines, numerical methods have to satisfy a number of constraints. The most obvious is that the work has to be divided fairly between the numerous cores, which implies fine-grained parallelism and load balancing. Another mandatory task is to take advantage of the vector units, which become omnipresent on high performance processors. In this talk, we shall present the present and foreseeable evolution of processors and machines, and how numerical methods have to evolve to take full advantage of these progresses.

Daniel Bouche est directeur de recherches CEA, et chercheur associé à l’ENS Cachan. Il a travaillé sur la simulation numérique de divers phénomènes et systèmes physiques : diffraction d’ondes, écoulements hydrodynamiques, matériaux.

Abstract Data science is a novel discipline, concerned with the design of automated methods to analyze massive and complex data in order to extract information. Data science projects require expertise from a vast spectrum of scientific fields ranging from research on methods (statistics, signal processing, machine learning, data mining, data visualization) through software building and maintenance to the mastery of the scientific domain where the data originate from. To tackle challenges arising from managing such a multidisciplinary landscape, a number of universities launched data science initiatives (DSIs) in the last couple of years. The goal of this talk is to raise and partially answer some of the questions these initiatives are facing, through the experience we accumulated at the Paris-Saclay Center for Data Science: What is the scope of a DSI? How is the data science ecosystem structured? Who are the players of the ecosystem? Where are the bottlenecks? What motivates the players, and how to manage the misaligned incentives? What existing tools do we have for managing deeply multidisciplinary projects, and what tools should be develop?

Balázs Kégl est directeur de recherche en informatique au CNRS, data scientist il a écrit plus de 100 articles scientifiques. Il a une vaste experience aux interfaces de data science et des données scientifiques (physique, biologie, science de la terre). Depuis 2014, il est le directeur du Centre de Data Science de l'Université Paris-Saclay.

Résumé Aujourd'hui les simulations 3D ne font pas partie des protocoles cliniques pour le traitement des patients. L'emergence de ces simulations 3D personnalisees et integrées dans des outils de planning chirurgical et d'assistance per-opératoire représente un defi majeur des acteurs du monde de la santé. Pour pouvoir être utilisés en clinique ces logiciels de simulation doivent être le plus simple possible, suffisament précis et surtout très rapides (de l'odre de quelques minutes en planning) et temps réel en assistance opératoire). Cet objectif de rapidité est à des ordres de grandeur de l'état de l'art des performances pour les simulations 3D non linéaires discrétisées en espace et et en temps. Les techniques de réduction de modèles et l'analyse statistique des données patient représentent les solutions les plus adaptées à ces enjeux. L'exposé proposera des exemples de simulations 3D en chirurgie endovasculaire des pathologies de l'aorte et s'attardera plus particuliérement sur la validation de ces simulations par rapport aux données per-opératoires. Enfin l'exposé portera sur des exemples d''analyse statistique des formes anatomiques.

Michel Rochette est Docteur en mathematiques appliquées. Il est co-fondateur en 1994 de l'entreprise CADOE spécialisée en techniques de paramétrisation pour la simulation numérique. Après l'acquisation de CADOE par ANSYS (leader mondial des logiciels de simulation) en 2001 il devient Directeur de Recherche en charge des techniques de réduction de modèles et d'applications médicales

Résumé Le phénomène Big Data ne se caractérise pas seulement par la massivité des jeux de données, mais aussi par la multiplicité des façons dont ces données peuvent être acquises. De nombreuses applications modernes impliquent une collecte active des données par l'utilisateur - comme par exemple dans le cas des systèmes de recommandation qui n'observent la réaction du client que sur les objets recommandés. Plusieurs problèmes passionnants se posent alors - en particulier, celui de concevoir des techniques optimales de collecte de données. L'importance de ces techniques pour le Big Data est encore soulignée par le fait qu'elles peuvent être (et sont) appliquées pour traiter de façon optimale des bases de données massives.Dans mon expose, je présenterais la problématique de l'apprentissage séquentiel, ainsi que quelques développements récents de ce domaine.

Alexandra Carpentier a préparé sa thèse entre l’Université Lille 1 et l'INRIA Lille Nord Europe sous la direction de Remi Munos. Elle a travaillé sur des problématiques d'apprentissage séquentiel et a obtenu son doctorat en 2012. Elle s'est ensuite intéressée à des problèmes de statistique théorique au StatsLab de Cambridge. Elle a notamment travaillé sur la problématique des intervalles de confiance adaptatifs en grande dimension. Elle est actuellement à l’Université de Potsdam (bourse Emmy Noether). Elle dirige un petit groupe sur des problèmes de détection d'anomalies.

Clément Chevalier a obtenu son doctorat à l'Université de Berne de 2013. Il a travaillé sous la direction de David Ginsbourger et Yann Richet sur des stratégies séquentielles d'optimisation, inversion ou inversion robuste de simulateurs chers à évaluer. Il est actuellement Maître Assistant à l'institut de statistique de l'université de Neuchâtel.

Abstract Ever since the production of the first supercomputers in the '60s, High Performance Computing (HPC) has allowed researchers and engineers to achieve important breakthroughs in a wide range of disciplines including physics, chemistry, electronics or economy. HPC has continuously evolved throughout its history pushed, on one side by the need of applications to process larger and lager amounts of data with ever increasing accuracy and reliability and, on the other side, by the fast pace at which computers change and improve. If the solution of linear system with a few thousands variables was a challenging task a couple of decades ago, moderns applications require the solution of systems with millions or even billions of equations. Data assimilation is one among the numerous domains where problems of this size arise. On the other hand, the recent emergence of multicore processors and accelerators (such as GPUs) has marked the beginning of a forced march toward an era of computing in which research applications must be able to exploit parallelism at an unprecedented scale. A modern supercomputer is typically formed by hundreds of nodes, each equipped with multiple multicore processors and, possibly, one or more accelerators; processing units are, moreover, attached to memories with different capacities and data have to be transferred through interconnects with different latencies and bandwidths. Methods have to be designed not only to reduce the complexity of operations and the memory consumption but also to achieve extremely high degrees of concurrency and to comply with the heterogeneity and complexity of modern supercomputers. At the same time, technologies and programming models have to be developed to allow for the fast, efficient and portable implementation of such complex algorithms. In this atelier we will bring to the attention of the public some of the challenges and issues currently tackled by the high performance, scientific computing.

Les exposés et l'atelier I auront lieu dans l'amphithéâtre Laurent Schwartz Bâtiment 1R3. L'atelier II aura lieu dans la salle de séminaire MIP 1er étage Bâtiment 1R3.

Informations pratiques

La journée aura lieu à l'Institut de Mathématiques de Toulouse (IMT). Elle sera suivie le mardi 17 Novembre par une journée Big Data ouverte à un large public. Pour venir à l'IMT (voir aussi le plan d'accès)



Organisateurs

Jean-Marc Alliot (CIMI). Aurélien Garivier (MADICS et CIMI). Fabrice Gamboa (MASCOT NUM). Bruno Sudret (MASCOT NUM).

irit.jpeg cimi.jpeg

CNRS