bandeauEGC2016

é-EGC Conférenciers Invités

 

Marc Plantevit - Université Claude Bernard, France

Associate Professor 

LIRIS CNRS UMR 5205 http://liris.cnrs.fr 

DM2L Team 

Université Claude Bernard Lyon 1, Computer science dept

@MarcPlantevit  http://liris.cnrs.fr/~mplantev 

@LirisDM2L http://liris.cnrs.fr/dm2l/

 

Titre : « Constraint-based Pattern Mining: from classic pattern domains to more sophisticated ones » / «  Fouille de motifs sous contraintes  :  des langages de motifs standards  aux plus élaborés »

 

Résumé : La fouille de motifs sous contraintes, support à l'élicitation d'hypothèses dans de nombreux domaines, vise  à, étant donné un langage de motifs (e.g., itemsets, intervalles, séquences, graphes) et  un ensemble de contraintes (e.g., fréquence, chi2, ...), à extraire tous les éléments du langage qui vérifient les contraintes.  Ce cours propose une introduction à cette thématique. Pour commencer, un rappel sur l'extraction d'itemsets fréquents aura lieu. Ensuite, nous verrons comment traiter différentes classes de contraintes (e.g., [anti-]monotones [convertibles|par morceaux], convexes),  et des domaines de motifs plus sophistiqués (e.g., motifs graduels, séquences, graphes, graphes attribués, graphes dynamiques) de façon générique. Nous montrerons  également  comment la fouille de motifs sous contraintes peut être utilisée sans avoir à fixer de seuils a priori. 

 

Bio : Marc Plantevit est Maître de Conférences en Informatique à l'Université Claude Bernard Lyon 1, et membre de l'équipe de DM2L au sein du Laboratoire  d'InfoRmatique en Image et Systèmes d'information  (LIRIS UMR 5205). Ses thématiques  de recherche  portent sur les aspects fondamentaux de la  fouille de motifs sous contraintes, avec un intérêt particulier pour la fouille de séquences et de graphes augmentés (graphes attribués et/ou dynamiques). Il est membre de comité de programme et relecteur pour les principales conférences et les principaux journaux du domaines. Il est co-auteur de plus de 35 articles, incluant une dizaine d'articles de revue,  dans les principaux "rendez-vous" (conférences et journaux) du domaine (ICDM, ECML/PKDD, KDD, TKDD, TKDE, KAIS, ...). 

 

Alexandre Termier - Université de Rennes, France

Professeur des Universités

Université de Rennes

Laboratoire IRISA

http://people.irisa.fr/Alexandre.Termier/

 

Titre (provisoire) : “Pattern mining in parallel environments” / “Fouille de motifs dans des environnements parallèles”

 

Résumé :

 

Bio :

 

Bruno Pinaud - Université de Bordeaux, France

Maitre de conférences/Associate Professor

Université de Bordeaux CNRS UMR 5800 LaBRI

 

Titre : Visualisation analytique avec Tulip en pratique pratique

 

Résumé : Tulip est un logiciel de visualisation et de manipulation de réseaux bien connus (http://tulip.labri.fr). Plus qu'un simple outil pour dessiner des  graphse, Tulip offre un environnement complet pour réaliser des applications  personnalisées et prendre en compte le plus précisément possible les besoins  de l'utilisateur. Tulip est fourni avec une interface par défaut mais une  bibliothèque très complète permet de développer sa propre application. Son architecture en modules additionnels permet d'ajouter des fonctionnalités  spécifiques (dessin de graphes, imports de données, calculs de métriques,  clustering, ...). En plus de sa bibliothèque en C++, Tulip permet d'écrire  facilement des scripts python pour tester rapidement une idée ou animer des  réseaux. Ce tutoriel permet de manipuler les différentes fonctionnalités de Tulip de  l'import de données à partir d'un fichier CSV au calcul de métrique ou de  clustering sur les données importées ou bien encore au dessin de graphes. Tulip est fournit avec de nombreux modules additionnels que nous utiliserons  (dessins par modèle de force, dessins hiérarchiques, détection de communautés,  application d'un dégradé de couleur en fonction des valeurs d'une métrique,  calcul de graphe quotient, visualisation en 2.5D, etc.) Les données choisies permettront de montrer l'intérêt des visualisations  multiples (noeuds-liens, scatter plots, histogrammes, matrice, vue orientée pixels, ...) synchronisées entre elles à des fins de visualisation analytique. Les participants sont encouragés à venir avec leurs propres données et des questions/tâches à effectuer sur ces données. Si besoin, nous pourrons aborder les scripts python en Tulip et ainsi présenter l'API Tulip.

 

Bio : Bruno Pinaud est maitre de conférences à l'université de Bordeaux et membre du Laboratoire Bordelais de recherche en inforamtique. Ses activités de recherches sont centrées sur la visualisation interactive d'information et plus particulièrement la modélisation et simulation interactive et visuelle de systèmes complexes à l'aide de la réécriture de graphe. Il s'intéresse aussi à d'autres aspects de la visualisation en lien avec les précédents thèmes comme l'évaluation expérimentale de méthodes de visualisation en lien avec les experts des données. L'outil PORGY (http://tulip.labri.fr/TulipDrupal/?q=porgy) est issu des travaux sur la réécriture de graphe. Il est aussi contributeur actif de la plate-forme de visualisation d'informations Tulip (http://tulip.labri.fr) qui sert de base pour PORGY. 

 

Gilles Venturini - Université de Tours, France

Professeur des Universités

Ecole Polytechnique de l'Université de Tours (EPU - Polytech'Tours)

Laboratoire d'Informatique (LI)

 

Titre : Introduction aux méthodes de fouille visuelle de données temporelles et de séquences.
 

Résumé : Ce cours propose une introduction au domaine de la visualisation interactive de données temporelles et de séquences. Pour commencer, un rappel aura lieu sur des concepts et propriétés classiques des méthodes visuelles et interactives en fouille de données en général. Ensuite un état de l’art sera présenté sur les méthodes traitant la dimension temps. Etant donné la largeur de ce champ, des visualisations représentatives du domaine seront choisies (spirales, métaphores comme les calendriers, etc.). Les propriétés de ces méthodes (visualisation, interaction) seront abordées.

 

Bio : Gilles Venturini est Professeur en Informatique et membre du Laboratoire d’Informatique de l’Université François Rabelais de Tours. Ses centres d’intérêt en recherche portent aujourd’hui sur l’interface entre l’utilisateur (expert du domaine, grand public) et les outils de fouille de données (ou les données elles-mêmes), dans des domaines comme la Médecine, les Humanités Numériques, etc. Plus précisément il étudie les visualisations interactives, la réalité virtuelle, les données complexes, l’optimisation des visualisations (pour l’utilisateur, pour les grands volumes de données), et aussi l’acquisition et le traitement de données 3D. Il est actuellement vice-président de l’association Extraction et Gestion des Connaissances.

 

 

Sašo Džeroski et Pance Panov - Jozef Stefan International Postgraduate School

Professor, Jozef Stefan International Postgraduate School

Jamova cesta 39, 1000 Ljubljana, Slovenia

http://www-ai.ijs.si/SasoDzeroski/
 

Titre : « Ontologies for data mining »

 

Résumé : We have recently developed OntoDM, a suite of ontologies for describing data and knowledge discovery from data. The tutorial will describe the design principles used to create these ontologies. It will then describe the three ontologies we have developed: the generic ontology of datatypes (OntoDT), the ontology of core data mining entities (OntoDM-Core), and OntoDM-KDD, used for describing knowledge discovery processes. Finally, we will present several use cases for OntoDM and discuss directions for its further development and use.

 

Bio : Sašo Džeroski is a scientific councillor at the Jozef Stefan Institute and the Centre of Excellence for Integrated Approaches in Chemistry and Biology of Proteins, both in Ljubljana, Slovenia. He is also a full professor at the Jozef Stefan International Postgraduate School. His research is mainly in the area of machine learning and data mining (including structured output prediction and automated modeling of dynamic systems) and their applications (mainly in environmental sciences, incl. ecology, and life sciences, incl. systems biology). He is co-author/co-editor of more than ten books/volumes, including "Inductive Logic Programming", "Relational Data Mining", "Learning Language in Logic", "Computational Discovery of Scientific Knowledge" and "Inductive Databases and Constraint-Based Data Mining". He has participated in many international research projects (mostly EU-funded) and coordinated two of them in the past. He is currently the coordinator of the FET XTrack project MAESTRA (Learning from Massive, Incompletely annotated, and Structured Data) and one of the principal investigators in the FET Flagship Human Brain Project.

 

 

Tias Guns -KU Leuven - Thi-Bich-Hanh Dao et Christel Vrain - Laboratoire d’Informatique Fondamentale d’Orléans

Tias Guns

post-doctoral fellow of the FWO, Declarative Languages and A.I. lab of the KU Leuven

Thi-Bich-Hanh Dao

Maître de Conférences - Assistant Professor

Laboratoire d’Informatique Fondamentale d’Orléans

Université d’Orléans

Christel VRAIN

LIFO

University of Orléans

 

Titre : "Constrained clustering using Integer Programming and Constraint Programming"

 

Résumé : Clustering is a popular data mining technique for finding groups of objects in (unlabelled) data. Often, a domain expert can have knowledge about the type of clustering she is looking for. Constrained clustering deals with techniques that can handle such background knowledge, expressed through constraints.

 

A major challenge in constrained clustering is the development of generic mechanisms. One of the most successful approach in this respect uses generic solving techniques such as constraint programming and integer programming. Furthermore, these techniques find the optimal clustering, though this is restricted to small and medium sized data.

 

In this tutorial we will give an overview of recent advances on using constraint solvers for constrained clustering, with a focus on generality and efficiency across different constraints and objective functions.

 

Bio :

 

Toon Calders  - Université Libre de Bruxelles, Belgium

Title: Mining data streams

 

Résumé : Sometimes data is generated unboundedly and at such a fast pace that it is no longer possible to store the complete data in a database. The development of techniques for handling and processing such streams of data is very challenging as the streaming context imposes severe constraints on the computation:

- We are often not able to store the whole data stream and making multiple passes over the data is no longer possible

- As the stream is never finished we need to be able to continuously provide, upon request, up-to-date answers to analysis queries Even problems that are highly trivial in an off-line context, such as: “How many different items are there in my database?“ become very hard in a streaming context.

Nevertheless, in the past decades several clever algorithms were developed to deal with streaming data. In this course we will cover several of these indispensable tools that should be present in every big data scientists’ toolbox.

 

List of topics (indicative):

 

Definitions of streaming, on-pass,

Sampling: reservoir and sticky

Summaries and Sketches:

  • Bloom filters

  • Flajolet

  • Martin sketch

  • CountMin sketch

  • Hyperloglog sketch

Counting algorithms

  • lossy counting algorithm

  • Datar-Gionis-Indyk-Motwani algorithm

Streaming graphs

 

Support material : Chapter 4 of the book Mining of Massive Datasets by Jure Leskovec, Anand Rajaraman, Jeff Ullman.

 

Bio: Toon Calders obtained his PhD at the University of Antwerp in Belgium in 2003. He recently joined the ULB in 2012 where he holds the Chair in Business Intelligence, after working for 6 years at the Eindhoven University of Technology in The Netherlands as an assistant professor in the department of mathematics and computer science. His main research interests are Business Intelligence, Knowledge Discovery in Databases, machine learning and data mining. Toon Calders is area editor of the Springer Data Mining journal, he was one of the program chair of the ECMLPKDD conference in September 2014, and will be one of the program chairs of the Discovery Science conference in 2016. Toon Calders published over 60 papers in the data mining area including 17 journal papers in high-level data mining venues (DMKD, KDD, ICDM, SDM, ECML/PKDD). His research interests include pattern mining, entity resolution, discrimination and fairness aware data mining, and data stream processing.