See english version of this document
Unité d'Enseignement -- Descriptif     (Version PDF )
Dernière mise à jour le 30-Aug-2015


CODE GINF53C7 Discipline Informatique ECTS 3
Titre Analyse des données, web des données et web sémantique


Responsable(s) :
UE ouverte au(x) semestre(s) :   S3

Compétences visées :
Ce cours porte sur l’analyse des données, le web des données et le web sémantique. Il s’articule en deux parties majeures.

La première traite d’approches au confluent de la statistique, de l’intelligence artificielle et de l’apprentissage machine, dont l’objectif est l’analyse de grands ensembles de données pour l’extraction de connaissances et l’aide à la décision. L’analyse des données prend un intérêt grandissant dans les applications émergeantes (Médias et réseaux sociaux, smart-grid, internet des objets, smart-cities, mobilité humaine, etc.), nécessitant l’utilisation de méthodes fines et avancées pour l’analyse et la prédiction à partir de données complexes (massives, structurées, reliées, et dynamiques). Ces méthodologies sont au coeur de nombreux logiciels dits de Data Mining utilisés tant au niveau industriel qu’académique. Ce cours expose les principales méthodes et techniques d’analyse des données conduisant à l’élaboration d’un projet d’analyse exploratoire et décisionnelle : la préparation des données et codages pour la constitution de la base d’analyse, analyse des objectifs et choix des modèles, de validation et d’interprétations des résultats. Ce cours est étayé par des travaux pratiques, un projet d’analyse décisionnelle et l’utilisation de méthodes d’analyse des données sous R.

La deuxième partie du cours, s’adresse essentiellement au web sémantique et web des données, dont l’objectif est de fournir un cadre général qui permet l'échange, le partage et la réutilisation de données entre applications au travers des entreprises et des communautés d'utilisateurs. C'est le fruit d'un effort collaboratif mené par le World Wide Web Consortium(W3C) avec la participation de nombreux partenaires issus du monde de la recherche et de l'industrie. Le web sémantique cherche à structurer de nouvelles connaissances en s’appuyant sur le web données (Linked data). Le web des données cherche à intégrer et publier des données structurées en les reliant entre elles et à permettre le partage et la distribution de ces informations. Ce cours se focalisera sur certaines des technologies standardisées par le W3C et qui sont au coeur du web sémantique: RDF et SPARQL permettent l'échange et l'interrogation des données, RDFS et OWL offrent l'expressivité nécessaire à la modélisation d'ontologies. La présentation en cours de ces différents langages sera complétée par des exercices pratiques sur machine (avec le framework Java Jena et l'éditeur d'ontologies Protégé-OWL) qui permettront aux étudiants de se confronter directement et concrètement avec la mise oeuvre du web sémantique.




Programme résumé :
A. Analyse des données
1- Mesures de dis(similarités), codages et prétraitements des données
2- Classification non supervisée / Clustering (dédiée aux données massives)
3- Classification supervisée en vue de la prédiction
4-Protocole de validation en classification : approches empiriques, ré-échantillonnage,
validation du nombre de classes, validation croisée
5- Travaux pratiques et projets en Data Mining et apprentissage machine sur des données
publiques à échelle réelle
B- Web sémantique et web des données
1- Introduction au web sémantique
2- Représenter et échanger de l’information sur le web via RDF (Resource Description
Framework)
3- Intégrer de la sémantique annoter et raisonner sur les données (RDFS, OWL)
4- Interroger le web sémantique : SPARQL

Logiciels utilisés : R, Jena, OWL-API, Protege, Virtuoso ou Allegrograph

Matériel utilisé : PC Linux, PC Windows

Activité Heures %
Cours Magistral (CM) 15 25
TP 15 25
Travail personnel estimé 30 50
TOTAL 60 100

Le détail de la nature des épreuves de controle continu et des épreuves terminales de première et de deuxième session sera communiqué au début du semestre.