L'objectif de ce module "web mining" est double : IL s'agira dans un premier temps de dresser un panorama assez large de ce qu'est le "web mining" et des





télécharger 14.81 Kb.
titreL'objectif de ce module "web mining" est double : IL s'agira dans un premier temps de dresser un panorama assez large de ce qu'est le "web mining" et des
date de publication10.02.2017
taille14.81 Kb.
typeDocumentos
e.20-bal.com > documents > Documentos





Nom du Syllabus :

Web Mining

Niveau :

M2

Année :

2

Trimestre :

2

Enseignant (e):

PITARCH Yoann



OBJECTIFS :
L'objectif de ce module "web mining" est double : il s'agira dans un premier temps de dresser un panorama assez large de ce qu'est le "web mining" et des techniques mises en oeuvre pour fouiller ces données. Dans un second temps, les étudiants se confronteront eux-même à cette problématique d'extraction de connaissances à travers la mise en place d'un TP/projet. D'un point de vue pratique, le début du module s'articulera sous la forme de cours formels et représentera 30% environ du volume horaire total. La seconde partie se déroulera sous la forme de séances de TPs.
Le "web mining" peut être vu comme l'application de techniques issues de la fouille de données ("data mining" en anglais) sur des données provenant du web. Le cours s'orientera vers la description du "web mining" à proprement parlé. Il est d'usage de diviser ce domaine en 3 sous-domaines : la fouille de contenu web (web content mining), la fouille de structures (web structure mining) et la fouille d'usage web (web usage mining). Pour chacune de ces catégories, nous décrirons les motivations, les applications, quelques travaux de recherche majeurs et conclurons en mentionnant quelques défis à relever.
Concernant la deuxième partie du module, l'objectif est de permettre aux étudiants d'expérimenter l'ensemble du processus d'extraction de connaissances : de la récolte des données jusqu'à l'analyse et l'interprétation des résultats d'analyse. Quelques bases de programmation seront alors nécessaires (essentiellement pour récupérer les données et les pré-traiter). Le langage de programmation Perl sera alors abordé et quelques TPs permettront de consolider les connaissances apprises lors du cours. Nous utiliserons ensuite le logiciel R pour lancer quelques analyses et interpréter les résultats de cette analyse.

PLAN DU COURS :
Partie 1 : Web Mining 

1/ Introduction. Nous aborderons l’histoire du Web, rappellerons quelques concepts clés du Data Mining et définirons les particularités des données issues du Web. Une première définition du Web Mining sera donnée et mettra en évidence les 3 catégories d’approches qui seront développées dans le reste du cours.
2/ Web Structure Mining. Nous borderons ici les approches qui visent à analyser la structure du Web. Comme nous le verrons, ces approches ont de nombreuses similarités avec l’analyse de réseaux sociaux que nous introduirons. Nous développerons ensuite l’algorithme PageRank, aborderons l’analyse de réseaux d’auteurs dans les publications scientifique et terminerons par quelques méthodes qui permettent de découvrir des communautés dans un réseau.
3/ Web Content Mining. Ici il s’agit non plus d’analyser les relations entre les entités mais plutôt le contenu des pages Web. Nous nous focaliserons sur un pan important des efforts menés dans ce domaine : l’extraction automatique d’opinion (a.k.a. Opinion Mining). Nous aborderons la classification automatique de documents en fonction des sentiments exprimés, verrons que souvent, le niveau de granularité du document est trop élevé pour capturer réellement ce que pense un utilisateur d’un produit (ou autre) et aborderons enfin la détection automatique de faux avis.
4/ Web Usage Mining. L’analyse de l’utilisation du Web par les utilisateurs équivaut grossièrement à l’analyse des logs générés par les serveurs Web. Nous verrons que dans ce contexte, ce n’est pas l’analyse qui pose des difficultés (de nombreux algorithmes standards du Data Mining peuvent être appliqués) mais plutôt le pré-traitement de ces données pour permettre une extraction de connaissance pertinente. Parmi les difficultés associées à ces données on peut cite entre autres l’identification automatique de sessions utilisateurs, la complétion de chemin d’accès ou encore l’intégration de données. Après avoir décrits et données des éléments de réponses pour pallier ces difficultés, une modellisation des données est proposée et nous aborderons la découverte de motifs sur ces données.
Partie 2 : Perl



Ce cours permettra de donner les bases du langage de programmation Perl. Nous aborderons les aspects syntaxiques du langage et réaliserons quelques programmes simples. Ensuite, nous évoquerons l’utilisation d’expressions régulières, qui sont un outil très puissant pour le traitement de données textuelles. Ce savoir permettra de réaliser efficacement des pré-traitement pour les données sur lesquelles seront ensuite appliqués des approches de Web Mining à partir du logiciel R.
PRE-REQUIS :
- Module de Data Mining
BIBLIOGRAPHIE : Aucune lecture n’est nécessaire pour débuter ce module. Le support de cours fournira ensuite une bibliographie assez complète des points abordés.


Université Toulouse 1 Capitole

Ecole d’économie de Toulouse –TSE

Manufacture des Tabacs

21, allée de Brienne

31042 Toulouse Cedex

similaire:

L\Arborescence etudiant
«Avec plus de 22 000 emplois, le Grand Lyon est le 2ème pôle français numérique. Et, plus spécifiquement encore du web puisque, en...

L\Résumé : Basé sur un échantillon large de huit pays, cet article...

L\Animer le web 0 Community manager
«méta-consommateur» pour C. Bensen, community manager chez Techrigy Inc., une ssii américaine spécialisée dans l’évaluation du Web...

L\Note eprist sur le text et data mining
«moderne» essentiel, adapté à la masse croissante de données polymorphes (BigData), pour exploiter les données et produire de nouvelles...

L\Temps de recherche et développement sur le web des objets

L\[ everest ultimate Edition ] Version everest 50. 2100/fr Module de benchmark 292. 0 Site web

L\Cours n° 9 : des economies en crise
«favorisation» du secteur privé, attrait des capitaux étrangers, développement du tourisme de masse Dans un premier temps les lois...

L\Manuel Castells 2 «Le Code (informatique) c’est la loi… et son architecture est politique»
«Plus la démocratisation d’Internet sera retardée, plus le Web se développera autour de valeurs qui ne sont pas celles de l’ensemble...

L\Résumé : a travers la revue de la littérature IL a été possible de...
...

L\Documents sur le département des Ardennes
«Achat Ardennes»4, permettant de promouvoir le commerce de proximité. Ce portail web a pour objectif de présenter tous les commerçants...






Tous droits réservés. Copyright © 2016
contacts
e.20-bal.com