A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données





télécharger 19.68 Kb.
titreA rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données
date de publication05.02.2020
taille19.68 Kb.
typeDocumentos
e.20-bal.com > documents > Documentos
A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans TD/Données.

Sujet 1 : Résultats du Décathlon masculin aux jeux olympiques de 1988
Les données reprennent le résultat du décathlon masculin des jeux olympiques de 1988 (fichier decathlon.txt). Chaque athlète est caractérisé par 10 variables correspondant à sa performance dans dix épreuves

Les variables :
100m : course de 100 mètres

long : saut en longueur

poids : lancer du poids

haut : saut en hauteur

400m : course de 400 mètres

110m : course du 110 m haies

disq : lancer du disque

perc : saut à la perche

jave : lancer du javelot

1500m : course de 1500 mètres
Ces résultats sont utilisés pour calculer un score final en suivant le barème du

décathlon, l'individu ayant le score (variable SCORE) le plus grand gagne la compétition.



  1. Représenter et analyser la répartition des variables, étudier leurs liens, après centrage et réduction par colonne. Pourquoi faut-il enlever le dernier individu et supprimer la dernière colonne ?

  2. Réaliser et interpréter l’ACP sur le tableau ainsi créé et utiliser le score comme variable illustrative (supplémentaire).

  3. Réaliser une classification ascendante hiérarchique avec la méthode de Ward sur ce tableau. Tracer les groupes obtenus dans les axes de l’ACP. Utiliser cette classification pour créer une variable en classes à partir du score. Caractériser les groupes.



Sujet 2 : Analyse de l’élection présidentielle de 1988

On dispose de deux tableaux de données.
Le premier tableau X donne pour les 94 départements de la France métropolitaine le résultat du premier tour de l’élection présidentielle de 1988 (fichier candidats.txt). Il y avait 9 candidats, respectivement F. Mitterand (gauche socialiste), J. Chirac (droite républicaine), R. Barre (centre droit), J.M. Le Pen (extrême droite), A. Lajoinie (gauche communiste), M. Waechter (écologiste), P. Juquin (communiste dissident), A. Laguillier (extrême gauche) et M. Boussel (non inscrit). Les données représentent le pourcentage de voix obtenues dans chaque département par chaque candidat.
Le second tableau Y croise ces mêmes 94 départements et 15 variables socioéconomiques (fichier depart.txt).
On cherche à établir le lien qui existe entre les deux tableaux X et Y.

Le code des départements : attention : Il n’y a que 94 lignes dans les tableaux, le département 20 n’étant pas présent (on pourra peut-être renommer les lignes en accord avec les codes des départements

01 AIN 34 HÉRAULT 66 PYRÉNÉES ORIENTALES

02 AISNE 35 ILLE ET VILAINE 67 BAS RHIN

03 ALLIER 36 INDRE 68 HAUT RHIN

04 ALPES HAUTE PROVENCE 37 INDRE ET LOIRE 69 RHÔNE

05 HAUTES ALPES 38 ISÈRE 70 HAUTE SAÔNE

06 ALPES MARITIMES 39 JURA 71 SAÔNE ET LOIRE

07 ARDÈCHE 40 LANDES 72 SARTHE

08 ARDENNES 41 LOIR ET CHER 73 SAVOIE

09 ARIÈGE 42 LOIRE 74 HAUTE SAVOIE

10 AUBE 43 HAUTE LOIRE 75 PARIS

11 AUDE 44 LOIRE ATLANTIQUE 76 SEINE MARITIME

12 AVEYRON 45 LOIRET 77 SEINE ET MARNE

13 BOUCHES DU RHÔNE 46 LOT 78 YVELINES

14 CALVADOS 47 LOT ET GARONNE 79 DEUX SEVRES

15 CANTAL 48 LOZÈRE 80 SOMME

16 CHARENTE 49 MAINE ET LOIRE 81 TARN

17 CHARENTE MARITIME 50 MANCHE 82 TARN ET GARONNE

18 CHER 51 MARNE 83 VAR

19 CORRÈZE 52 HAUTE MARNE 84 VAUCLUSE

21 COTE D'OR 53 MAYENNE 85 VENDÉE

22 COTES DU NORD 54 MEURTHE ET MOSELLE 86 VIENNE

23 CREUSE 55 MEUSE 87 HAUTE VIENNE

24 DORDOGNE 56 MORBIHAN 88 VOSGES

25 DOUBS 57 MOSELLE 89 YONNE

26 DROME 58 NIÈVRE 90 TERRITOIRE BELFORT

27 EURE 59 NORD 91 ESSONNE

28 EURE ET LOIRE 60 OISE 92 HAUTS DE SEINE

29 FINISTÈRE 61 ORNE 93 SEINE SAINT DENIS

30 GARD 62 PAS DE CALAIS 94 VAL DE MARNE

31 HAUTE GARONNE 63 PUY DE DÔME 95 VAL D'OISE

32 GERS 64 PYRÉNÉES ATLANTIQUES

33 GIRONDE 65 HAUTES PYRÉNÉES
Les variables du tableau Y :
TXCR : Taux de croissance de la population, mesuré sur la période intercensitaire

1982-1990.

ETRA : Part des étrangers dans la population totale du département.

URBR : Pourcentage de la population vivant dans des agglomérations de plus de 20000 habitants (un département est dit urbain lorsque plus de la moitié de sa population vit dans de telles agglomérations).

JEUN : Part des 0-19 ans dans la population totale du département.

AGE : Part des 65 ans et plus dans la population totale du département.

CHOM : Taux de chômage.

AGRI : Part des agriculteurs dans la population active occupée du département.

ARTI : Part des artisans dans la population active occupée du département.

CADR : Part des cadres supérieurs dans la population active occupée du département.

EMPL : Part des employés dans la population active occupée du département.

OUVR : Part des ouvriers dans la population active occupée du département.

PROF : Part des professions intermédiaires dans la population active occupée du

Département.

FISC : Fiscalité directe locale (valeur en francs constants 1990 par habitant de

la somme des taxes locales - professionnelle, habitation, foncière et sur le

foncier non bâti).

CRIM : Taux de criminalité par habitant (nombre de délits total par habitant)

FE90 : Taux de fécondité (nombre de naissances rapporté au nombre de

femmes fécondes (de 15 à 49 ans) en moyenne triennale. Donné pour 1000

femmes fécondes ici.


  1. Réaliser une ACP normée sur chacun des deux tableaux X et Y et interpréter ces analyses. On appellera par la suite X et Y les deux tableaux normalisés (moyennes nulles et variances unitaires par colonnes)

  2. Afin de comparer deux tableaux de données, une des méthodes classiques est l’analyse des corrélations canonique. Cette méthode est très proche de l’ACP et son principe est donné ci-dessous (voir aussi éventuellement le fichier canon.doc dans Cours/autres supports). Effectuer l’analyse canonique des deux tableaux, interpréter les variables canoniques et conclure.


Principe de l’analyse canonique (AC) : On considère deux tableaux centrés X (p variables) et Y (q variables). On note s=min(p,q). Le principe de l’AC est de rechercher des couples de variables (Uk,Vk), k=1…s, où Uk est une combinaison linéaire des variablesde X  (Uk=XAk) et Vk une combinaison linéaire des variables de Y (Vk=XBk), telles que Uk et Vk soient le mieux possible corrélées entre elles, et les différents couples soient non corrélés entre eux (la matrice de corrélations entre les nouvelles variables (U1,…,Us ) et (V1,…,Vs ) est diagonale). Le lien entre les deux tableaux sera d’autant plus fort que les corrélations entre Uk et Vk k=1…s (termes diagonaux de la matrice de corrélations) sont élevées. La variable Uk (resp. Vk) s’appelle la k° variable canonique du tableau X (resp. Y). La corrélation entre Uk et Vk s’appelle k° corrélation canonique.
Pour donner un sens à la k° variables canoniques de X (resp. de Y), comme en ACP, on regarde la corrélation entre les variables de X et Uk (resp. entre Y et Vk) : ce sont les variables de X (rep. Y) les plus corrélées à Uk (resp. Vk ) qui permettent de l’interpréter.

On peut par ailleurs reporter les individus en projection sur les plans représentés par deux variables canoniques de X (ou de Y, ce qui est généralement assez proche compte tenu des fortes corrélations entre les variables canoniques de même rang de X et Y) afin d’identifier différents profils d’individus.
La fonction R permettant de faire l’analyse est la fonction cancor(). Les sorties de cancor sont : les coefficients Ak (xcoef) et Bk (ycoef), k=1,…,s ; les corrélations canoniques (cor) ; les moyennes des tableaux X et Y s’ils n’ont pas été centrés auparavant.

similaire:

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données iconL’économie de la vie privée : les données personnelles au cœur des...
«[l]a théorie économique considère les données personnelles (DP) comme des biens particuliers, des ressources immatérielles dont...

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données iconRapport national sur les enquetes cadres sur la peche artisanale...
«Programme Régional de Renforcement de la collecte des données statistiques des pêches dans les Etats membres et création de base...

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données iconNote eprist sur le text et data mining
«moderne» essentiel, adapté à la masse croissante de données polymorphes (BigData), pour exploiter les données et produire de nouvelles...

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données icon1. Données disponibles sur le site insee fr

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données iconAnalyse des determinants de la demande touristique aux
«bouche à oreille», enfin une variable muette sera utilisée pour capter l’influence de la guerre du golfe en 1991 sur la demande...

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données iconDésignation d’un Délégué à la Protection des Données (Data Protection Officer D. P. O.)
«Informatique & Libertés» et au Règlement Général sur la Protection des Données

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données iconPrise en charge par teleconsultation ou teleexpertise
«base line» peut être faite de 6 mois en 6 mois. L’analyse aura lieu en base line pour les données avant et au terme des expérimentations....

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données iconLa base de données sera accessible sur un site internet et permettra...

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données iconCette analyse quantitative et qualitative des retombées médias a...

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans td/Données iconEcole doctorale
«fléchés». La liste apparaît sur notre site. Chaque candidat doit choisir deux sujets dans la liste proposée en indiquant un ordre...






Tous droits réservés. Copyright © 2016
contacts
e.20-bal.com