Thèse pour obtenir le grade de





télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page7/36
date de publication21.10.2017
taille3.33 Mb.
typeThèse
e.20-bal.com > droit > Thèse
1   2   3   4   5   6   7   8   9   10   ...   36

II.Réflexions sur la méthode d’analyse que nous proposons

A.Choix du corpus d’analyse

1.Choix de Medline

Medline est une base de données bibliographiques. Cela signifie qu’elle est conçue pour aider les chercheurs à se tenir informés des avancés scientifiques dans leur discipline. Medline recense des articles scientifiques de façon à donner accès à ces documents, le chercheur étant invité à commander le document dont il a lu un résumé dans la base de données. L’intérêt de ce type de base de données bibliographique réside pour nous dans le fait que les auteurs donnent souvent l’essentiel de leurs résultats dans le résumé. Les interactions décrites dans les articles eux-même ont donc toutes les chances de se trouver aussi dans le résumé. Par ailleurs, les articles sont souvent d’accès payant et il n’existe pas de base de données gratuite d’articles en texte intégral, tout du moins de taille comparable à Medline.

La base de données Medline à l’avantage d’être accessible gratuitement et d’être très complète. Elle compte en effet plus de neuf millions de résumés. Elle traite d’aspects très divers de la médecine et de la biologie. Cependant, même sur un aspect précis comme celui de la génétique de la drosophile, elle peut rivaliser avec les meilleures bases de données spécialisées. Nous en voulons pour preuve qu’elle est largement utilisée par les chercheurs s’intéressant à la génétique de la drosophile.

Son principal avantage pour notre travail consiste dans le fait qu’elle traite de plusieurs organismes modèles. Ainsi, la drosophile est traitée, mais aussi la souris et l’homme qui sont deux organismes modèles très intéressants pour la recherche sur les interactions génétiques ou moléculaires. Ainsi, les méthodes que nous mettons au point sur la drosophile pourront être adaptées facilement à l’analyse de données sur d’autres organismes modèles. Cela n’aurait pas été le cas s’il avait fallu changer de base de données.
2.Choix de l’échantillon d’analyse

Nous nous intéressons au texte de Medline qui traite de la génétique de la drosophile en général. Cependant, il a fallu faire le choix d’un échantillon d’analyse. Nous expliquons ce choix dans cette section.

Notre échantillon est constitué des résumés issus de Medline, qui sont cités dans au moins une phrase du corpus de Pillet. En effet, les textes étudiés par Pillet sont tirés de la lecture de publications de résultats qui sont pour la plupart référencés par Medline. Ainsi, il existe un lien naturel entre ces phrases et les résumés de Medline.

Ce choix rend la comparaison avec le travail de Pillet plus facile. En effet, le corpus étudié par Pillet est naturellement riche en interaction, car il est obtenu par une présélection des phrases sur le critère de la présence de deux occurrences de gènes dans chaque phrase. Ce critère assez exigeant permet d’avoir dès le départ une bonne proportion de textes qui relatent des interactions. Il a d’ailleurs été appliqué pour cette caractéristique. Cette bonne proportion de texte qui relate des interactions est tout naturellement conservée dans le lien qui relie les textes étudiés par Pillet et ceux que nous avons inclus dans notre échantillon d’analyse.

La richesse comparable en énoncés d’interaction est utile pour la comparaison des performances car cette richesse affecte les taux de précision à rappel égal. Par exemple, pour un rappel de 100%, la précision n’est autre que le taux de phrases relatant une interaction.

Plus prosaïquement, ce lien entre le corpus d’étude de Pillet et le nôtre permet de voir si les interactions décrites par les opérateurs de Flybase sont ou non présentes dans les résumés associés. Il est en effet possible que certaines d’entre elles ne soient présentes que dans le texte intégral des publications. Inversement, il est intéressant de savoir s’il y a des interactions présentes dans les résumés issus de Medline qui ne sont pas reprises dans l’échantillon d’étude de Pillet. Dans ce cas cela signifierait que les annotateurs de Flybase auraient oublié de noter certaines informations présentes dans les résumés. Une autre solution serait que cette absence d’information dans le corpus de Pillet soit due à la méthode de constitution du son corpus. Je pense notamment au critère de présence simultanée de deux occurrences de gènes.
3.Utiliser les données issues de Flybase pour analyser les textes de Medline

Il peut sembler surprenant de vouloir utiliser des données issues de Flybase pour analyser des données issues de Medline. Il y a plusieurs justifications à cela.

Tout d’abord, comme nous l’avons évoqué à la section I.B.1.b, les données issues de Flybase sont plus homogènes que les données issues de Medline. Elles sont donc plus intéressantes pour obtenir le vocabulaire spécifique des interactions à partir de méthodes statistiques.

Ensuite, et c’est le principal, en utilisant les données issues du travail de Pillet, nous n’avons pas le problème de la distinction entre données d’apprentissage et données de test. Les résultats que nous obtenons peuvent être considérés comme des données de test alors que Pillet avait ce problème de l’absence de données de test. Nous évitons, par l’utilisation des données statistiques obtenues sur un autre corpus, d’avoir à constituer des résultats réservés à l’apprentissage.

B.Discussions sur les moyens et les buts

1.La présence de deux noms de gènes est un indice fort

La méthode que nous adoptons pour la reconnaissance des interactions est basée, d’une part sur la présence de noms de gènes dans les textes, et d’autre part sur la présence d’un vocabulaire spécifique. Ces deux facteurs sont importants mais on évalue mal l’importance relative de chacun. En effet, l’analyse faite par Pillet étudie l’importance du facteur vocabulaire sur un échantillon dans lequel une condition forte est déjà posée sur la présence de gène : il s’agit d’exiger que deux occurrences de gène exactement soient présentes dans une même phrase. Ce critère a été posé pour une raison pragmatique. Comment savoir en effet de quelles interactions il est question dans une phrase qui possède le vocabulaire spécifique s’il y a plus de deux acteurs en présence ou s’il n’y en a qu’un seul et que l’autre est sous-entendu ?

Le critère sur les gènes étant posé au préalable, on évalue mal son influence sur les résultats. Nous pensons que le critère appliqué par Pillet sur les noms de gène est une condition très forte et qu’elle est la cause principale de la réussite du système d’extraction d’information. Nous remarquons en effet que dans le corpus sélectionné par Pillet sur le critère des noms de gènes, 55% des phrases décrivent une interaction. Ainsi, cet ensemble de phrases est déjà très riche en interactions. On ne connaît pas ce que serait ce taux sans le critère, car le critère a été appliqué dés le départ, mais on peut penser qu’il serait très faible.

Ainsi, nous pensons que le critère sur la présence de gènes est primordial et donc que nous devons concentrer notre travail sur la réalisation d’un système performant d’identification des gènes dans les textes. A la fin de notre exposé, dans la partie résultat, section Partie 2 Chapitre 3 II.C, nous fournirons la preuve du fait que le critère sur la présence de gènes est principalement responsable de la réussite de la méthode. Cela nous est permis par une analyse humaine des textes qui se fait sans sélection au préalable des textes qui contiennent un nombre déterminé d’occurrence de gènes.
2.Utilisation des phrases qui comportent plus de deux occurrences de gènes

Nous proposons en effet de généraliser la méthode proposée par Pillet aux phrases qui comptent plus de deux occurrences de gènes. Cela revient à considérer tous les couples de gènes en présence dans la phrase comme candidats éventuels à une interaction.

L’avantage consiste, bien évidemment, à disposer de plus de matériel de départ : il y a assez peu de phrases qui comportent exactement deux occurrences de gène, et beaucoup plus qui en comptent d’avantage. L’inconvénient attendu est de générer davantage de faux positifs. Nous verrons exactement ce qu’il en est dans la partie résultat.

L’annotation des textes a été faite en ce sens : toutes les phrases ont été annotées, indépendamment du nombre d’occurrence de gènes. Cela nous permet d’évaluer, par la même occasion, l’importance du critère du nombre d’occurrences de gènes pour détecter les interactions.
3.Reconnaissance des interactions et non des phrases qui décrivent des interactions

Pillet a conçu un système qui permet la reconnaissance des phrases qui décrivent une interaction. Nous proposons un système qui permet la reconnaissance des interactions elles-mêmes. Le système que nous proposons va donc plus loin : il donne en plus des phrases qui traitent d’interactions, des informations sur les interactions dont il s’agit.

Il est vrai que dans le cas du corpus analysé par Pillet la différence entre les deux systèmes est faible. En effet, dans ce corpus chaque phrase comporte exactement deux occurrences de gènes, de sorte qu’il n’y a qu’une seule interaction qui puisse y être associée automatiquement.

Remarquons cependant que, même dans ce cas, la différence existe, puisque qu’il se peut que l’interaction réelle ne soit pas celle attendue. En effet, on ne peut pas exclure que l’interaction ne fasse intervenir qu’un des deux partenaires cités. Le cas peut se présenter quand il y a rétroaction ou quand un troisième partenaire n’est pas cité par son nom.

Dans notre corpus de textes annotés, la différence est importante puisqu’il n’y a plus correspondance entre une phrase et une interaction potentielle : une même phrase peut être la source de plusieurs reconnaissances automatiques d’interactions.
1   2   3   4   5   6   7   8   9   10   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de
...

Thèse pour obtenir le grade de iconThèse pour obtenir le grade de docteur de l’Université Paris I panthéon-Sorbonne
«L’Université n’entend donner aucune approbation ni improbation aux opinions émises dans ce document. Ces opinions doivent être considérées...

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse pour l'obtention du grade de

Thèse pour obtenir le grade de iconThèse pour le grade de docteur en droit

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de docteur en médecine

Thèse pour obtenir le grade de iconLe grade d’administrateur général ( grade à Accès Fonctionnel – graf)
«Emplois supérieurs pour lesquels les nominations sont laissées à la décision du Gouvernement»

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de
«sur le terrain», pour ce qu’elles ont bien voulu partager avec moi. La part d’elles-mêmes qu’elles m’ont ainsi laissée constitue...






Tous droits réservés. Copyright © 2016
contacts
e.20-bal.com