Thèse pour obtenir le grade de





télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page1/36
date de publication21.10.2017
taille3.33 Mb.
typeThèse
e.20-bal.com > droit > Thèse
  1   2   3   4   5   6   7   8   9   ...   36

AIX0230009

Université d’Aix-Marseille III

Expérience de Couplage entre bases de données factuelles et bases de données bibliographique :

Identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations sur les interactions génétiques ou moléculaires à partir de publications

Thèse

pour obtenir le grade de

Docteur de l'université de droit, d’économie et des sciences d’Aix-Marseille

en

Sciences de l’information et de la communication

présentée et soutenue publiquement

le 4 Janvier 2002

par

Ambroise Ingold

Rapporteurs

Pierre Zweigenbaum, DIAM / AP-HP et Université Paris 6

Philippe Dessen, INSERM - CNRS

Xavier Polanco, PRIS/INIST

Jury

Bernard Jacq, LGPD/IBDM/CNRS (codirecteur)

Luc Quoniam, Lepont, Université de Toulon et du Var (codirecteur)

Henri Dou, CRRM/Université Aix-Marseille III

Philippe Dessen, INSERM - CNRS

Xavier Polanco, PRIS/INIST

Sommaire

Sommaire 3

Remerciement 6

Introduction 7

Partie 1
État de l’Art 11

Chapitre 1 Contexte scientifique de l’étude 12

I.Veille technologique, intelligence économique et analyse de l’information textuelle 12

II.De la génétique à la bioinformatique 13

A.La génétique 13

B.Le projet génome 16

C.La post-génomique 17

D.Utilisation du projet génome pour accéder à la fonction des gènes 18

III.La recherche et l’extraction d’informations textuelles 19

A.La recherche d’informations textuelles 20

B.L’extraction d’informations textuelles 21

IV.Le couplage des Bases de données 23

A.La création de liens entre bases de données 23

B.Couplage des bases de données factuelles avec des bases de données bibliographiques 24

Chapitre 2 Études des travaux comparables 26

I.Travaux concernant la reconnaissance de gènes ou de leurs produits dans des textes 26

A.Travaux sur la reconnaissance des gènes ou de leurs produits basés sur l’utilisation de listes de termes 26

B.Travaux sur la reconnaissance des gènes ou de leurs produits n’utilisant pas de lexiques 29

C.Travaux sur la création automatique ou assistée de dictionnaire des gènes ou de leurs produits à partir de textes 31

D.Conclusion sur les travaux concernant la recherche de gènes ou de leurs produits dans des textes 32

II.Travaux sur l’analyse informatique des textes et les interactions génétiques ou moléculaires 33

A.Méthodes d’analyse informatique des textes sur les interactions génétiques et moléculaires basées sur la recherche de mots clefs et de phrases clefs 34

B.Méthodes basées sur des études statistiques d’apparition de mots clefs pour extraire des informations sur les interactions génétiques ou moléculaires 37

C.Méthodes basées sur la cooccurrence pour extraire des informations sur les interactions génétiques ou moléculaires 38

D.Méthodes basées sur des motifs textuels pour extraire des informations sur les interactions génétiques ou moléculaires 39

Chapitre 3 Notre apport et celui du consortium Cerise 41

I.Historique des travaux dans le consortium Cerise 41

A.Présentation du programme de recherche du consortium Cerise 41

B.Choix méthodologique initié par Pillet 43

C.La méthode des IVI 45

D.Les variantes de la méthode des IVI 49

II.Réflexions sur la méthode d’analyse que nous proposons 51

A.Choix du corpus d’analyse 51

B.Discussions sur les moyens et les buts 53

Partie 2
Réalisation et résultats 55

Chapitre 1 Analyse des problèmes posées 56

I.Inventaire des difficultés à résoudre pour réaliser un programme d’identification des gènes 56

A.Méthodologie 56

B.Complexité de la nomenclature 57

C.Ambiguïté des labels 65

D.Imprécision dans la terminologie 71

E.Les erreurs du dictionnaire 76

F.Nécessité de l’utilisation du contexte 79

II.Analyse du problème de la reconnaissance des interactions 84

A.Complexité de la reconnaissance des interactions 85

B.Difficulté de la reconnaissance des interactions 87

Chapitre 2 Mise en œuvre 101

I.Mise en œuvre du programme d’identification des gènes 101

A.Structure de données pour l’identification des gènes dans les textes 101

B.Méthode d’identification des gènes 116

C.Acquisition des données nécessaires à l’analyse 120

II.Mise en œuvre de la reconnaissance automatique des interactions 127

A.Structure de données pour la reconnaissance des interactions 127

B.Structure de données pour l’IVI 129

C.Constitution des données relatives au dictionnaire de lemmatisation 130

D.Méthode de reconnaissance des interactions 130

III.Interface de visualisation des données contenues dans la base de données 132

A.Confrontation entre indices et faits sur les interactions 133

B.Confrontation entre l’annotation manuelle et l’annotation automatique 134

C.Autres informations sur le résumé 135

Chapitre 3 Évaluation et propositions d’améliorations 141

I.Évaluation du programme d’identification des gènes et nouvelle directions de recherche 141

A.Évaluation du système d’identification des gènes sur l’échantillon A 141

B.Évaluation du système d’identification des gènes sur l’échantillon B et propositions d’améliorations 142

II.Évaluation du programme de reconnaissance des interactions et discussion 147

A.Explications communes à tous les graphiques 147

B.Statistiques sur les reconnaissances d’interactions 148

C.Statistiques sur les interactions 149

D.Nouvelles directions de recherche 158

Partie 3
Conclusion 166

Chapitre 1 Bilan du travail 167

Chapitre 2 Améliorations envisagées et nouvelles directions de recherche 169

I.Transformation du prototype en un logiciel convivial 169

II.Couplage avec des résultats d’expériences 169

III.Utilisation dans d’autres domaines d’applications 170

Liste des tableaux, figures, exemples et équations 171

Index des termes 175

Bibliographie 177

Plan détaillé 184

Annexe 191



Remerciement

Je voudrais tout d'abord remercier Henri Dou et Luc Quoniam pour la bourse de thèse dont j'ai bénéficié grâce à eux.

Je remercie Luc Quoniam pour avoir lancé le projet avec l'énergie qui le caractérise et d'avoir coordonné le travail d'équipe avec Violaine Pillet. Il m'a mis le pied à l'étrier et m'a encouragé.

Je remercie Bernard Jacq pour la curiosité et l'ouverture d'esprit dont il a fait preuve. Je le remercie aussi pour le temps qu'il a consacré au suivi de mon travail et pour sa participation à l'annotation des textes.

Je suis reconnaissant à Henri Dou d'avoir apporté son soutien aux moments importants, me permettant de mener ma thèse à bonne fin.

Je remercie mon entourage qui m'a soutenu et conseillé pendant les périodes d'incertitude et en particulier :

  • mon père pour ses corrections,

  • Alice pour ses relectures averties,

  • Jean-Baptiste pour avoir souvent témoigné de l’intérêt pour la progression de mon travail,

  • Laurence pour la finesses de son jugement.

Je remercie Valérie Leveillé, Marie Thérèse Maunoury, François Radvanyi et Marianne Tuefferd pour avoir corrigé mon manuscrit.

Je remercie Christian Jacquemin, William Turner et François Rechenmann pour avoir lu mon manuscrit et m'avoir donné des conseils.

Je remercie enfin les membres du jury pour leurs participations et leurs conseils.

Introduction

L’achèvement du projet génome ouvre la voie vers de nouvelles perspectives. Il s’agit d’exploiter les données acquises pour parvenir à comprendre le fonctionnement du vivant. De grandes bases de données capitalisent et organisent le savoir accumulé. Chacune répond à une problématique différente et la synthèse appartient finalement au chercheur lui-même. Les bases de données bibliographiques permettent l’accès au texte, qu’il s’agisse d’un résumé de publication, ou qu’il s’agisse du texte intégral de la publication. C’est là que se trouve l’information la plus complète, la plus détaillée, et la plus à jour. Les encyclopédies électroniques offrent un point de vue synthétique sur l’état du savoir. Les bases de données de résultats d’expériences permettent de formuler des hypothèses fécondes. Le va-et-vient entre les bases de données bibliographiques et les bases de données factuelles est rendu possible par des liens croisés. Pour les bases de données factuelles, il s’agit de maintenir des pointeurs vers de la bibliographie. Pour les bases de données bibliographiques, il s’agit, d’une part, de proposer des liens vers les résultats d’expériences, et d’autre part, d’indexer les textes à l’aide des nomenclatures maintenues par les encyclopédies électroniques. La masse des données en jeu est énorme. La vitesse avec laquelle le savoir s’accumule et s’actualise est grande. L’établissement de liens entre bases de données bibliographiques et bases de données factuelles ne peut plus être effectué manuellement. Comment l’automatiser ? Nous prenons deux exemples d’applications complémentaires pour y répondre.

Dans les publications scientifiques, qu’est-ce que nous aimerions voir repéré et lié à des données factuelles ? D’une part les objets, et d’autre part, les relations entre ces objets. Nous prendrons un exemple d’application pour chaque cas. Pour les objets, nous prendrons comme exemple les gènes de la Drosophile. Pour les relations, nous prendrons comme exemple les interactions génétiques ou moléculaires chez ce même organisme. Il s’agit d’un type de relation pertinent en génétique. La question est de savoir quand deux gènes collaborent dans un processus dans lequel ils sont impliqués. Dans certains cas (interaction moléculaire), cette collaboration s’explique par un contact physique entre des molécules. Plus généralement (interaction génétique), les mécanismes moléculaires restent inconnus ou l’interaction résulte de plusieurs interactions moléculaires s’enchaînant en cascade.

Notre travail comprend donc deux volets. Le premier volet consiste à repérer dans la base de données bibliographique Medline 1 les gènes qui sont répertoriés dans l’encyclopédie électronique sur la Drosophile Flybase. Le deuxième volet consiste à construire une base de données sur les interactions à partir des résumés de publications contenus dans Medline. Enfin, nous présentons le travail d’annotation permettant d’évaluer les résultats.

  1. Le repérage des gènes et des interactions géniques

À quelles disciplines scientifiques pouvons-nous faire appel ? Il s’agit tout d’abord de recherche d’informations. Quels sont les textes qui citent tel ou tel gène ? Quel sont les textes qui traitent d’interactions génétiques ou moléculaires ? L’intelligence artificielle est concernée, elle aussi. Il s’agit de compréhension du langage naturel. L’analyse grammaticale des phrases permet de repérer des syntagmes qui sont éventuellement des noms de gènes. Elle permet aussi de repérer des relations qui sont énoncées dans les textes. La bibliométrie et la statistique textuelle sont concernées. Il s’agit de valoriser des textes de publication scientifique, de trouver le vocabulaire spécifique des interactions et d’amener le lecteur à découvrir des relations entre les gènes par l’étude de la cooccurrence. Nous discuterons des apports possibles de ces disciplines à travers l’étude de travaux comparables. Nous emprunterons à chacune d’elles des idées, des techniques et des moyens d’évaluation.

Nous pensons que l’accès à l’information textuelle doit se faire par des mots clefs. Pour l’identification des gènes, il s’agit d’utiliser les divers noms du gène ou de ses produits. Pour la reconnaissance des interactions, il s’agit d’analyser le vocabulaire présent pour détecter le thème de l’interaction. C’est d’ailleurs de cette façon que les utilisateurs des bases de données recherchent des informations sur les objets qui les intéressent ou sur les relations qu’entretiennent ces objets entre eux. Ils utilisent des mots clefs qui représentent, soit les objets, soit les relations.

Identifier les gènes cités dans un texte est une tâche difficile à automatiser car la nomenclature est complexe et l’usage ne suit pas toujours la norme. Des abréviations sont utilisées, mais il peut en exister plusieurs. La terminologie évolue avec la progression de la connaissance. Les anciennes dénominations vont former des alias. En outre, un gène peut être désigné par ses produits, en particulier les protéines dont il commande la synthèse. Des variations orthographiques existent, notamment avec la coupure des mots, l’usage optionnel des tirets ou des majuscules. Des contradictions finissent par apparaître : deux termes peuvent désigner le même gène. Le contexte peut primer quand il existe plusieurs indices concordants de la présence d’un même gène. Certaines interprétations devront être privilégiées à contexte équivalent. Il existe aussi des termes vagues, qui ne désignent pas un gène précis mais peuvent renvoyer à toute une collection de gènes.

Flybase rend compte de la variété de tel ou tel nom de gène mais pas du choix des dénominations. S’y retrouve mêlées des informations relatives à la norme, à l’historique, aux mécanismes biologiques (avec les noms de protéines), aux variations orthographiques, aux écarts acceptables par rapport à la norme, à l’usage ponctuel dans une publication, à l’usage fautif, au manque de précisions, etc. Flybase présente un inventaire. Elle n’explique pas comment identifier les gènes dans un texte.

La polysémie est présente dans le domaine des gènes de la drosophile. D’une part, les termes utilisés peuvent désigner tout autre chose que des gènes. Par exemple : labial, blood et arrest sont des noms de gènes. De même N, h et if sont des noms abrégés des gènes Notch, hairy et inflated. D’autre part, les noms de gènes peuvent rentrer dans la composition de terme désignant d’autres gènes ou tout autre chose. Par exemple, les noms de gènes lethal of scute et Suppressor of Hairless sont formés sur les noms de gènes scute et Hairless. Autre exemple, le nom de gène scute entre dans la composition de Achaete-scute Complex qui est un complexe de gènes ; Polycomb entre dans la composition de Polycomb group qui est un groupe de gènes. Ce phénomène d’appariement de plusieurs termes pour former une entité de sens est appelé collocation.

Le contexte permet souvent de lever les ambiguïtés. Il permet soit d’identifier une collocation, soit de donner plusieurs indices concordants de la présence d’un même gène.

Pour parvenir à automatiser l’identification des gènes, il s’agit de structurer correctement les connaissances nécessaires à l’interprétation et de trouver un algorithme efficace. L’organisation des données a été conduite grâce à une base de données relationnelle. L’algorithme permettant l’interprétation du texte a été mis en œuvre grâce à des automatismes se succédant dans un ordre déterminé.

Plus qu’un algorithme d’identification des gènes, nous proposons une méthode pour corriger, structurer et enrichir des données déjà existantes sur la terminologie, de façon à permettre leur utilisation lors d’un processus automatique d’identification des gènes. Cette méthode passe par une confrontation des données présentes dans la nomenclature et des textes à annoter. Cette confrontation permet à la fois de mesurer l’efficacité du processus, de comprendre les problèmes, de corriger, annoter ou enrichir la nomenclature. La question est aussi d’obtenir des informations sur l’usage réel qui est fait de la nomenclature. Par exemple quelle est la fréquence d’utilisation des abréviations, des alias, etc. ?

La nomenclature maintenue par Flybase n’est pas tout à fait complète. Des variations orthographiques ont été omises. Nous proposons un système pour anticiper certaines de ces variations orthographiques. Il s’agit d’enrichir la nomenclature par analyse automatique des textes, de façon à valider les variations orthographiques anticipées.

  1. Extraction d’information sur les interactions génétiques ou moléculaires

Le deuxième volet de notre travail consiste à construire une base de données sur les interactions génétiques ou moléculaires à partir de résumés de publications. Il s’agit d’une tâche d’extraction de connaissances à partir de texte. Nous utilisons principalement la cooccurrence pour y parvenir. Il s’agit de repérer les couples de gènes cités dans au moins une phrase. Nous utilisons en complément un indicateur statistique évaluant la probabilité qu’une phrase décrive une interaction. Cet indicateur est basé sur l’existence d’un vocabulaire spécifique aux interactions génétiques ou moléculaires. Il s’agit de résultats obtenus au CRRM par Violaine Pillet et que nous avons intégrés à notre système (2000).

Les travaux sur l’extraction d’information sur les interactions génétiques ou moléculaires sont de deux types. Dans un premier type d’étude, des matrices de cooccurrence sont calculées pour savoir si l’apparition d’un gène est corrélée avec l’apparition d’un autre gène. Ces études permettent de découvrir des relations fonctionnelles évidentes ou cachées et apportent donc une aide à la découverte. Les résultats sont évalués sur la base de leur utilité pour le chercheur. Il est difficile de savoir dans quelle mesure une information initialement présente dans les textes est ou n’est pas retenue.

Dans un autre type d’étude, des modèles d’énoncés d’interactions sont inventoriés et les motifs textuels correspondants sont recherchés dans les textes. Cependant les modèles utilisés sont simples et les motifs sont donc très spécifiques. Par exemple, il s’agira de rechercher des verbes d’action comme bind et de les associer aux syntagmes nominaux voisins, qui sont en principe des noms de gènes ou de protéines. La spécificité des motifs recherchés va assurer une grande qualité des réponses fournies. La précision sera donc bonne. Inversement la quantité d’information extraite sera relativement faible car beaucoup de descriptions d’interactions ne correspondront pas au modèle prédéfini. Le rappel sera donc mauvais.

  1. Les bénéfices de l’annotation

Dans la plupart des études, la perte d’information, due à la trop grande spécificité des motifs textuels recherchés ou plus généralement à la sélection qui est opérée sur les textes, n’est pas évaluée. En effet, dans ces études, l’évaluation n’est menée que sur les textes qui présentent déjà des caractéristiques bien précises. Nous pensons que l’annotation des textes doit se faire avant toute sélection. C’est la seule façon de connaître la quantité d’informations qui est perdue après la sélection.

En outre, cette annotation est très instructive. Elle permet de se rendre compte du fait que les interactions sont souvent décrites dans des énoncés très complexes. Ces énoncés se prêtent difficilement à des recherches de motifs textuels précis. Nous proposons donc un système basé sur la recherche de termes simples. Ces termes sont choisis pour les renseignements qu’ils apportent à eux seuls – c’est à dire en dehors de toute combinaison – sur la présence d’une interaction. Ceci est apprécié par une corrélation statistique entre leur utilisation dans une phrase et la présence d’une interaction dans cette même phrase. À chacun de ces termes est associé un coefficient qui a été calculé sur un échantillon d’apprentissage. La moyenne des nombres ainsi trouvée dans une même phrase nous renseigne sur la probabilité d’avoir une ou plusieurs interactions dans la phrase. Les phrases dont le vocabulaire est considéré comme favorable seront annotées. Cette annotation consiste à repérer tous les couples de gènes en présence.

Le document est organisé en deux parties. La première partie donne les éléments nécessaires à la compréhension en ce qui concerne la veille technologique, la bibliométrie, la biologie et les techniques de recherche et d’extraction d’informations. L’analyse critique des travaux menés dans ce domaine est fournie dans cette partie. Nous décrivons ensuite le programme de recherche auquel nous prenons part, ainsi que les principaux résultats sur lesquels nous nous appuyons. La deuxième partie présente les réalisations effectuées, elle fournit les résultats obtenus et donne des méthodes d’évaluation de ces résultats.
  1   2   3   4   5   6   7   8   9   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de
...

Thèse pour obtenir le grade de iconThèse pour obtenir le grade de docteur de l’Université Paris I panthéon-Sorbonne
«L’Université n’entend donner aucune approbation ni improbation aux opinions émises dans ce document. Ces opinions doivent être considérées...

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse pour l'obtention du grade de

Thèse pour obtenir le grade de iconThèse pour le grade de docteur en droit

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de docteur en médecine

Thèse pour obtenir le grade de iconLe grade d’administrateur général ( grade à Accès Fonctionnel – graf)
«Emplois supérieurs pour lesquels les nominations sont laissées à la décision du Gouvernement»

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de
«sur le terrain», pour ce qu’elles ont bien voulu partager avec moi. La part d’elles-mêmes qu’elles m’ont ainsi laissée constitue...






Tous droits réservés. Copyright © 2016
contacts
e.20-bal.com