Thèse pour obtenir le grade de





télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page5/36
date de publication21.10.2017
taille3.33 Mb.
typeThèse
e.20-bal.com > droit > Thèse
1   2   3   4   5   6   7   8   9   ...   36

II.Travaux sur l’analyse informatique des textes et les interactions génétiques ou moléculaires


Le second volet de notre travail consiste à extraire des informations sur les interactions génétiques et moléculaires. Cette tâche relève de l’extraction d’informations telle que nous l’avons définie précédemment. La plupart des travaux appartiennent au domaine de la compréhension du langage naturel qui est une branche de l’intelligence artificielle qui elle-même est une discipline de l’informatique. Il s’agit de rechercher des motifs spécifiques de la description d’une interaction. Il existe différentes approches que nous présenterons successivement.

Nous traiterons des méthodes basées sur la cooccurrence des gènes. La cooccurrence est un facteur qui est utilisé dans tous les travaux mais qui n’est pas toujours mis en valeur. Il semble que les auteurs considèrent la cooccurrence comme un critère allant de soi. De fait, il est naturel de penser qu’un texte qui décrit une interaction entre deux gènes, les citent tous les deux au moins une fois. La cooccurrence apparaît comme une condition nécessaire mais non suffisante. La plupart des auteurs vont se concentrer sur ce que leur analyse des textes peut apporter comme information supplémentaire. Cependant, certains travaux utilisent la cooccurrence comme source d’informations principales. Il s’agit, dans ce cas, de détecter des corrélations statistiques entre l’apparition d’un gène –dans un texte –et l’apparition d’un autre gène. Ces corrélations expriment des relations fonctionnelles évidentes ou révèlent des relations cachées. Ces études permettent donc l’exploration de connaissances bien établies tout en proposant une aide à la découverte.

Nous traiterons aussi des méthodes basées sur la recherche de mots clefs ou de phrases clefs. Ces travaux sont fondés sur le repérage des segments de textes pertinents pour une question donnée.

D’une part, les mots clefs sont utilisés par la plupart des méthodes pour sélectionner les textes qui vont être traités. D’autre part, les travaux en compréhension du langage naturel n’utilisent pour la plupart d’entre eux qu’un tout petit nombre de mots pivots, souvent des verbes, pour repérer les interactions. Ainsi, les méthodes classiques utilisent d’une certaine façon des mots clefs même si elles se concentrent sur ce qu’elles peuvent apporter en plus au processus d’extraction d’informations. Nous réserverons donc une partie aux méthodes qui traitent de l’utilisation de mots clefs pour permettre l’accès à l’information pertinente sur les interactions.

A.Méthodes d’analyse informatique des textes sur les interactions génétiques et moléculaires basées sur la recherche de mots clefs et de phrases clefs


Nous présentons dans cette section des travaux appartenant au domaine de la recherche d’informations. Leur but est de faciliter l’accès au texte en repérant des points saillants ou en classant les textes selon des thèmes. Ces travaux ont été menés sur Medline. Les auteurs s’intéressent aux interactions entre les gènes ou leurs produits et plus généralement à la fonction des gènes. La méthode utilisée est celle de la recherche de mots clefs et de phrases clefs.

AbXtract 16 est un système de recherche d’informations sur la fonction des protéines (Andrade et al., 1998). Il permet de sélectionner dans la littérature les phrases les plus informatives sur la fonction d’une famille de protéines donnée. Ces phrases, appelées phrase clefs, sont repérées selon des critères statistiques (Andrade et al., 1997). Il s’agit de savoir si une phrase donnée contient des mots, appelé mots clefs, plus spécifiquement associés à la famille d’intérêt qu’à d’autres familles. Les textes sont présentés à l’utilisateur avec un code de couleurs qui lui permet de visualiser les éléments du texte les plus significatifs. Nous présentons un exemple ci-dessous.

Exemple 1 Détection de phrases clefs et de mots clefs par le logiciel AbXtract.

Les mots clefs sont en gras, les phrases clefs sont soulignées. La première phrase correspond au titre de l’article. Le résumé présenté est celui dont le numéro est 96362658. Le formatage est calculé par AbsXtract avec la requête cap2, qui est le nom d’une protéine chez la levure.

Mutational analysis of capping protein function in Saccharomyces cerevisiae. To investigate physiologic functions and structural correlates for actin capping protein (CP), we analyzed site-directed mutations in CAP1 and CAP2, which encode the alpha and beta subunits of CP in Saccharomyces cerevisiae. Mutations in four different regions caused a loss of CP function in vivo despite the presence of mutant protein in the cells. Mutations in three regions caused a complete loss of all aspects of function, including the actin distribution, viability with sac6, and localization of CP to actin cortical patches. Mutation of the fourth region led to partial loss of only one function-formation of actin cables. Some mutations retained function and exhibited the complete wild-type phenotype, and some mutations led to a complete loss of protein and therefore loss of function. The simplest hypothesis that can explain these results is that a single biochemical property is necessary for all in vivo functions. This biochemical property is most likely binding to actin filaments, because the nonfunctional mutant CPs no longer co-localize with actin filaments in vivo and because direct binding of CP to actin filaments has been well established by studies with purified proteins in vitro. More complex hypotheses, involving the existence of additional biochemical properties important for function, cannot be excluded by this analysis.

Nous avons remplacé le codage en couleur par un codage en noir et blanc. On voit que le titre a été repéré comme phrase clef, plus quatre phrases au milieu du résumé.

Les mots clefs et les phrases clefs ont été déterminés de la manière suivante. Pour une famille de protéines donnée, on considère l’ensemble des résumés qui traitent de cette famille. Pour un terme donné, on définit F comme la proportion des résumés qui utilisent le terme. La moyenne et l’écart type de la variable F sont calculés sur les familles à terme constant. On définit le score du terme dans la famille par la formule :



Dans le cas où le terme ne serait utilisé que dans une famille, il ne serait pas possible de calculer l’écart type. Dans ce cas, on prend un score égal à dix fois F (Andrade et al., 2001). Les mots clefs sont, par définition, les mots dont le score est supérieur à un certain seuil. Le score de la phrase est obtenu en faisant la moyenne des scores des mots qui la composent. Les phrases clefs sont les phrases dont le score est supérieur à un certain seuil.

Cette technique, qui permet de trouver des mots clefs et des phrases clefs caractéristiques d’un ensemble de protéines, a aussi été utilisée pour interpréter les données d’expressions des gènes. Blaschke et al. (2000) proposent le système GEISHA 17. Ces données d’expression sont le résultat d’expériences sur puces à ADN. La comparaison des données d’expressions permet d’identifier des groupes ayant des profils semblables. Ces données de classification doivent être interprétées. L’utilisation de la littérature est un moyen d’obtenir des mots clefs caractéristiques de chaque groupe. Des méthodes de statistiques textuelles similaires à celles précédemment exposées sont utilisées. L’interface proposée à l’utilisateur permet de lier les mots clefs aux résumés et donc au contexte d’utilisation de ces mots clefs. Les mots clefs sont aussi reliés entre eux de façon à pouvoir naviguer entre les mots clefs pour explorer l’échantillon étudié.

La relation entre profils d’expression comparable et similarité fonctionnelle a été étudiée par Juan Carlos Oliveros et al.. (2000). Les auteurs montrent que des gènes ayant mêmes profils d’expression auront des contextes textuels semblables dans Medline. Cette proximité dans les textes signe d’après les auteurs une similarité fonctionnelle.

La méthode mise en œuvre dans AbXtract a été adaptée à la mise à jour automatique des informations contenues dans les bases de données. Il s’agit d’extraire de la littérature des mots clefs pour décrire des données présentes dans la base de données OMIM (Andrade, 2000). L’utilisation de la littérature permet de garantir la fraîcheur des données.

Blaschke et al. ont aussi utilisé AbXtract pour mettre au point un système d’extraction d’informations sur les protéines (1999). Le logiciel a servi à établir une liste de verbes pertinents. Nous y reviendrons dans la suite.

Tanabe et al. proposent Medminer 18, un système de recherche d’informations sur les gènes et leurs implications dans des pathologies (1999). Ce système permet de rechercher et de classer des résumés issus de Medline. Ce logiciel est donc une aide à la lecture. Il permet de mettre en avant des textes pertinents pour une question particulière. Cette question est définie par avance. Il s’agit de la fonction des gènes, de leurs interactions et de leurs implications dans des pathologies. La sélection et le classement des résumés se font selon des mots clefs. Un petit nombre de thèmes de classement est proposé. Pour chacun de ces thèmes, une petite liste de mots clefs est dressée. Les textes qui utilisent ces mots clefs sont sélectionnés et regroupés dans les thèmes correspondants. Les thèmes et les mots clefs associés sont définis avant toute expérience, contrairement aux méthodes présentées précédemment. Ce sont donc toujours les mêmes, alors que dans AbXtract les mots clefs sont différents pour chaque famille de protéines. Un des thèmes pris en charge correspond à l’interaction moléculaire et les mots clefs associés sont : bind*, cataly*, cleav* et transcri*, où l’astérisque représente une troncature. Un autre thème correspond à l’inhibition et les mots clefs associés sont : Downregulat*, block*, deplet*, deficien*, decreas*, inhibit*, reduc* et absen*. Comme on peut le constater, les mots clefs sont souvent des verbes. L’utilisateur a la possibilité d’interroger le système avec des noms de gènes ou de protéines. Le système est adapté à l’étude des relations que peuvent entretenir deux gènes entre eux grâce à la possibilité qui est offerte d’effectuer une interrogation avec un couple de labels. Dans ce cas, une phrase va être considérée comme pertinente si elle contient un des deux labels et si un mot clef est utilisé. Un résumé sera considéré comme pertinent s’il contient une phrase pertinente et si les deux labels sont cités. Le résultat d’une interrogation est consultable en hypertexte.

B.Méthodes basées sur des études statistiques d’apparition de mots clefs pour extraire des informations sur les interactions génétiques ou moléculaires


Un autre courant de recherche utilise la statistique textuelle pour obtenir des informations synthétiques sur la fonction des gènes. Les statistiques sont effectuées sur des mots du texte ou sur des descripteurs.

Shatkay et al. proposent un système pour caractériser des ensembles de gènes par des mots clefs (2000). Les auteurs font appel à des modèles statistiques qui décrivent la fréquence des mots dans les documents. Les documents sont représentés par les mots qu’ils utilisent. La question qui est posée est celle de trouver les termes qui représentent le mieux un ensemble de documents donnés. Le système est utilisé pour interpréter des données d’expression issues de puces à ADN.

Masys et al. proposent un système analogue d’interprétation de données d’expressions (2001). Il s’agit aussi d’interpréter les résultats d’expériences issues de puces à ADN. Les groupes de gènes, ayant des profils similaires, sont caractérisés grâce à des données issues de Medline. Les informations extraites de Medline sont les termes MeSH qui servent à l’indexation des résumés. Ainsi les profils d’expressions sont associés à des termes MeSH. Les auteurs utilisent en particulier la classification hiérarchique des enzymes que propose le MeSH. Nous avons là un exemple très intéressant de liens établis entre des données d’expériences et des données de type encyclopédique. Ces liens sont établis par l’intermédiaire des publications. Il s’agit de composer deux liens. Le premier lien va des données d’expérience vers les données de publications. Il s’agit de trouver les publications qui donnent des informations sur les gènes dont on a des données d’expressions. Le deuxième lien va des publications vers des données de classification. Il s’agit d’une description des documents faite par Medline. Le résultat est une description très riche des données d’expériences.

Biobibliometrics 19 est un système d’extraction d’informations sur les fonctions des gènes basé sur des statistiques de cooccurrences des labels (Stapley et al., 2000). Le système est basé sur le fait que les gènes n’apparaissent pas « au hasard » dans les textes. Il y a des corrélations. Le traitement statistique vise à découvrir ces corrélations. Des couples de gènes en relation sont ainsi mis en évidence. Les auteurs affirment que ces corrélations sont liées à des similitudes fonctionnelles. Le système permet aussi de révéler des relations qui ne sont pas évidentes au premier abord. Il permet donc la découverte. Le résultat est présenté sous forme de graphes. Le système est interrogeable à partir de mots clefs. Pour résumer, le système permet de connaître les gènes impliqués dans un phénomène donné et leurs relations de cooccurrence.

Stephens et al. (2001) proposent aussi un système basé sur des statistiques de cooccurrence pour extraire des informations sur les relations qu’entretiennent les gènes entre eux. Les relations en question ne sont pas définies avec précision. Il peut s’agir d’interaction, de participation à des processus communs ou simplement de partage de caractéristiques communes. La démarche est donc clairement celle de la découverte. Un graphe est construit automatiquement pour visualiser le résultat d’une requête. Dans ce graphe, les nœuds représentent des labels et les branches représentent des relations de cooccurrence. La longueur d’une branche est d’autant plus petite que les labels ont tendance à être présents dans les mêmes résumés. Cependant, l’importance d’une cooccurrence dans le calcul va dépendre de l’importance des gènes concernés dans la représentation du document à l’intérieur de l’espace des documents. L’interprétation des graphes n’est donc pas évidente. Le système proposé permet en plus de caractériser la relation entre les gènes. La caractérisation de la relation qu’entretiennent deux gènes co-occurrents est réalisée comme suit. Une liste de descripteurs possibles est dressée avant toute expérience. Il s’agit de mots clefs que l’on est susceptible de trouver dans les résumés. Parmi ces descripteurs, est choisi, pour caractériser la relation celui qui est le plus statistiquement significatif de l’ensemble de résumés qui co-citent les gènes. Les expériences sont menées sur un petit groupe de gènes que l’on sait être en relation. Le dispositif est d’un maniement assez délicat puisque le nombre de résumés doit être sensiblement le même pour chaque label.

PubGene 20est un système analogue qui exploite la cooccurrence pour faire des statistiques (Jenssen et al., 2001). Ce logiciel est dédié à l’étude des relations que peuvent entretenir les gènes humains entre eux. Ce système exploite plus de 10 millions de notices bibliographiques issues de Medline. Les cooccurrences sont recherchées dans le titre ou dans le résumé. Le système permet aussi d’étudier des relations plus larges. Il s’agit de trouver des gènes présents dans des articles co-cités. La co-citation, c’est à dire, pour deux articles, le fait d’être cité en référence bibliographique dans un troisième article, révèle une relation entre les deux articles. Les gènes décrits dans des articles en relation sont en relation eux-mêmes. C’est cette relation entre les gènes qui est étudiée. Pour faire ce travail les auteurs ont utilisé le Science Citation Index. Dans cette base de données la bibliographie de chaque article est incluse dans la notice (Quoniam, 1996).

Le premier but de PubGene est de visualiser des graphes de gènes en relation. Cependant, les auteurs proposent d’autres types d’utilisation, à savoir :

  • parcourir la littérature associée à un gène donné de façon plus ou moins large,

  • rechercher la littérature relative à un groupe de gènes,

  • rechercher des termes associés à un gène donné,

  • trouver les noms officiels d’un gène donné,

  • rechercher les termes MeSH associées à un groupe de gène,

  • interpréter des données d’expressions.

C.Méthodes basées sur la cooccurrence pour extraire des informations sur les interactions génétiques ou moléculaires


Rindflesch et al. propose un système d’extraction d’informations sur les relations qu’entretiennent gènes, médicaments et cellules (2000). Il s’agit de trouver des relations du type : dans les cellules de type C, l’expression du gène G est inhibée (ou activée) par le médicament M, ou du type, les cellules du type C acquièrent une résistance (ou une sensibilité) au médicament M quand le gène G s’exprime. Ce type d’informations est utile dans l’étude du cancer. Le système est basé sur la reconnaissance dans une même phrase d’un gène, d’un type cellulaire et d’un médicament. Il s’agit donc d’un système basé sur la cooccurrence, même si la relation en question est tripartite. Le système proposé ne permet pas de déterminer le type de relation entre les trois entités mais les auteurs projettent d’y arriver à l’avenir.

Pillet et al. proposent aussi un système basé sur la cooccurrence (1998). Il s’agit d’extraire des informations sur les interactions génétiques ou moléculaires à partir de commentaires bibliographiques contenus dans Flybase. Le système est basé à la fois sur la cooccurrence et sur la présence d’un vocabulaire spécifique dans la phrase. Nous avons utilisé ce travail et nous donnerons plus d’information quand nous décrirons nos réalisations.

D.Méthodes basées sur des motifs textuels pour extraire des informations sur les interactions génétiques ou moléculaires


Pour détecter des interactions, la cooccurrence de deux labels n’est pas un facteur suffisant. La cooccurrence peut avoir lieu pour bien d’autres raisons que la description d’une interaction. Des éléments supplémentaires d’informations doivent être adjoints pour décider si une interaction est décrite ou non. De plus, dans le cas où il y aurait cooccurrence, et sauf dans le cas où il n’y aurait que deux labels, il resterait à déterminer entre quels labels les interactions ont lieu. La question du sens, de A vers B ou de B vers A, doit aussi être posée. La question de savoir quel est le type de l’interaction, activation ou inhibition par exemple, reste elle aussi ouverte.

Ainsi, il apparaît nécessaire de faire une analyse plus approfondie de la phrase. Il est important de repérer des verbes tel que activate ou inhibit et de déterminer sujets et compléments d’objets associés. Il s’agit donc de faire appel au traitement automatique des langues. Les travaux qui suivent font appels à cette technique.

Blaschke et al. (1999) proposent un système d’extraction d’informations sur les interactions entres protéines. Ce système s’appelle suiseki 21. Il permet de travailler sur un ensemble prédéfini de protéines impliquées dans un même processus. Les résumés issus de Medline qui correspondent à ce processus sont analysés. Il s’agit de reconnaître des motifs du type : Protéine A – Action – Protéine B, où Protéine A et Protéine B sont des noms de protéines et Action est un verbe appartenant à une liste prédéfinie. Les auteurs recherchent aussi des phrases du type « la protéine A est un membre de la famille B » et ils utilisent d’autres motifs textuels pour cela. Le verbe utilisé pour l’action permet aussi de déterminer quel est le type de l’interaction. Le système est testé dans des cas pratiques, ce qui permet aux auteurs de démontrer sa pertinence. Cependant les auteurs n’ont pas évalué la précision et le rappel.

Sekimizu et al. proposent un système d’extraction d’information sur les interactions entre les gènes ou leurs produits (1998). Les interactions sont détectées grâce à la présence de verbes tels que activate, bind, interact, regulate et inhibit. Ce travail s’inscrit dans le projet GENIA d’acquisition de connaissances à partir de publications sur le génome (1999). Les auteurs évaluent la précision de leur résultat mais ne sont pas en mesure d’évaluer le rappel.

L’université de Tokyo développe un système d’extraction d’informations sur les interactions entre protéines (Ono et al., 1999). Les motifs utilisés sont du type Protéine A – interact with – Protéine B. Le système a été testé sur la levure Saccharomyces cerevisiae et sur la bactérie Escherichia coli. Les taux de rappel atteignent respectivement 86,8% et 82,5% (Ono et al., 2001). Cependant les performances du système sont évaluées sur les seules phrases qui contiennent les motifs recherchés. Ainsi le rappel calculé ne prend pas en compte toutes les interactions qui ont été manquées à cause d’un motif trop spécifique. Les taux de précision atteignent respectivement 94,3 % et 93,5 %.

La même équipe de recherche présente aussi un travail sur les voies biologiques (Hishigaki et al., 1999). Il s’agit d’extraire des informations sur les relations entre les protéines et les voies biologiques dans lesquelles la protéine est impliquée. Les auteurs proposent d’exploiter les données sur les interactions pour obtenir des informations sur la fonction des protéines et les voies biologiques.

D’autres équipes de recherche travaillent sur l’extraction d’informations sur les voies biologiques. Le système PIES (Protein Interaction Extraction System) associe des fonctions de recherche et d’extraction d’informations sur les interactions entre protéines, de manipulation des informations sur les interactions et sur les voies biologiques et de visualisation des réseaux d’interactions (Ng et al., 1999). Dans ce système la recherche d’informations se fait par repérage de certains verbes. Ces verbes sont choisis avant toute expérience. Ils sont regroupés en classes selon des thèmes. Le thème Inhibition regroupe les verbes inhibit, suppress et negativly regulate. Le thème Activation regroupe les verbes activate, transactivate, induce, upregulate et positively regulate. Les phrases contenant un de ces verbes sont sélectionnées. Des motifs sont recherchés dans ces phrases de façon à extraire des informations sur le réseau d’interactions décrit. Le stockage et la manipulation des informations sur les interactions et les voies biologiques est réalisé dans une base de données. Le système permet aussi d’intégrer des informations sur les interactions issues de calcul sur les séquences (Wong et al., 2001). Il s’agit de repérer des évènements de fusion entre gènes au cours de l’évolution. PIES se présente donc comme un système complet d’acquisition, de manipulation de visualisation d’informations sur les voies biologiques.

Les systèmes d’extraction d’informations sur les interactions peuvent être des adaptations d’un système plus généraliste. Le système d’extraction d’informations Highlight est une adaptation du système FASTUS développé par le SRI (Thomas et al., 2000). Les informations extraites concernent les interactions entre protéines. Les verbes utilisés sont interract, associate et bind. Un test effectué sur un échantillon de 90 résumés fait ressortir des taux de rappel et de précision de respectivement 29 % et 69 %.
1   2   3   4   5   6   7   8   9   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de
...

Thèse pour obtenir le grade de iconThèse pour obtenir le grade de docteur de l’Université Paris I panthéon-Sorbonne
«L’Université n’entend donner aucune approbation ni improbation aux opinions émises dans ce document. Ces opinions doivent être considérées...

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse pour l'obtention du grade de

Thèse pour obtenir le grade de iconThèse pour le grade de docteur en droit

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de docteur en médecine

Thèse pour obtenir le grade de iconLe grade d’administrateur général ( grade à Accès Fonctionnel – graf)
«Emplois supérieurs pour lesquels les nominations sont laissées à la décision du Gouvernement»

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de
«sur le terrain», pour ce qu’elles ont bien voulu partager avec moi. La part d’elles-mêmes qu’elles m’ont ainsi laissée constitue...






Tous droits réservés. Copyright © 2016
contacts
e.20-bal.com