Thèse pour obtenir le grade de





télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page8/36
date de publication21.10.2017
taille3.33 Mb.
typeThèse
e.20-bal.com > droit > Thèse
1   ...   4   5   6   7   8   9   10   11   ...   36

Partie 2
Réalisation et résultats

Chapitre 1 Analyse des problèmes posées


Nous analysons dans cette partie le problème posée par l’identification des gènes dans les textes et par l’extraction d’information sur les interactions. Nous expliquerons les méthodes que nous avons mises en œuvre pour les résoudre dans la partie .

I.Inventaire des difficultés à résoudre pour réaliser un programme d’identification des gènes


L’identification des gènes dans les textes pose de nombreux problèmes, de nature assez diverse et d’importance plus ou moins grande. Par identification, nous entendons à la fois reconnaissance des gènes présents et, pour chaque gène en présence, des occurrences dans le texte où il y est fait référence.

Nous proposons ici un inventaire structuré de ces difficultés. Chaque difficulté est illustrée par des exemples issus de Medline. Cette partie a donc pour but de définir précisément en quoi consiste la tache d’identification des gènes dans les textes. Elle constitue un cahier des charges, qui permettra de justifier le schéma du logiciel que nous avons conçu.

Pour chaque difficulté nous donnons un aperçu de la solution que nous proposons, mais les détails techniques de la mise en œuvre seront expliqués dans l’exposé du fonctionnement du logiciel section Chapitre 2 I.

A.Méthodologie


Cet inventaire a été rendu possible grâce à une annotation experte des textes. Cette annotation est très précise puisque chaque référence à un gène est identifiée et interprétée comme illustré dans l’exemple 56.

Exemple 4 Annotation des phrases

Chaque phrase est annotée de façon précise. Ici les termes soulignés pct, hh et wg sont repérés et interprétés comme faisant références aux gènes patched (pct), hedgehog (hh) et wingless (wg).

Here we present further evidence that ptc and hh encode components of a signal transduction pathway that regulate the expression of wg transcription following its activation by pair-rule genes.

Ces annotations ont été saisies par un spécialiste du domaine dans une base de données (Ingold, 1999). Un ensemble de 112 résumés, que nous appellerons l’échantillon A, a ainsi été complètement annoté. Cela nous a permis de faire un inventaire précis des difficultés rencontrées pour l’identification des gènes dans les textes et de quantifier l’importance de chacune d’elle.

En effet, pour chaque difficulté nous présentons une liste d’exemples qui est exhaustive. Ainsi, la taille du tableau d’exemples indique l’importance de la difficulté.

Comme nous allons le voir, l’identification des gènes dans les textes est un problème complexe. Les règles à appliquer seront donc nombreuses et chaque règle pourra recevoir des exceptions. Voyons maintenant chaque type de difficulté.

B.Complexité de la nomenclature

1.Règles de désignation des gènes pour la drosophile

La mutation d’un gène donné se manifeste généralement par l’apparition d’une caractéristique physique (un phénotype) qui est le plus souvent une anomalie. Souvent le gène prend le nom de ce handicap ou un nom qui l’évoque. Par exemple, le dysfonctionnement du gène white se manifeste par une dépigmentation des yeux de l’individu. Les noms peuvent aussi être composés comme par exemple Suppressor of Hairless qui est un gène qui inhibe l’expression du gène Hairless. Les découvreurs de gènes doivent faire preuve de beaucoup d’imagination pour trouver des noms qui ne sont pas déjà pris et choisissent des noms originaux pour décrire les phénotypes et donc les gènes auxquels ils ont à faire. Voici quelques exemples 57.

Tableau 5 Exemples de nom de gène

Les biologistes n’utilisent pas de noms de code mais laissent libre cours à leur imagination pour décrire les individus mutants.

Gène (traduction littérale)

Hairless (chauve)

gypsy (bohémien)

hedgehog (hérisson)

gooseberry (groseille à maquerau)

On voit que les gènes peuvent avoir des noms très divers. Il n’y a pas de nom de code avec un format particulier qui permettrait de les reconnaître dans un texte sans avoir à les connaître par avance. Ainsi, on se voit dans l’obligation d’utiliser des lexiques, c’est à dire des listes de termes à rechercher dans les textes.

Voyons maintenant pourquoi l’utilisation d’un lexique non structuré ne convient pas, et pourquoi il est nécessaire d’avoir en sa possession un véritable dictionnaire des gènes.
2.Existence de plusieurs termes pour désigner un seul gène

La tâche d’identification des gènes dans les textes est compliquée par le fait qu’un même gène peut être désigné de plusieurs façons. Il n’est pas rare de voir un auteur utiliser plusieurs noms pour un même gène dans le même résumé ou dans la même phrase. Voici un exemple 58.

Exemple 5 Plusieurs termes pour désigner un seul gène.

Les mots soulignés, wg et wingless, désignent le même gène.

The segment polarity gene wingless (wg) is expressed in a complex pattern during embryogenesis suggesting that it plays multiple roles in the development of the embryo.The best characterized of these is its role in cell pattening in each parasegment, a process that requires the activity of other segment polarity genes including patched (ptc) and hedgehog (hh). Here we present further evidence that ptc and hh encode components of a signal transduction pathway that regulate the expression of wg transcription following its activation by pair-rule genes. We also show that most other aspects of wg expression are independent of this regulatory network.

Nous voyons dans cet exemple l’utilisation d’abréviations pour les gènes. Ce sont les symboles des gènes. Dans une terminologie alternative, ils sont appelés nom abrégé. Le nom standard des gènes est par opposition appelé nom complet ou parfois nom développé.

L’usage veut que l’on précise la terminologie que l’on emploiera dans le résumé, en écrivant le nom complet puis le symbole entre parenthèses ; puis que l’on utilise par la suite le symbole. C’est ce qui est fait dans l’exemple 58.

Malheureusement, s’il est vrai qu’un auteur n’utilise qu’un seul symbole et un seul nom complet, ce qui ne fait que deux noms en tout, il se peut qu’un autre auteur utilise lui un autre couple symbole-nom complet. Nous utilisons les données contenues dans une base de données qui fait référence en la matière pour choisir un nom complet et un symbole : Flybase. Tout autre nom sera considéré comme un nom synonyme.

La présence de plus d’un nom pour un seul gène va nous obliger à utiliser un dictionnaire, c’est à dire un lexique plus structuré qu’une simple liste de termes. Chaque terme qui peut être employé dans un texte pour désigner un gène sera appelé un label. A chaque gène on peut associer un certain nombre de labels. Nous dirons que cela constitue les définitions du gène.

Nous pouvons nous représenter le dictionnaire comme étant constitué d’entrées qui décrivent chacune un gène. Suivent ensuite les définitions qui donnent chacune un label possible. Chaque définition est d’un type donné : symbole, nom complet ou nom synonyme. Ceci est illustré dans le Tableau 6.

Tableau 6 Un gène et ses définitions.

Chaque définition donne un label possible pour désigner le gène. Elle peut être de trois types : symbole, nom complet ou nom synonyme.

Le gène

Les définitions

wingless (wg)







wg, symbole

wingless, nom complet

Spd, synonyme

spade, synonyme

fg, synonyme

flag, synonyme

Sp, synonyme

Sternopleural, synonyme

Br, synonyme

Bristled, synonyme

int-1, synonyme

Dint-1, synonyme

Dm-1, synonyme

l(2)wg, synonyme

Par construction, les définitions d’un gène utilisent des labels qui sont tous distincts. En revanche, un label peut appartenir à plusieurs définitions. Ce qui veut dire que plusieurs gènes peuvent avoir en commun un même label. Nous dirons dans ce cas que les définitions sont en conflit. Nous reviendrons plus tard sur cette difficulté, mais nous pouvons déjà noter l’utilité de l’utilisation d’une base de données pour représenter de façon efficace la réalité de la terminologie.

Pour situer l’importance relative des différents type de nom, nous donnons dans le tableau suivant les résultats d’une statistique obtenue sur l’échantillon A.

Tableau 7 Importance relative de chaque type de définition

Cette statistique est faite à partir de l’annotation manuelle de l’échantillon A. La fréquence indique le nombre d’occurrence dans les textes de définition d’un type donné.

Type

Fréquence

Proportion

Symbole

539

42%

Nom Complet

375

30%

Synonyme

360

28%

Total

1274

100%

On constate qu’aucune catégorie n’est négligeable relativement aux deux autres.

Les données utilisées pour construire le dictionnaire ont été extraites d’une base de données très complète pour la nomenclature des gènes de la drosophile : Flybase.
3.Importance de la casse pour désigner un gène

La casse, c’est à dire la caractéristique minuscule ou majuscule d’un caractère, a de l’importance. Le Tableau 8 donne des exemples de labels effectivement rencontrés dans les textes pour lesquels il y aurait eu ambiguïté si nous ne disposions pas d’un système de reconnaissance qui fasse la différence entre les majuscules et les minuscules.

Tableau 8 Importance de la casse

Une simple interversion des majuscules en minuscule change tout le sens. Les colonnes Label 1 et Label 2 présentent des termes identiques à la casse près, or les gènes désignés sont différents.

Label 1

Gène 1

Label 2

Gène 2

ac

achaete (ac)

Ac

lethal (2) 37Ac (l(2)37Ac)

asx

ascutex (asx)

Asx

Additional sex combs (Asx)

cry

Suppressor of Stellate (Su(Ste))

Cry

Crystallin (Cry)

delta

deltaTrypsin (deltaTry)

Delta

Delta (Dl)

dl

dorsal (dl)

Dl

Delta (Dl)

dl

duplicated legs (dpl) 25

Dl

Delta (Dl)

hb

hunchback (hb)

HB

HB element (HB)

lip

canoe (cno)

Lip

Lighten up (Lip)

pcl

pepsinogen-like (pcl)

Pcl

Polycomblike (Pcl)

psc

pseudoscute (psc)

Psc

Posterior sex combs (Psc)

Rac

(Rac1)

RAC

(Akt1)

rho

rhomboid (rho)

Rho

Rho1

rho

rhomboid (rho)

Rho

Larval cuticle protein 10 (Lcp10) 26

ste

Stellate (Ste)

Ste

Suppressor of Stellate (Su(Ste))

Notons que ce tableau, s’il était exhaustif, compterait plus de mille lignes. Nous voyons donc qu’il est nécessaire de disposer d’un système qui sache indexer les termes en prenant en compte la casse. Ce n’est généralement pas le cas des systèmes de gestion électronique de documents. Cela nous a aussi posé des problèmes pour la mise en œuvre de notre base de données sous Access, car ce système de gestion de base de données considère comme égaux des enregistrements (des données) qui ne diffèrent que par la casse.
4.Complexité introduite par la formation de mots composés

Les labels sont utilisés pour former des mots composés. Le Tableau 9 donne les exemples que nous avons trouvés lors de l’annotation de l’échantillon A.

Tableau 9 Expressions spécifiques

Des labels entrent dans la composition de mots composés. Ces exemples sont tirés de l’annotation l’échantillon A.

Label

Contexte

wingless

- cells

Dfd

- dependent

wingless

- embryos

cry

- males

esc

- mothers

Dorsal

-binding sites

dl

-binding sites

Kr

-binding sites

sna

-binding sites

dl

-binding sites

cyclin A

-cdc2 kinase

H1

-containing 30 nm fibre

actin

-crosslinking protein

PKA

-deficient oocytes

E2F

-dependent transcription

Wingless

-expressing cells

wingless

-expressing cells

copia

-induced allele

cry

-induced meiotic drive

Abdominal-B

-like HOM proteins

dl

-mediated repression

hairy

-mediated repression

en

-mediated repression

hairy

-related bHLH proteins

hairy

-related bHLH proteins encoded by

SD

-specific 4-kb transcript

gurken

-torpedo signaling process

Il est important de repérer ces labels dans les textes malgré l’existence des tirets.

Les premières lignes du tableau font apparaître des espaces après le tiret. Il s’agit d’un formatage particulier propre à Medline. Il a probablement été fait pour permettre l’indexation des termes qui suivent le tiret. Quoi qu’il en soit, ce formatage n’est pas systématique comme on peut le constater dans les exemples qui sont donnés.
5.Complexité introduite par l’inclusion des termes les uns dans les autres
a.Inclusion à l’intérieur du dictionnaire des gènes

Une autre difficulté réside dans le fait que les labels s’emboîtent les uns dans les autres à la manière des poupées russes : on utilise le nom d’un gène pour construite le nom d’un autre gène. Hairless est un gène, Supressor of Hairless un autre gène, le second ayant la particularité d’inhiber l’expression du premier. Nous dirons dans ce cas que le label Hairless est inclus dans le label Supressor of Hairless.

Voici un exemple de phrase où cette inclusion pose un problème d’interprétation.

Exemple 6 Inclusion des labels

La première occurrence de Hairless (soulignée) ne doit pas être interprétée comme le gène du même nom car elle est incluse dans le label Suppressor of Hairless qui désigne un autre gène. En revanche la seconde occurrence de Hairless fait bien référence au gène Hairless (H).

These results, along with the intermediate SOP phenotype observed in Suppressor of Hairless; Hairless double mutant imaginal discs, suggest that the two genes act antagonistically to commit imaginal disc cells stably to alternative fates.

Le danger consiste à repérer à tort le label inclus sans repérer le label qui l’inclut, où ce qui est plus grave, repérer les deux labels à la fois. La solution passe nécessairement par la tenue d’une table d’inclusion qui consigne chacune d’elles de façon à pouvoir y faire référence lors du repérage des labels dans les textes. Le Tableau 10 en donne un extrait.

Tableau 10 Table d’inclusion des labels

Les labels sont inclus les uns dans les autres. Le Label 1 est inclue dans le Label 2, mais ils désignent des gènes différents.

Label 1

Label 2

Gène 1

Gène 2

fu

Su(fu)

fused (fu)

Suppressor of fused (Su(fu))

H

Su(H)

Hairless (H)

Suppressor of Hairless (Su(H))

Hairless

Suppressor of Hairless

Hairless (H)

Suppressor of Hairless (Su(H))

knirps

knirps-related

knirps (kni)

knirps-like (knrl)

Pc

E(Pc)

Polycomb (Pc)

Enhancer of Polycomb (E(Pc))

P-element

P-element somatic inhibitor

P element (P-element)

P-element somatic inhibitor (Psi)

pn

K-pn

prune (pn)

abnormal wing discs (awd)

scute

lethal of scute

scute (sc)

lethal of scute (l(1)sc)

Scute

Lethal of Scute

scute (sc)

lethal of scute (l(1)sc)

scute

lethal-of- scute

scute (sc)

lethal of scute (l(1)sc)

sev

E(sev)3A

sevenless (sev)

Heat shock protein 83 (Hsp83)

sev

E(sev)3B

sevenless (sev)

(Cdc37)

sevenless

bride of sevenless

sevenless (sev)

bride of sevenless (boss)

stoned

Suppressor of stoned

stoned B (stnB)

Suppressor of stoned (Su(stn))

stoned

Suppressor of stoned

stoned A (stnA)

Suppressor of stoned (Su(stn))

tolloid

tolloid-related-1

tolloid (tld)

tolkin (tok)

tra

tra-2

transformer (tra)

transformer 2 (tra2)

transformer

transformer 2

transformer (tra)

transformer 2 (tra2)

Trithorax

Trithorax-like

torso (tor)

Trithorax-like (Trl)

white

Zeste-white 3

white (w)

shaggy (sgg)

z

E(z)

zeste (z)

Enhancer of zeste (E(z))

z

E(z)1

zeste (z)

Enhancer of zeste (E(z))

z

Su(z)2

zeste (z)

Suppressor of zeste 2 (Su(z)2)

z

Su(z)2(1)

zeste (z)

Suppressor of zeste 2 (Su(z)2)

zeste

Enhancer of zeste

zeste (z)

Enhancer of zeste (E(z))

Notons qu’il se peut que l’inclusion se fasse pour des labels utilisés pour définir le même gène. Dans l’extrait que nous avons présenté, les inclusions sont relatives à des gènes distincts. Notons que le tableau, s’il était exhaustif, compterait un peu plus de 4000 lignes.
b.Inclusion des labels dans des termes de biologie

Le même phénomène d’inclusion a lieu aussi entre les labels et des expressions de biologie qui ne font pas référence à des gènes. Voici un exemple 63.

Exemple 7 Inclusion des labels dans des termes de biologie

Le terme souligné Pc ne fait pas référence au gène Polycomb (Pc) mais fait partie de l’expression Pc group qui désigne un complexe de protéine.

We have examined the pattern of expression of the Drosophila segment polarity gene, engrailed (en), in embryos mutant for several different members of the Pc group.

L’inclusion peut avoir lieu avec des termes qui font référence à des complexes de gènes ou des complexes de protéines. Le Tableau 11 fournit des exemples constitués à partir de complexes que nous avons trouvés dans les textes.

Tableau 11 Confusion avec des complexes de gènes ou de protéine

Le nom des complexes de gènes ou de protéine peuvent être formés à partir de nom de gène. Ici les labels de la première colonne sont inclus dans les labels de la seconde colonne. Il est nécessaire de prendre en compte certains complexes pour reconnaître correctement les gènes.

Label du gène

Label du complexe

Gène

Complexe

achaete

achaete-scute complex

achaete (ac)

Achaete-scute Complex (ASC)

Antennapedia

Antennapedia complex

Antennapedia (Antp)

Antennapedia complex (ANT-C)

Enhancer of split

Enhancer of split complex

Enhancer of split (E(spl))

Enhancer of split complex

Pc

Polycomb (Pc) group

Polycomb (Pc)

Polycomb group (Pc-G)

Pc

Pc-G

Polycomb (Pc)

Polycomb group (Pc-G)

Pc

Pc group

Polycomb (Pc)

Polycomb group (Pc-G)

Polycomb

Polycomb (Pc) group

Polycomb (Pc)

Polycomb group (Pc-G)

Polycomb

Polycomb group

Polycomb (Pc)

Polycomb group (Pc-G)

Shaker

Shaker complex

Shaker (Sh)

Shaker complex (ShC)

scute

Achaete-scute Complex

scute (sc)

Achaete-scute Complex (ASC)

scute

achaete-scute

scute (sc)

Achaete-scute Complex (ASC)

Il se peut aussi que l’inclusion ait lieu avec des termes anatomiques ou plus généralement avec des termes appartenant à l’univers de la biologie. Le Tableau 12 fournit des exemples que nous avons trouvés en annotant les textes.

Tableau 12 Confusion avec des termes de génétique ou d’anatomie

Les labels listés sont inclus dans des termes de génétique, d’anatomie ou autre.

Label inclus

Expression prêtant à confusion

AR

adaptive response (AR)

cell

cell-cell interaction

arm

chromosome arm, C-terminal arm, N-terminal arm

disrupted

disrupted polarity

dorsal

dorsal side, dorsal vessel, dorsal cell, dorsal closure, dorsal half, dorsal ectoderm, dorsal follicle, dorsal fate, dorsal pattern, dorsal-ventral, dorsal epidermis, dorsal midline

G

G phase

disc

entire disc, imaginal disc, wing disc

mis

mis expression

furrow

morphogenetic furrow, ventral furrow

P element

P element transformation, P element mediated transformation

pupal

pupal stage

ring

ring canal

patch

patch of

ref

see ref

slight

slight effect

side

ventral side

Dans tous les cas, nous voyons qu’il y a confusion possible de certains labels avec des expressions qui ne désignent pas des gènes. Repérer l’inclusion permet de lever l’ambiguïté qui existe au départ. Il est nécessaire de disposer d’un lexique complémentaire pour reconnaître correctement les gènes.

Lors de l’annotation, nous avons repéré ces termes de biologie qui incluent des labels en leur sein et nous avons créé de nouvelles entrées dans le dictionnaire pour les prendre en compte lors de l’identification automatique des gènes dans les textes. Cependant, comme ce ne sont pas à proprement parler des gènes, nous avons créé de nouvelles rubriques. Ces rubriques sont intitulées complexe de gènes, complexe de protéines et terme spécifique. Cette dernière rubrique correspond aux exemples du Tableau 12.
6.Complexité introduite par l’existence des allèles

Les allèles d’un gène sont les différents états que peuvent prendre un même gène chez un individu. Ce sont des variantes sur un même gène. Le dictionnaire que nous avons extrait de Flybase ne comportait pas initialement d’allèle. Cependant lors de l’annotation des textes nous avons rencontré des références à des allèles. Le Tableau 13 en fait la liste.

Tableau 13 Les allèles

Les gènes admettent des allèles. La colonne de droite donne le gène de référence pour l’allèle de la colonne de gauche. Ces exemples sont issus de l’annotation des textes.

Allèle

Gène

AntpNs

Antennapedia (Antp)

enhancer of rudimentaryp1 (e(r)p1)

enhancer of rudimentary (e(r))

E(z)1

Enhancer of zeste (E(z))

Psc1

Posterior sex combs (Psc)

Sce1

Sex combs extra (Sce)

ScmD1

Sex combs on midleg (Scm)

Su(z)2(1)

Suppressor of zeste 2 (Su(z)2)

tolloid-related-1

tolkin (tok)

white-apricot (wa)

white (w)

white-blood (wbl)

white (w)

wnt-1

wingless (wg)

Pour parler de la relation qu’entretient un gène avec ses allèles, nous définissons la notion de gène de référence. Le gène de référence d’un allèle est le gène associé à cet allèle. Le gène de référence d’un gène n’est autre que lui-même.

Il est important de savoir reconnaître les allèles pour deux raisons.

D’une part, les noms d’allèles sont souvent composés à partir de noms de gène. Les labels d’allèles participent donc au problème qui a été expliqué dans la section Partie 2 Chapitre 1 I.B.5.

D’autre part, quand un auteur décrit une interaction en citant un ou plusieurs allèles, il faut comprendre cette interaction comme ayant lieu entre le ou les gènes associés. Il est donc nécessaire de reconnaître les allèles dans les textes et de faire le lien entre l’allèle et le gène auquel il est associé. Nous avons donc introduit une rubrique allèle dans notre dictionnaire et nous avons complété notre dictionnaire avec les allèles rencontré dans les textes. Un lien entre l’allèle et son gène de référence a aussi été établi.
1   ...   4   5   6   7   8   9   10   11   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de
...

Thèse pour obtenir le grade de iconThèse pour obtenir le grade de docteur de l’Université Paris I panthéon-Sorbonne
«L’Université n’entend donner aucune approbation ni improbation aux opinions émises dans ce document. Ces opinions doivent être considérées...

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse pour l'obtention du grade de

Thèse pour obtenir le grade de iconThèse pour le grade de docteur en droit

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de docteur en médecine

Thèse pour obtenir le grade de iconLe grade d’administrateur général ( grade à Accès Fonctionnel – graf)
«Emplois supérieurs pour lesquels les nominations sont laissées à la décision du Gouvernement»

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de
«sur le terrain», pour ce qu’elles ont bien voulu partager avec moi. La part d’elles-mêmes qu’elles m’ont ainsi laissée constitue...






Tous droits réservés. Copyright © 2016
contacts
e.20-bal.com