Thèse pour obtenir le grade de





télécharger 3.33 Mb.
titreThèse pour obtenir le grade de
page9/36
date de publication21.10.2017
taille3.33 Mb.
typeThèse
e.20-bal.com > droit > Thèse
1   ...   5   6   7   8   9   10   11   12   ...   36

C.Ambiguïté des labels


Nous arrivons à la difficulté sans doute la plus importante. Les labels sont parfois ambigus, c’est à dire qu’ils peuvent faire référence à tout autre chose que des gènes. Nous avons distingué deux catégories de label ambigu selon la gravité de la situation.
1.Les labels qui sont des mots vides

Cette première catégorie de label ambigu correspond à des mots extrêmement courants de l’anglais comme if ou for qui malheureusement désignent des gènes. Le Tableau 14 donne la liste de ces termes.

Tableau 14 Labels et mots vides

Les labels présentés prêtent à confusion avec des mots vides.

Label

Gène

an

ancon (an)

as

ascute (as)

at

arctus oculus (at)

be

tumor(3)be (tu(3)be)

by

blistery (by)

can

cannonball (can)

did

diminished discs (did)

do

pale ocelli (po)

for

foraging (for)

her

hermaphrodite (her)

how

held out wings (how)

if

inflated (if)

in

inturned (in)

me

focal melanosis (me)

none 27

glass (gl)

not

non-stop (not)

or

orange (or)

per

period (per)

she

sherry (she)

so

sine oculis (so)

up

upheld (up)

us

undersized (us)

we

wee (we)

who

held out wings (how) 28

with

with trident (with)

Ces mots sont appelés mots vides (stop word en anglais) en recherche documentaire. Cette appellation provient du fait que ces mots à eux seul ne renferment pas de sens. C’est à dire que leur présence ou absence dans un texte donné ne permet pas de savoir quoi que ce soit sur ce texte quant à son sens. Ils ne sont donc jamais utilisés dans les index. Nous avons employé une liste de mots vides établie pour la mise au point d’un système d’indexation de texte en anglais. Nous avons trouvé parmi les labels de notre dictionnaire un certain nombre de termes qui appartiennent à cette liste. Nous voyons que la liste des membres de cette première catégorie de labels ambigus a été établie avant toute expérience ; ce qui ne sera pas le cas de la deuxième liste qui elle sera établie à la lecture des textes, au fur et à mesure de la rencontre avec des labels ambigus. Certains termes ont pu quand même changer de catégorie, quand nous nous sommes aperçus qu’ils n’étaient pas toujours aussi largement répandus dans les textes.

Les occurrences de ces termes sont trop nombreuses pour que nous puissions les indexer systématiquement. Cela aboutirait à une surcharge de la base de données. Il est d’ailleurs d’usage de ne pas les inclure dans les index en partie pour cette raison.

Néanmoins nous verrons que le contexte permet dans certain cas de les prendre en compte lors de l’identification des gènes dans les textes. Retenons simplement pour l’instant que la présence à elle seule d’un de ces labels ne peut être interprété comme une référence à un gène.

Les labels que nous avons présentés dans le Tableau 14 se confondent exactement avec des mots vides. D’autres labels ne s’en distinguent que par la casse. Ils sont présentés dans le Tableau 15.

Tableau 15 Mots vides et différence de casse

Les labels présentés prêtent à confusion avec des mots vides, mais ils s’en distinguent par la casse.

Label

Gène

Remarque

And

Androcam (And)




At

Attenuated (At)




Be

lethal (2) 37Be (l(2)37Be)




Can

Calcineurin B (CanB)

Can est un label commun à deux gènes

Can

Calcineurin A1 (CanA1)

idem

Co

Notch (N)

Co provient du synonyme  Confluens

Had

beta Hydroxy acid dehydrogenase (Had)




Is

Isis (Is)




Low

Lightener of white (Low)




Me

Moire (Me)




Off

Off




On

Open (On)




Re

Re




To

Superoxide dismutase (Sod)

To provient du synonyme Tetrazolium oxidase

Ve

veinlet (ve)




We

Washed eye (We)




Ces labels sont recherchés dans les textes car le système prend en compte la différence de casse. Cependant quand le mot en question se trouve en première position dans la phrase, alors il y a de fortes chances pour qu’il s’agisse en fait du mot vide correspondant. Dans ce cas la reconnaissance ne se fait pas.
2.Les labels qui prêtent à confusion avec des termes d’anglais assez courants

Cette deuxième catégorie de labels ambigus comporte des termes dont l’ambiguïté est moins sévère. Ce sont des termes de la langue anglaise, mais ce ne sont pas des mots-outils, des mots à tout faire comme pour la première catégorie.
a.Les labels fortement ambigus

Certains labels sont, dans le contexte des textes que nous étudions, fortement ambigus. Le Tableau 33 29 en fait l’inventaire.

Ces termes sont trop ambigus pour que l’on puisse avoir totalement confiance quand on les rencontre dans les textes. Nous verrons à la section F qu’une utilisation du contexte permet de résoudre le problème.
b.Les labels qui dans le contexte de la génétique sont moins ambigus qu’ils ne semblent

Certains termes, bien que faisant partie du dictionnaire, ne sont pas aussi ambigus qu’il y paraît, et pourront être utilisés pour identifier les gènes dans les textes. C’est le cas par exemple de hedgeog, qui bien qu’ayant un autre sens que celui d’un gène (hérisson), devra être interprété comme une référence au gène hedgeog (hh) car il est peu probable que l’on parle de hérisson dans un texte de génétique de la drosophile. Le Tableau 16 fait l’inventaire de ces termes.

Tableau 16 Labels peu ambigus

Les labels présentés sont a priori ambigus, mais pas dans le contexte de la génétique.

Label

Gène

Remarques

cap

Calphotin (Cpn)

Signifie chapeau, terme rare

cap

capon (cap)

idem

cap

Chromosome-associated protein (Cap)

idem

Deformed

Deformed (Dfd)

ne se confond pas avec deformed

giant

giant (gt)

signifie géant, terme rare

HAD

beta Hydroxy acid dehydrogenase (Had)

ne se confond pas avec had

hedgehog

hedgehog (hh)

Signifie hérisson, terme rare

ltd

lightoid (ltd)

ltd est l’abréviation de limited, terme rare

ME

Malic enzyme (Men)

ne se confond pas avec me

mr

morula (mr)

ne se confond pas avec Mr

rough

rough (ro)

signifie rugueux, terme rare

stranded

stranded (sand)

signifie échouer, terme rare

suffix

suffix element (suffix)




thick

thick (tk)

signifie gros, terme rare

thin

thin (tn)

signifie mince, terme rare

tube

tube (tub)




weak

weak (wk)

signifie faible, terme rare

Nous constatons que, dans certains cas, c’est la différence de casse entre le label et le terme d’anglais qui permet de lever l’ambiguïté.
c.Les labels faiblement ambigus.

Pour d’autres termes, nous n’avons pas beaucoup d’exemples d’occurrence dans les textes. Ainsi, il s’agit de termes qui sont rares à la fois dans leur acception de label et dans une autre acception. Cependant, ils paraissent assez peu ambigus et ils seront donc utilisés pour l’identification des gènes dans les textes. Le Tableau 34 fait l’inventaire de ces termes.
d.Les labels ambigus mais très importants

Les gènes dorsal (dl) et armadillo (arm) sont très importants en génétique de la drosophile et sont souvent cités par les auteurs. Ne pas les reconnaître serait donc grave à la fois du point de vue de la biologie et du point de vue des performances attendues du système. Une stratégie de désambiguïsation a donc été mise en œuvre. Elle est basée sur la présence d’un contexte qui dans le cas où il ne s’agirait pas d’un gène, va donner des indices qui permettent de lever l’ambiguïté. Ces termes de désambiguïsation, déjà donnés dans le Tableau 12, sont listés à nouveau dans le Tableau 17.

Tableau 17 Labels désambiguïsés

Les termes dorsal et arm sont pris en compte grâce à une technique de désambiguïsation. Le label est interprété comme un gène sauf si c’est le terme de désambiguïsation qui est reconnu.

Label

Terme de désambiguïsation

arm

chromosome arm

arm

N-terminal arm

arm

C-terminal arm

dorsal

dorsal side

dorsal

dorsal vessel

dorsal

dorsal-specific

dorsal

dorsal cell

dorsal

dorsal closure

dorsal

dorsal half

dorsal

dorsal ectoderm

dorsal

dorsal follicle

dorsal

dorsal fate

dorsal

dorsal cells

dorsal

dorsal or ventral

dorsal

dorsal pattern

dorsal

dorsal-ventral

dorsal

dorsal epidermis

dorsal

dorsal midline
3.Les labels qui prêtent à confusion avec des gènes de mammifères.

Dans les textes que nous analysons, il est parfois question de gènes d’autres espèces biologiques comme dans l’exemple 69.

Exemple 8 Confusion possible avec des gènes de mammifères

Des gènes de mammifères ont les noms qui se confondent avec ceux de la drosophile. Ici les occurrences soulignées de E2F font référence à un gène humain, alors que E2F est un synonyme de E2F transcription factor (E2f) d’après Flybase.

The temporal activation of E2F transcriptional activity appears to be an important component of the mechanisms that prepare mammalian cells for DNA replication. Regulation of E2F activity appears to be a highly complex process, and the dissection of the E2F pathway will be greatly facilitated by the ability to use genetic approaches. We report the isolation of two Drosophila genes that can stimulate E2F-dependent transcription in Drosophila cells. One of these genes, dE2F, contains three domains that are highly conserved in the human homologs E2F-1, E2F-2, and E2F-3. Interestingly, one of these domains is highly homologous to the retinoblastoma protein (RB)-binding sequences of human E2F genes. The other gene, dDP, is closely related to the human DP-1 and DP-2 genes. We demonstrate that dDP and dE2F interact and cooperate to give sequence- specific DNA binding and optimal trans-activation. These features suggest that endogenous Drosophila E2F, like human E2F, may be composed of heterodimers and may be regulated by RB-like proteins. The isolation of these genes will provide important reagents for the genetic analysis of the E2F pathway.

Les auteurs font référence à des gènes d’autres espèces pour donner des informations sur l’homologie ou, d’une façon plus générale, sur les ressemblances dans les propriétés ou fonctions des gènes en question avec des gènes de la drosophile.

Le problème se rencontre 13 fois dans l’échantillon A. Le Tableau 18 fournit les phrases concernées.

Tableau 18 Occurrence de gène de mammifère

La colonne de droite donne le label qui prête à confusion. Une référence à un gène de mammifère ne doit pas être interprétée comme une référence à un gène de drosophile.

Phrase

Label

We show here that btd is expressed in a stripe covering the head analgen of the segments affected in btd lack-of-function mutants and that btd encodes a zinc-finger-type transcription factor with sequence and functional similarity to the prototype mammalian transcription factor Sp1.

Sp1

When expressed in the spatial pattern of btd, a transgene providing Sp1 activity can support development of the mandibular segment in the head of btd mutant embryos.

Sp1

This Musca protein, designated Musca PRI, changes its pI upon illumination in vivo.

PRI et PRIs

Rabbit antibodies raised against Musca PRI, against bovine arrestin, and against a synthetic peptide based on the Drosophila PRI sequence stained the Drosophila and Musca PRIs specifically on 1 and 2-dimensional Western immunoblots.

PRI et PRIs

Both Drosophila and Musca PRIs incorporated 32P-radioactivity from gamma-32P-ATP in cell-free homogenates of retinas.

PRI et PRIs

Partial peptide digestions of Drosophila and Musca PRIs revealed similarity between these proteins.

PRI et PRIs

Mutations in the Drosophila gene extradenticle (exd), a homologue of the human proto-oncogene pbx1, cause homeotic transformations by altering the morphological consequences of homeotic selector gene activity. exd has been proposed to act by contributing to the specificity of selector homeodomain proteins for their downstream targets.

pbx1

The Drosophila protein Dorsal (which, like the human protein NF-kappa B3, is a member of the Rel family of transcriptional activators) activates the twist gene and represses the zen gene in the ventral region of early embryos.

Rel

Nous constatons que dans la plupart des cas, il suffit de compléter le dictionnaire en créant une rubrique pour les gènes de mammifères. Nous n’avons pas complété cette rubrique à l’aide de bases de donnée de génétique de la souris, de l’homme ou des mammifères. Nous avons simplement, et à titre expérimental, complété cette rubrique avec les exemples que nous avons trouvés au cours de l’annotation. Le Tableau 19 liste les données ainsi introduites.

Tableau 19 Gène de mammifère : extrait du dictionnaire

Des gènes de mammifères qui ont été rajoutés au dictionnaire des gènes. Seul les cas effectivement trouvés dans les textes sont concernés. Ces informations ont été introduites par l’annotateur à titre expérimental, pour prouver la capacité du système à correctement distinguer entre gène de drosophile et gène d’autres espèces.

Gène

Label




E2F-1

E2F-1




E2F-1

human E2F




E2F-2

E2F-2




E2F-2

human E2F




E2F-3

E2F-3




E2F-3

human E2F




human proto-oncogene pbx1

human proto-oncogene pbx1




mammalian transcription factor Sp1

mammalian transcription factor Sp1




mammalian transcription factor Sp1

Sp1




Musca PRI

Musca PRI




Musca PRI

Musca PRIs



1   ...   5   6   7   8   9   10   11   12   ...   36

similaire:

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de

Thèse pour obtenir le grade de iconTHÈse pour obtenir le grade de
...

Thèse pour obtenir le grade de iconThèse pour obtenir le grade de docteur de l’Université Paris I panthéon-Sorbonne
«L’Université n’entend donner aucune approbation ni improbation aux opinions émises dans ce document. Ces opinions doivent être considérées...

Thèse pour obtenir le grade de iconThèse Pour obtenir le grade de
«capricieuse»!!! Merci également de m’avoir permis d’être impliqué dans des collaborations (eth zurich) et dans un programme Européen...

Thèse pour obtenir le grade de iconThèse pour l'obtention du grade de

Thèse pour obtenir le grade de iconThèse pour le grade de docteur en droit

Thèse pour obtenir le grade de iconThèse présentée pour l’obtention du grade de Docteur

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de docteur en médecine

Thèse pour obtenir le grade de iconLe grade d’administrateur général ( grade à Accès Fonctionnel – graf)
«Emplois supérieurs pour lesquels les nominations sont laissées à la décision du Gouvernement»

Thèse pour obtenir le grade de iconTHÈse pour l’obtention du grade de
«sur le terrain», pour ce qu’elles ont bien voulu partager avec moi. La part d’elles-mêmes qu’elles m’ont ainsi laissée constitue...






Tous droits réservés. Copyright © 2016
contacts
e.20-bal.com