Règles du jeu

Principe

Il y a 150 ans Charles Darwin parcourait les mers à bord du HMS Beagle pour observer la diversité morphologique du vivant; aujourd'hui c'est à bord de la goëlette Tara (ci-contre) que les biologistes sillonnent les océans pour observer la biodiversité à travers le séquençage métagénomique.

De septembre 2009 à novembre 2013, le navire océanographique Tara a sillonné tous les océans de la planète. Les océans produisent la moitié de l’oxygène que nous respirons. Si les forêts sont le premier poumon de notre planète, les océans constituent le second. Ces prairies de plancton et d’autres micro-organismes constituent, par leur activité photosynthétique, une immense pompe à oxygène. Mais, ces organismes marins sont aussi un important puits à gaz carbonique. Tara Oceans est une expédition pan-océanique dont la mission est de rendre compte de l'état de la biodiversité planctonique: des atolls coralliens tropicaux à l’Antarctique, des isthmes moyen-orientaux au passage du nord ouest. Une halte de Tara à Marseille a été faite du 20-29 septembre 2014.

Le séquençage métagénomique des échantillons Tara a démarré au GENOSCOPE (Evry). Ces séquences - encore confidentielles au sein du Consortium Tara - vous sont livrées à chaud, en attente d'annotation fonctionnelle. A cette échelle moléculaire, la bioinformatique est l'outil principal pour observer la biodiversité!

Votre mission, est de tenter d'identifier l'origine microbiologique de ces séquences (archae, protistes, algues, virus?), de déterminer quelles séquences sont codantes, et dans l'affirmative conclure s'il s'agit de protéines connues ou nouvelles.

La première opération sera d'identifier d'éventuels cadres ouverts de lecture (ORF). Les ORF qui correspondent vraisemblablement à des gènes codants seront repérables essentiellement à leurs tailles (au delà de 100 à 150 acides aminés) et aux similitudes de séquences avec d'autres gènes déjà connus et présents dans les banques annotées telles que SWISSPROT.

L'objectif est donc double:
-identifier de nouvelles espèces de microorganismes
-identifier des protéines totalement nouvelles ou des membres jusqu'à là inconnus de familles protéiques caractérisées.

Pour en savoir plus, voir le site de l'expéditio Tara Océans.

TaraLogo_s

Equipe

Enseignants qui souhaitent gérer une équipe d'étudiants annotateurs

Vous trouverez toutes les informations nécessaires sur la page spécifique Annotathon Instructor Manual (disponible en anglais seulement).

Etudiants qui suivent un enseignement universitaire

Veuillez ouvrir un compte dans votre équipe spécifique (par exemple BioCell2016) en ouvrant l'onglet "Créer un compte" en haut de cette page.

Annotateur volontaire

L'équipe "Open access" est ouverte à tous les explorateurs volontaires! Pour participer, ouvrez un compte dans l'équipe "Open Access" en suivant le lien "Créer un compte" en haut de cette page.

Objectifs

Vous allez collectivement annoter des fragments de séquences tirés aléatoirement parmi les fragments d'ADN métagénomique issus du projet Tara Océans. Chaque étudiant prendra en charge l'annotation complète de deux fragments de séquence métagénomique. Les annotateurs devront, pour chacun des fragments dont ils ont la charge, conclure s'ils semblent codants ou non. Dans l'affirmative vous devrez proposer des annotations fonctionnelles pour les nouveaux gènes hypothétiques, ainsi que le groupe taxonomique d'appartenance le plus probable.

Utilisation de l'Annotation

Authentification

Organisez votre espace de travail de façon à avoir à l'écran trois fenêtres du Navigateur Internet (ou trois onglets si vous préfèrez) permettant ainsi d'avoir en parallèle:

  • La page de travail principale de l'Annotathon
  • Les règles du jeu (la page que vous lisez actuellement).
  • La Foire aux questions avec des guides illustrés aux principales analyses bioinformatiques (Attention: certaines rubriques ne sont pas à jour)

 

Si vous n'avez pas encore de compte sur l'Annotathon (ce qui est le cas lors de votre première séance), cliquez sur l'onglet "Nouveau compte" dans le menu en haut de l'Annotathon. Créez un compte par étudiant en renseignant les divers champs du formulaire; soyez particulièrement attentifs à choisir la bonne affiliation, à fournir le Code d'équipe, à saisir précisemment les noms des étudiants (condition sine qua non pour avoir une note au TD); si vous n'êtes pas certains, demandez à votre responsable de TD! Vous devez fournir au moins une adresse de courrier électronique pour être tenu au courant des activités (vous pouvez saisir plusieurs adresses séparées par des virgules).

 

Enfin un clic sur "Ouvrir le Compte" doit faire afficher le message "Le compte 'XYZ' a été créé"; dans le cas contraire suivez les instructions pour corriger les erreurs. Une fois votre compte créé, vous pouvez ouvrir une session d'annotation en entrant le 'login/pseudo' et 'mot de passe' de votre compte dans les champs en haut de la page puis en cliquant sur "Connection".

Un fois connecté à l'Annotathon, contrôlez que votre pseudo et vos noms sont bien indiqués en haut de la page. Notez que vous devrez valider votre adresse de courrier électronique en suivant le lien fourni dans un courriel qui vous sera adressé automatiquement à la création du compte.

La page d'accueil (affichée après connection ou en cliquant sur l'onglet "Accueil") donne un aperçu global de l'état d'avancement du projet d'annotation. Notez qu'après connection avec votre pseudo, les statistiques en blanc sur fond rouge en bas de page représentra après les premières évaluations votre position par rapport au reste des étudiants de l'équipe.

Remarque: l'Annotathon est accessible à partir de n'importe quel accès Internet (campus ou non), sur MAC, PC Windows ou PC Linux...

Panier et fragments de séquence

L'objectif étant d'annoter des fragments de séquence, chaque étudiant peut consulter la liste des fragments de séquence dont il a pris la charge en cliquant sur l'onglet "Panier". Votre panier de séquences est initialement vide; pour ajouter un fragment de séquence à votre panier, sélectionnez le lieu d'échantillonage souhaité (ex Tropical South Pacific: 300 miles from F. Polynesia - International) puis cliquez sur le bouton "Ajouter un nouveau fragment de séquence à votre panier".

Vous ne pouvez ajouter de nouveaux fragments de séquence à votre panier que lorsque votre panier est vide, ou lorsque vous avez annoté tout ou partie des fragments déjà présents dans votre panier (c'est à dire soumis vos premières séquences à l'évaluation). Des nouveaux fragments de séquence sont donc ajoutés au panier à la discrétion de l'étudiant (à concurrence du nombre maximal de fragments requis par étudiant) puis annotés selon le guide proposé ci-dessous, et ce jusqu'à la date de fermeture de l'Annotathon (le nombre de jours d'ouverture restant est indiqué par un j-XX en haut de chaque page, cf. aussi "Evaluation et notation des étudiants" en fin des Règles du jeu).

Consulter vos annotations

Cliquez sur l'icone  en face du fragment de séquence dont vous souhaitez consulter les annotations. L'annotation initiale des fragments de séquence est succinte: outre le séquence nucléotidique, sa longueur, et l'origine géographique de la séquence, chaque fragment de séquence comporte un numéro d'accession unique au sein de l'Annotathon. Le reste de l'annotation est votre responsabilité.

Modifier vos annotations

Cliquez sur l'icone  en face du fragment de séquence souhaité pour avoir accès au formulaire de saisie des annotations des séquences. Après avoir saisi des données dans ce formulaire, n'oubliez pas de cliquer sur le bouton "Enregistrer les annotations" pour soumettre vos analyses au serveur central de l'Annotathon! Si vous quittez ce formulaire sans avoir cliqué sur ce bouton, vous perdez vos modifications en cours... Vu que vous pouvez revenir et modifier l'annotation d'un fragment de séquence autant de fois que vous le souhaitez, ce peut être une bonne habitude que de cliquer régulièrement sur "Enregistrer les annotations" pour ne pas risquer de perdre des annotations en cours!

Codes des fragments

Les codes des fragments de séquence (par ex GOS_21290.1) sont arbitraires et internes à l'Annotathon; le dernier chiffre correspond au numéro de version de vos annotations. Il démarre donc à 1 et s'incrémente de 1 à chaque enregistrement de vos annotations. Vous pouvez consulter les versions antérieures de vos annotations en sélectionnant la version souhaitée dans le menu déroulant en haut de vos fiches de visualisation d'annotations (clic sur l'icone ).

Soumettre vos annotations pour évaluation

Quand vous êtes satisfait de vos annotations, cliquez sur l'icone  en face de votre fragment de séquence. Le statut de ce fragment de séquence passe alors de 'Annotation 1' à 'Evaluation 1' et vous ne pouvez plus le modifier le temps que les correcteurs passent en revue votre travail. Après cette première évaluation, le statut des fragments passent à 'Annotation 2'; vous pouvez alors à nouveau modifier vos annotations suite aux éventuels commentaires des correcteurs. Quand votre deuxième passe d'annotations est complétée, cliquez sur  pour soumettre définitivement vos fragments de séquence pour l'évaluation finale.

Forum de discussion

L'onglet "Forum" vous permet d'accèder au forum interne de l'Annotathon (le  signale qu'un nouveau message non lu a été posté sur le forum). Cliquez sur le sujet du message du forum pour accèder à son contenu. Si vous souhaitez répondre à ce message, utilisez le champ disponible sous le message puis cliquez sur "Poster le message". ATTENTION!: n'utilisez ce cadre QUE POUR REPONDRE AU MESSAGE DIRECTEMENT!

En revanche, si vous souhaitez ouvrir un nouveau fil de discussion, utilisez OBLIGATOIREMENT les formulaires spéciaux disponibles en haut de chacune de vos fiches d'annotation (dans votre "Panier", cliquez sur )! Vous choisirez alors dans quelle rubrique du forum vous souhaitez poster votre nouveau fil de discussion (ex Recherche d'homologues: BLAST).

Notez que les messages que vous envoyez sur le forum sont aussi directement acheminés vers l'adresse email des responsables de TD. Même si les messages s'adressent souvent aux responsables de TD, les étudiants qui connaissent les réponses aux questions postées sur le forum sont encouragés à y répondre. Les réponses pertinentes seront comptabilisées...

Messagerie / Annonces

De temps en temps, vos responsables de TD pourront faire des annonces qui s'afficheront en haut de chaque page de l'Annotathon. Une fois lus, il est conseillé de cliquer devant "Lu" pour transférer ces messages vers votre dossier de messages archivés. Ce dossier est disponible à tout moment en bas de la page "Forum".

Annotation des séquences

Principes généraux

Le formulaire de modification des annotations de séquences contient deux types de champs:

  1. les résultats d'analyses (ex. ORFfinder, BLAST etc.)
  2. vos interprétations, synthèses et conclusions (ex. fonction moléculaire, taxonomie, conclusion etc.)

L'Annotathon tient ainsi lieu à la fois de "cahier de laboratoire" (champs de type 1) et de "rapport de TD" (champs de type 2).

IMPORTANT: pour les champs de type 1 (résultats d'analyses), les champs sont initialement pré-remplis avec la structure suivante:

PROTOCOLE: 

--------------------------------------------------------------------------------------------------- 
ANALYSE DES RÉSULTATS: 

--------------------------------------------------------------------------------------------------- 

RÉSULTATS BRUTS:


Sous la rubrique "PROTOCOLE", spécifiez le résumé des informations nécessaires pour pouvoir reproduire l'analyse, au minimum: le nom de l'outil utilisé, son URL et les paramètres d'analyse. Par exemple pour la recherche d'ORF, la ligne de protocole pourra être:

PROTOCOLE:

SMS ORFinder / http://annotathon.org/sms2 / sens direct / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'

Copiez-collez ensuite les résultats in-extenso de vos analyses sous la rubrique "RÉSULTATS BRUTS". Si vous avez effectué plusieurs analyses d'un même type (par exemple deux SMS ORFfinder, un en sens direct, l'autre en sens indirect), alors référencez les deux analyses par un index:

PROTOCOLE:

a) SMS ORFinder / http://annotathon.org/sms2 / sens direct   / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'
b) SMS ORFinder / http://annotathon.org/sms2 / sens indirect / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'

---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

[ici vous rédigerez plus tard vos interprétations]

RÉSULTATS BRUTS:

a) sens direct

>ORF number 1 in reading frame 1 on the direct strand extends from base 511 to base 744.

CGAGTGATAACTGGTCCAGTAATCGCGATACCGATCATCTTGTTGCGGATTGACGATGTT
AAAATCCCGATCAGGGCGGATATCCAGCCCCAGCCTTTCACAACGTTGCTGAATCACTTC
GGGGCGGCCTATGACGATGGGAACTTCGCTGGTTTCTTCCAAAACGGCCTGAGCGGCGCG
CAGCACCCGCTCGTCTTCGCCCTCGGCAAACACAATCCGTCGAGCGCTGCTTGA

>Translation of ORF number 1 in reading frame 1 on the direct strand.
RVITGPVIAIPIILLRIDDVKIPIRADIQPQPFTTLLNHFGAAYDDGNFAGFFQNGLSGA
QHPLVFALGKHNPSSAA*

---------------------------------------------------------------------------------------------------
b) sens indirect

>ORF number 1 in reading frame 1 on the reverse strand extends from base 517 to base 855.
CCTGATCTGTGGCGCTGTGGGCGAATTCAGATGGCATCTGAATTATATCGAGCAAATTTT
AGGCAGCAAAACCTTATCGCCAAGCGGCGCGCTGTCTTTGATGATTTTAGAAGACGGGCC
TCTGTTCATCGCAGACACCCACGTCTGGGCGGATCCCACCCCCATGCAAATTGCCCAAAC
CGCCAAAGGGGCCGCGCGCCATGTGCGCCGTTTTGGCATAGAGCCACAAGTCGCGCTGTG
CTCGCAATCACAATTTGGAAATCTGAACAGCGAGACTGGCAAGAAAATGCGCCAAGCATT
GGATATTCTCGATACCGAAAAGGTGACGTTTACCTATGA

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
PDLWRCGRIQMASELYRANFRQQNLIAKRRAVFDDFRRRASVHRRHPRLGGSHPHANCPN
RQRGRAPCAPFWHRATSRAVLAITIWKSEQRDWQENAPSIGYSRYRKGDVYL*


Enfin utilisez la rubrique "ANALYSE DES RÉSULTATS" de ces champs de type 1 pour exposer les faits saillants que vous êtes en mesure d'observer dans les résultats bruts. L'analyse des résultats, un exercice incontournable du discours scientifique, répond à la question "Qu'avons-nous vu de notable lorsque nous avons tenté l'expérience décrite dans le protocole?".

Remarque: Le dernier champ du formulaire, intitulé "Bloc Note", est à votre disposition pour conserver les informations de votre choix qui ne sont pas prévues par des rubriques spécifiques. Stockez-y tout ce qui pourra vous être utile lors des ré-analyses (par exemple des homologues au format FASTA). Le bloc-note ne fait pas partie des annotations 'officielles', il n'est pas consulté lors les évaluations.

Une aide en ligne pour chaque type d'annotation est disponible en cliquant sur les  directement dans le formulaire. Les principales annotations attendues pour chaque fragment de séquence sont décrites brièvement ci-dessous.

N'oubliez pas qu'une Foire aux Questions (FAQ) est à votre disposition pour des conseils plus approfondis (y compris des guides illustrés) sur les outils bioinformatiques que vous serez amenés à utiliser. Attention: Certaines rubriques ne sont pas à jour. Soyez vigilant au niveau des interfaces de programmes et des versions des bases de donnees!!!!

Lors de toutes vos analyses, gardez en vue les trois fils directeurs principaux de votre travail d'annotation qui consiste à proposer:

  • si l'ADN est codant ou non? Et dans l'affirmative, les positions de début et de fin de l'ORF
  • une hypothèse fonctionnelle sur la protéine éventuellement codée par votre fragment d'ADN
  • une hypothèse taxonomique sur l'organisme qui pourrait porter ce fragment de séquence

Aucun résultat individuel d'analyse bioinformatique permet de répondre à lui seul à ces questions; les réponses se construiront en faisant les recoupements et la synthèse de tous ces résultats.

Recherche d'ORFs

La première analyse de chaque fragment de séquence consistera à rechercher les ORF potentiels inclus dans la séquence. Il existe de très nombreux logiciels en ligne pour dresser ce type de liste, dont:

Les ORFS à retenir pour analyse ultérieure vérifieront toutes les conditions suivantes:

  1. ne contiennent pas de codons STOP
  2. contiennent au moins 60 codons
  3. peuvent être sur le brin direct ou indirect
  4. peuvent être dans le cadre 1, 2 ou 3
  5. peuvent être complets ou non en 5' comme en 3'

Copiez-collez les résultats bruts de recherche d'ORF dans le champ 'Recherche ORF' du formulaire de saisie de l'Annotathon. Si vous utilisez SMS, n'oubliez pas de faire l'analyse dans les deux sens! Et n'oubliez pas la ligne de PROTOCOLE pour chaque recherche d'ORF!

Résumez sous "ANALYSE DES RESULTATS" l'ensemble des ORFs détéctés par ORFinder dans un tableau du type:

  Taille 
(nucléotides)
Taille (aa)  Brin position de début position de fin ORF complet en 5' ORF complet en 3' Nb d'alignements BLAST
NR EV<1E-10
Classification de l'ORF
ORF1 267 88 direct 95 361 oui oui 0 ORFan peu probable
 
ORF2 891 297 reverse 120 1010 oui non 4256

KNOWN (étudiée ici)


Attention
: vous devez impérativement numéroter toutes vos tables (numérotation continue à travers toutes les sections d'annotation, par exemple table 1 pour les ORFs, table 2 pour les domaines protéiques conservés etc.) et leur donner un titre!

Faites un petit schéma résumant les positions des différents ORF sur le fragment d'ADN, par exemple (attention ce schéma ne correspond pas à la table ci-dessus):

Figure 1: Diagramme de répartition des ORFs sur le fragment d'ADN TO72D_5186010

               (50)==ORF1==>(249) (268)====ORF2====>(579)            (744)========ORF3======>(1068)  
DIRECT :     1 ------------------------------------------------------------------------------ 1070
INDRECT : 1070 ------------------------------------------------------------------------------ 1
         (1068)<====================ORF4====================(394)
                                                     (407)<==========ORF5==========(134)
Légende:

==ORFx==> Faux positif
==ORFx==> KNOWN (ORF étudiée ici)
==ORFx==> NOVEL (ORF non étudié ici)

 

Si votre séquence contient plusieurs ORF, ne considérez a priori que le plus long d'entre eux (sauf si par exemple le plus court présente des homologues alors que le plus long est un ORFan).

Vous devrez classer chaque ORF détecté parmi l'une des catégories suivantes:

  • Faux Positif (succession de quelques codons sans STOP
  • ORFan (gène codant pour une protéine sans aucun homologue connu à ce jour)
  • Novel (gène codant pour une protéine avec des homologues dont les fonctions sont encore inconnues)
  • Known (gène codant pour une protéine avec des homologues dont les fonctions sont connues)

Vous pouvez aussi préciser la fiabilité de vos classifications avec des qualificatifs du type "Très Probable" ou "Peu probable" etc.

Pour déterminer si les ORFs détectés dans le fragment de séquence paraissent vraisemblables (vrais ou des faux positifs, KNOWN, NOVEL, ORFan?), les éléments clefs à considérer sont:

  • l'existence de protéines homologues (voir la rubrique BLAST) -> un ORF avec des homologues (E-value <1E-10) est très certainement un vrai positif (donc NOVEL ou KNOWN)
  • la longueur de l'ORF (un ORF >100aa sans homologues est probablement un ORFan)
  • un ORF sans homologues est très certainement un Faux Positif s'il est chevauchant (sur la majeure partie de sa longueur) avec un ORF ayant des homologues

Attention, ce dernier critère est très important: le gènes ne se chevauchent pas (quelques codons peut-être aux extrêmités, mais pas sur toute leur longueur!). Ceci est un élément crucial pour argumenter que certains ORFs sans homologues sont des faux positifs très probables!

-Si le fragment de séquence ne semble pas contenir de gène codant (pas d'ORF assez longs et pas d'homologues), cochez la case 'non-codant' de la rubrique 'Statut'. L'annotation de ce fragment de séquence est alors achevée; seuls les champs 'Recherche d'ORF' et 'BLAST' seront donc renseignés (en plus de votre rapport d'analyse dans le champ conclusion bien sûr). Toutefois, dans bien des cas, avant de conclure définitivement à un statut de "non-codant", nous vous conseillons aussi d'effectuer des recherches d'homologues dans les banques environnementales. Demander à un encadrant la procédure à suivre, cette dernière étant tout à fait exceptionnelle. Après avoir enregistré les annotations de ce fragment de séquence, vous pouvez ajouter un nouveau fragment de séquence à votre panier!

-Si la recherche d'homolgues par BLAST suggère qu'un ORF correspond bien à un gène (ou que l'ORF n'a aucun homologue connu mais semble trop long pour être dû au hasard - par exemple 250 codons[1]), cochez la case 'codant' de la rubrique 'Statut'. Indiquez ensuite le brin (direct ou indirect) sur lequel se trouve l'ORF, ainsi que ses positions de début et de fin. Notez que si votre ORF est complet en 3' (c'est à dire qu'il se termine par un codon STOP), il faudra retirer des coordonnées de fin les 3 nucléotides du STOP. Pour valider cet ORF, soumettez déjà ces données à l'Annotathon en cliquant sur "Enregistrer les annotations".

Si l'ORF vérifie les règles citées plus haut, la traduction sera alors affichée automatiquement; dans le cas contraire un message d'erreur vous indiquera par exemple si l'ORF contient des STOP. L'ORF peut être incomplet (codon STOP de fin ou codon d'initiation manquants) auquel cas seul un avertissement est affiché.

[1]en effet l'absence d'homologues dans les banques de séquences ne constitue pas la démonstration qu'un ORF est non-codant; dans ce cas on ne trouverait jamais de gènes complètement nouveaux! Il existe d'autres techniques d'identification de gène dites ab initio (par exemple celles exploitant les biais statisitiques d'utilisation de codons) mais celles-ci ne seront qu'au programme de bioinformatique de Master.

Consultez la Foire aux Questions pour plus de détails sur la recherche d'ORF, notamment sur la question très délicate et cruciale de la position exacte de début d'ORF...

ANALYSE DES RÉSULTATS:

Voici une proposition de structure pour l'analyse des ORFs:

1- Classifications des ORFs
  1.1- Justification des ORFs KNOWN (si présents)
  1.2- Justification des ORFs NOVEL (si présents)
  1.3- Justification des ORFs ORFan (si présents)
  1.4- Justification des ORFs Faux Positifs (si présents)

     -> donnez des arguments explicites et chiffrés!
     -> référez-vous à la table 1 explicitement!
     -> MAIS NE JAMAIS EXACTEMENT PARAPHRASER LE TABLEAU!
     -> citez vos sources, de préférence sous forme de liens, par ex:
        "les homologues sont des epimerase (cf. Fiche SWISSPROT MJ0211)"

2- ORF séléctionnée pour la suite de l'étude
     -> Justifiez!
     -> D'autres ORFs mériteraient-ils un analyse bioinformatique indépendante?
3- Extrêmités de l'ORF sélectionnée
     -> Discutez des positions de début et de fin de l'ORF, et le cas échéant estimer le nombre d'AA manquant (renvoyez à la rubrique alignement multiple pour les détails).

Masse moléculaire

Si l'ORF est complet (codon initiation->STOP), alors calculez la masse moléculaire théorique du polypetide correspondant à cet ORF en utilisant par exemple:

Domaines protéiques

Recherchez si la traduction de votre ORF présente des domaines protéiques conservés, en utilisant par exemple:

Pour les résultats bruts de la recherche INTERPROscan, copiez vos résultats sous la forme suivante uniquement ("Export" -> "TSV").

RÉSULTATS BRUTS:

TO82S_4665010	35c27fb0e8e5c87be19799682b0ebae4	205	SUPERFAMILY	SSF52833		79	162	3.44E-7	T	30-09-2014	IPR012336	Thioredoxin-like fold
TO82S_4665010	35c27fb0e8e5c87be19799682b0ebae4	205	Pfam	PF14595	Thioredoxin	44	167	6.3E-32	T	30-09-2014
TO82S_4665010	35c27fb0e8e5c87be19799682b0ebae4	205	Gene3D	G3DSA:3.40.30.10		18	205	4.4E-36	T	30-09-2014	IPR012336	Thioredoxin-like fold


Veuillez résumer ce résultat brut assez indigeste par un tableau N°2 (encore un!) de synthèse, en ignorant les domaines prédits non intégrés à INTERPRO (no IPR) et en ne conservant qu'un seul domaine représentatif s'il y a des prédictions redondantes (par exemple ne reportez que le domaine Gene3D qui a le meilleur e-value dans le résultat ci-dessus qui présente 3 domaines redondants):

Table 2: Liste des domaines protéiques conservés détectés par InterproScan, après nettoyage de la redondance

Code Interpro
 (IPRxxxxxx) 
Banque
d'origine
Code dans la
banque d'origine
Position
de début
Position
de fin 
E-value
  
Intitulé banque d'origine  
Intitulé Interpro 
IPR012336
Gene3D
G3DSA:3.40.30.10 
18 
205
4.4E-36
Néant
Thioredoxin-like fold 


Vous devez ensuite renseigner dans le petit tableau spécial du formulaire "Domaines conservés" de l'Annotathon entre 1 et 4 domaines qui vous semblent les plus pertinents. Ne soumettez à l'Annotathon que les domaines qui vous paraissent clairement significatifs, c'est à dire

  1. ceux que l'on ne s'attend pas à trouver purement par hasard (dont les signatures/profils sont suffisamment spécifiques). La E-value associée à chaque alignement de domaines fonctionnels sont là pour vous y aider.
  2. ceux dont la fonction concorde avec les autres analyses bioinformatiques effectuées (par exemple un domaine de liaison à l'ADN pour un ORF dont les homologues trouvés par BLAST sont des facteurs de transcription)
  3. non redondants (et non-chevauchants) avec d'autres domaines que vous avez retenu

Si vous êtes convaincu de la vraissemblance de certains domaines prédits (4 au maximum), saisissez-en les noms et coordonnées dans le formulaire de l'Annotathon. Ne répétez pas le même domaine fonctionnelreprésenté sous différents noms/numéros d'accession dans plusieurs base de données (on retrouve en effet fréquement le même domaine protéique sous des numéros d'accession différents dans PROSITE, PFam, PRINTS etc.).

ANALYSE DES RÉSULTATS:

1. Domaine(s) retenu(s)
    -> Justifiez, chiffrez vos arguments (longeur du domaine, E-value)!
    -> Mentionnez les autres domaines (aussi des vrais positifs) non retenus qui sont juste redondant avec le domaine retenu: même domaine prédit par une autre méthode / d'une autre base de données de domaines, domaines implicites au domaine retenu (par exemple un domaine transmembranaire pour un transporteur membranaire)
    -> référez-vous à la table 2 explicitement, SANS EXACTEMENT LA PARAPHRASER!

2. Domaines rejetés (le cas échéant)
    -> Justifiez pourquoi certains domaines sont exclus (soucis de E-value, domaines non intégrés dans INTERPRO)!

3. Fonction biologique
    -> Donnez des détails sur la fonction biologique associée au(x) domaine(s) retenu(s) (activité enzymatique, fonction moléculaire, processus biologiques, répartition à travers le vivant etc.)
    -> Croisez avec les résultats du BLAST (notamment contre SWISSPROT)
    -> citez vos sources (par exemple en donnant un lien vers l'URL d'une fiche INTERPRO ou PFAM)!

Recherche d'homologues par BLAST

A partir de cette etape, il n'est pas necessaire de copier les resulats intermediaires dans les champs correspondants. Pour eviter les effets cycliques de l'analyse, vous pouvez utiliser le 'Bloc note' pour ces resultats intermediaires. Une fois que l'origine taxonomique de votre sequence est acquise, vous pouvez alors mettre au propre vos resultats intermediaires dans les champs correspondants. Utilisez BLAST pour rechercher s'il existe d'éventuels homologues de vos ORF dans les banques de séquence. Vous trouverez des serveur Internet BLAST sur:

Deux approches BLAST sont possibles pour chercher des homologues à votre séquence:

  • un BLASTp (séquence protéique contre banque protéique) de votre ORF contre une banque protéique
  • un BLASTx (séquence nucléotidique traduite par BLAST dans les 6 phases contre banque protéique) de la séquence NUCLEOTIDIQUE complète de votre fragment de séquence contre une banque protéique; utilisez ce BLASTx si vous avez des doutes sur le cadre de lecture de votre ORF, où si votre recherche d'ORF a été apparement infructueuse (le BLASTx est généralement insensible aux erreurs de séquençage)

Interrogez impérativement les deux banques suivantes:

  • NR banque de protéine la plus exhaustive disponible (utile pour l'analyse phylogénétique)
  • SWISSPROT petite banque de protéine où les fiches d'annotation sont très complètes (utile pour l'analyse fonctionnelle)

Copiez-collez dans le champ 'BLAST' de l'Annotathon au minimum (Attention: une version texte du resultat blast est obtenue via le bouton "Reformat"):

  1. l'entête des résultats du/des BLAST (ou indiquez le PROTOCOLE: quel programme a été utilisé contre quelle banque de données et autres paramètres éventuels)
  2. la liste complète des résumés des séquences ayant été alignée suivie des deux colonnes 'Score' et 'E-Value'
  3. la première dizaine d'alignements deux-à-deux
  4. le rapport taxonomique du BLAST (BLAST au NCBI seulement, lien dans l'entête du BLAST) dans le champ "Rapport Taxonomique" de l'Annotathon: ne copiez que la première partie dite Lineage Report!

Si votre ORF présente des homologues connus, précisez impérativement dans votre ANALYSE DES RESULTATS quel est la valeur seuil de E-value qui sépare les homologues (vrais positifs) des non-homologues (faux positifs). Présentez un résumé de synthèse de vos observations BLAST dans un tableau du type:

Table 3: Nombre et qualité des alignements détectés par BLASTp contre NR et SWISSPROT

 
 nombre de protéines alignées
e-value min
e-value max
e-value seuil
 NR 
3124
5e-61
10
4e-07
 SP
105
3e-05
10
< 3e-05

A l'aide de l'outil "Definition List", listez dans une table 4 de la rubrique ANALYSE DES RESULTATS l'ensemble des fonctions des homologues avec leurs gammes de E-values (cf exemple ci-dessous).

Attention: ce petit outil "Definition List" est bien pratique, mais très rudimentaire: il récupère chaque identifiant de votre listing BLAST, va chercher dans NR la ligne de définition complète de chaque fiche protéique (elles sont souvent tronquées dans le listing BLAST), puis compte pour chaque "définition" unique le nombre de fois (et les E-values extrêmes) où cette définition a été vue. Dans certains cas, il vous faudra encore simplifier cette liste de définitions, par exemple en regroupant sous une seule ligne "DNA polymerase B" de votre table 4 l'ensemble des "définitions" suivantes:

  • "DNA polymerase B"
  • "DNA polymerase B PolB"
  • "Putative DNA polymerase B"
  • "DNA polymerase B family proteins"
  • "DNA polymerase B, partial"

Table 4: Catalogue des fonctions des protéines alignées par BLASTp contre NR

   ___________________________________________________________________________________________________
  |    descriptions :                                                     | min e-value | max e-value | 
  |_______________________________________________________________________|_____________|_____________|
  | • carbamoyl phosphate synthase large subunit                          |    5e-61    |       10    |
  | • transcriptional regulator                                           |    7e-33    |    2e-29    |
  | • haloacid dehalogenase                                               |    2e-31    |    3e-10    |
  | • UDP-phosphate galactose phosphotransferase                          |    5e-30    |     0.35    |
  | • pilin glycosyl transferase B2                                       |    2e-28    |    4e-18    |
  | • carboxylate-amine ligase                                            |    9e-25    |      8.3    |
  | • sialic acid O-acetyltransferase NeuD family sugar O-acyltransferase |    5e-19    |    6e-19    |
  | • NAD-dependent epimerase/dehydratase                                 |    1e-17    |    0.040    |
  | • biotin carboxylase                                                  |    7e-17    |      9.9    |
  | • carboxyltransferase                                                 |    5e-16    |      4.1    |
  | • DNA polymerase B                                                    |    2e-01    |      9.9    |
  |_______________________________________________________________________|_____________|_____________|

Vous devrez évidemment discuter si cette liste de fonctions semble cohérente, c'est à dire que toutes ces fonctions sont synonymes ou compatibles. Cette comparaison des différentes fonctions présentes dans les résultats du BLAST servira notamment à définir la valeur seuil de la E-value. Discutez aussi de la cohérence avec les prédictions INTERPRO!

ANALYSE DES RÉSULTATS:

N'oubliez pas:
-Abandonner si aucun homologue (ou très peu, <10)
-Abandonner si ce gène existe déjà dans les banques de données (séquence protéique >95% identique sur >90% de la longueur de l'ORF)

Proposition de structure:

1. Panorama des alignements
    -> Description très synthétique des résultats (y-a-t-il des alignements, les protéines alignées sont-elles de fonctions connues, qualité des meilleurs alignements?)
    -> Chiffrez toutes vos observations (E-values, nombre d'alignements, % d'identité + longueurs d'alignements, nombre d'INDEL etc.)!
    -> Citez les tableaux SANS EXACTEMENT LES PARAPHRASER!

2. Identification des homologues
    -> Justifiez les seuils de E-value (NR & SP) qui séparent les homologues probables des homologues improbables (ou incertains)!
    -> Vous devez montrer que les fonctions des homologues (sous le seuil de E-values) sont cohérentes entre elles (faire référence à la table 4)

3. Fonction des homologues dans SWISSPROT
   -> A partir de l'exploration des fiches SWISSPROT des plus proches homologues, faites des hypothèse fonctionelles à propos de votre ORF (acides aminés / domaines avec des rôles spécifiques), croisez avec les résultats d'INTERPRO!

-> Dans tous les cas, citez vos sources (par exemple en donnant un lien vers l'URL d'une fiche SWISSPROT)!

Rapport Taxonomique du BLAST contre NR

Le "Lineage Report" vous permet essentiellement de determiner le Groupe Etude et le Groupe Exterieur qui formeront la base de votre alignement multiple, puis de l'arbre phylogénétique.

IMPORTANT: Vous pouvez obtenir le rapport taxonomique de votre Blast en utilisant l'outil local "tax_report2" TaxReports.

Copiez sous RESULTATS BRUTS l'ensemble du Lineage Taxonomique (mais pas le Organism Report SVP):

RÉSULTATS BRUTS:

Lineage report
.LUCA
. Bacteria
. .Cyanobacteria
. . Prochlorales
. . .Prochlorococcaceae
. . . Prochlorococcus
. . . .Prochlorococcus marinus str. MIT 9515........ 315  4e-103 2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. MIT 9301........ 305  3e-99  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. MIT 9215........ 303  8e-99  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. AS9601.......... 301  4e-98  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. NATL1A.......... 261  2e-82  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. MIT 9303........ 249  1e-77  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . Synechococcus sp. WH 8109....................... 251  1e-78  1 hit   Bacteria:Cyanobacteria:Chroococcales:    Carotene 7,8-desaturase [Synechococcus sp. WH ...   
. . Synechococcus sp. WH 7803....................... 251  2e-78  3 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene dehydrogenase [Synechococcus sp....   
. . Synechococcus sp. CB0205........................ 250  3e-78  1 hit   Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. BL107......................... 250  3e-78  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. WH 8016....................... 250  4e-78  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. CC9311........................ 250  4e-78  6 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene desaturase [Synechococcus sp. CC931...   
. . Synechococcus sp. RS9916........................ 249  1e-77  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. CB0101........................ 248  2e-77  1 hit   Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. RCC307........................ 236  2e-72  3 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene dehydrogenase [Synechococcus sp....   
. . Synechococcus sp. PCC 7002...................... 217  2e-65  3 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene dehydrogenase [Synechococcus sp....   
. . Cyanobium sp. PCC 7001.......................... 249  7e-78  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Cyanobium sp....   
. . Crocosphaera watsonii........................... 231  1e-70  1 hit   Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Crocosphaera ...   
[...]

En vous aidant de l'outil "Taxonomy List", faites sous ANALYSE DES RESULTATS un résumé de vos observations du rapport taxonomique dans un tableau du style suivant (notez que ce tableau de synthèse doit être précis pour les taxa les plus proches, et peut devenir moins précis avec par exemple juste une ligne par Phylum ou même Règne pour les taxa les plus éloignés):

Table 5: Synthèse des classifications taxonomiques des protéines alignées par BLASTp contre NR

Règne
Phylum
Classe
Gamme de e-value
Nombre d'alignements
Bacteria
Proteobacteria
Betaproteobacteria
3E-71 à 8E-38
 400
  
  
Gammaproteobacteria
9E-64 à 7.8
 2500
  
  
Alphaproteobacteria
3E-43 à 0.09
 130
  
  
Deltaproteobacteria
1E-47 à 3.0
 80
  
  
Epsilonproteobacteria
2E-32 à 5E-16
 30
  
Firmicutes
-
7E-51 à 7E-30
 3700
  
Actinobacteria
-
5E-48 à 6E-26
 80
Eukaryota
-
-
8E-24 à 2.5
 80

Vous utiliserez ces résultats du BLAST pour constituer deux groupes de séquences homologues qui serviront, après alignement multiple, à tenter une reconstruction d'arbre phylogénétique:

  • un groupe d'étude (jusqu'à environ 20-30 séquences) représentant les homologues appartenant au même groupe taxonomique présume pour votre ORF
  • un groupe extérieur (environ 5-15 séquences) représentant les homologues les plus proches n'appartenant pas au groupe d'étude (dans le but d'enraciner l'arbre phylogénétique, lire absolument la FAQ à ce sujet)

IMPORTANT: Notez que TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur sont des HOMOLOGUES, c'est à dire au dessous de la E-value seuil déterminée précedemment lors du BLAST.

Consultez la Foire aux Questions pour plus de détails sur le BLAST.

Consultez ce document pour plus de détails sur la constitution des groupes d'étude et exterieur.

ANALYSE DES RÉSULTATS:

1. Panorama taxonomique des homologues
   -> faites un très bref tour d'horizon des origines taxonomiques des homologues (limités à un petit nombre de phyla bactériens, ou présents chez l'ensemble des procaryotes, ou ubiquitaire à l'ensemble des êtres cellulaires etc.).

2. Choix du groupe d'étude
   -> faire explicitement référence à la table 5
   -> Définissez et justifiez le choix de groupe d'étude 
   -> Définissez et justifiez le groupe extérieur qui en découle!
   -> calculez explicitement le différentiel de E-values entre les 2 groupes d'étude et extérieur!
   -> citez vos sources (par exemple en donnant un lien vers l'URL de l'arbre de la vie)!

 

IMPORTANT: Indiquez dans la rubrique ANALYSE DES RÉSULTATS du champ Rapport Taxonomique la liste complète de TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur: pour chaque séquence donnez son numéro d'accession, le nom de code que vous aurez choisi (voir ci-dessous Alignement multiple de séquences protéiques), son E-value donné par BLAST et son groupe taxonomique d'appartenance. Vous pouvez faire du copier-coller à partir des entêtes de vos sequences (au format fasta) issues de l'outil local "tax_report2" (mais ne pas indiquer ici les séquences protéiques!). Par exemple:

PROTOCOLE:
BLASTp contre NR, / wwww.ncbi.nlm.nih.edu / paramètres par défaut, sauf "Number of descriptions=5000"


ANALYSE DES RÉSULTATS:

[ici rédigez votre description du taxonomy report, votre justification des groupes d'étude et exterieur, suivi de la liste des séquences choisies pour les groupes:]

Groupe d'étude: Cyanobacteria

>Bac_Cya_Pro_3 [Bacteria Cyanobacteria Prochlorales]  E-value=1e-15  Bacteria;Cyanobacteria;Prochlorales;Prochlorococcaceae;Prochlorococcus; gi|488894830|ref|WP_002805954.1| zeta-carotene desaturase [Prochlorococcus marinus] 
>Bac_Cya_Chr_2 [Bacteria Cyanobacteria Chroococcales]  E-value=7e-78  Bacteria;Cyanobacteria;Chroococcales;Cyanobium; gi|493968054|ref|WP_006911325.1| 15-cis-phytoene desaturase [Cyanobium sp. PCC 7001] 
>Bac_Cya_Chr_3 [Bacteria Cyanobacteria Chroococcales]  E-value=1e-70  Bacteria;Cyanobacteria;Chroococcales;Crocosphaera; gi|494523610|ref|WP_007313063.1| 15-cis-phytoene desaturase [Crocosphaera watsonii] 
>Bac_Cya_Chr_4 [Bacteria Cyanobacteria Chroococcales]  E-value=9e-68  Bacteria;Cyanobacteria;Chroococcales;Cyanothece; gi|218438147|ref|YP_002376476.1| phytoene desaturase [Cyanothece sp. PCC 7424] 
>Bac_Cya_Chr_5 [Bacteria Cyanobacteria Chroococcales]  E-value=1e-64  Bacteria;Cyanobacteria;Chroococcales;Synechocystis; gi|16330439|ref|NP_441167.1| phytoene desaturase [Synechocystis sp. PCC 6803] 
>Bac_Cya_Osc_1 [Bacteria Cyanobacteria Oscillatoriales]  E-value=3e-72  Bacteria;Cyanobacteria;Oscillatoriales; gi|497454285|ref|WP_009768483.1| phytoene desaturase [Oscillatoriales cyanobacterium JSC-12] 
>Bac_Cya_Osc_3 [Bacteria Cyanobacteria Oscillatoriales]  E-value=1e-16  Bacteria;Cyanobacteria;Oscillatoriales;Microcoleus; gi|493682519|ref|WP_006632676.1| zeta-carotene desaturase [Microcoleus vaginatus] 
>Bac_Cya_Nos_1 [Bacteria Cyanobacteria Nostocales]  E-value=1e-70  Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298491654|ref|YP_003721831.1| phytoene desaturase ['Nostoc azollae' 0708] 
>Bac_Cya_Nos_2 [Bacteria Cyanobacteria Nostocales]  E-value=5e-14  Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298492908|ref|YP_003723085.1| carotene 7,8-desaturase ['Nostoc azollae' 0708] 
>Bac_Cya_Nos_3 [Bacteria Cyanobacteria Nostocales]  E-value=2e-70  Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Anabaena; gi|414079384|ref|YP_007000808.1| phytoene desaturase [Anabaena sp. 90] 
>Bac_Cya_Sti_1 [Bacteria Cyanobacteria Stigonematales]  E-value=2e-68  Bacteria;Cyanobacteria;Stigonematales;Fischerella; gi|497072507|ref|WP_009458406.1| 15-cis-phytoene desaturase [Fischerella] 

Groupe extérieur: autres bacteria non Cyanobacteria (Chloroflexi, Chlorobi, Acidobacteria, Firmicutes, Planctomycetes)

>Bac_Chl_Chl_1 [Bacteria Chloroflexi Chloroflexales]  E-value=3e-32  Bacteria;Chloroflexi;Chloroflexales;Chloroflexaceae;Chloroflexus; gi|163847906|ref|YP_001635950.1| carotene 7,8-desaturase [Chloroflexus aurantiacus J-10-fl] 
>Bac_Chl_Chl_2 [Bacteria Chlorobi Chlorobia]  E-value=2e-30  Bacteria;Chlorobi;Chlorobia;Chlorobiales;Chlorobiaceae;Chlorobaculum; gi|193212415|ref|YP_001998368.1| carotene 7,8-desaturase [Chlorobaculum parvum NCIB 8327] 
>Bac_Aci_Can_1 [Bacteria Acidobacteria Candidatus Chloracidobacterium]  E-value=2e-27  Bacteria;Acidobacteria;Candidatus Chloracidobacterium; gi|347753771|ref|YP_004861335.1| hypothetical protein [Candidatus Chloracidobacterium thermophilum B] 
>Bac_Fir_Bac_1 [Bacteria Firmicutes Bacillales]  E-value=2e-14  Bacteria;Firmicutes;Bacillales;Bacillaceae;Bacillus; gi|407961641|dbj|BAM54881.1| zeta-carotene desaturase [Bacillus subtilis BEST7613]
>Bac_Pla_Pla_1 [Bacteria Planctomycetes Planctomycetacia]  E-value=2e-11  Bacteria;Planctomycetes;Planctomycetacia;Planctomycetales;Planctomycetaceae;Singulisphaera; gi|430745940|ref|YP_007205069.1|

Alignement multiple de séquences protéiques

L'objectif de cet alignement multiple est d'abord de vérifier que l'ORF en question s'intègre correctement dans la famille de ses homologues présumés: l'alignement multiple doit donc présenter des régions conservées convaincantes. D'autre part l'alignement multiple servira à inférer un arbre phylogénétique des homologues présumés (cf. ci-dessous "Arbre phylogénétique"): l'alignement doit donc suggérer suffisamment de mutations (positions informatives) pour pouvoir reconstruire l'histoire évolutive de ces protéines! Attention à ne pas inclure de séquences trop partielles qui réduisent les positions informatives.

Il est fréquent d'avoir à refaire plusieurs fois l'alignement après avoir ajouté ou retiré des séquences plus ou moins divergentes avant d'obtenir un alignement satisfaisant.

IMPORTANT: avant de procéder à l'alignement multiple, vous pouvez insérer des noms des séquences directement dans leur format FASTA afin de créer des étiquettes de séquence lisibles pour l'alignement multiple et les arbres phylogénétiques. Le nom de séquence est constitué des lettres directement après le signe > jusqu'au premier espace, à concurrence de 10 caractères maximum. Si vous avez selectionné vos séquences d'interets à partir du rapport taxonomique issu de TaxReports2 ("Chercher les séquences sélectionnées au format FASTA"), alors des noms de séquence uniques ont déjà été insérés, par exemple:

>AEMMMM1 [Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae Methanosarcina]  E-value=1e-85  Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales; Methanosarcinaceae; Methanosarcina; gi|851310952|ref|WP_048174166.1| UDP-glucose 4-epimerase [Methanosarcina siciliae]
MSFNLADYAELLEDLSPHSQNALQANWHEATKVFSPRGLDNYLKGAAAIRGLGKGDSLVETWIEKAPMVAKEVGEDVVGD
LATASLELASRTSGTVIELLLATSAIAANRLGDAELFIKYLQFINTLIAQAPRGVRPMLDKLEVLFQHLTLGGLRRWALW
GAHAHRTNYEEQIRYFSLDSKESMAMLQKERKGTLLVDVQRRINMYLRALWARDFFMRPTSGDFETREGYRPYIEDYLLH
VPDAFDDFTVEGQEPVSGLELYRATAAHCAAHVVETKLPISAEALNPMQIAVISVIEDARVETLSIRRFPGLKQLWSKLH
TATPEMNGSMGDYLNRLARALLDESYKDKDPWIVEARALFALAQEKLDSNLTSWDIGVQLAHSFGQKRIPFNPRTDLLTA
PYRDDNRYFWEFEEFDFNKAASAGYESIKQVRKYVSVMEMANEIDVETAGDDAEEIWVLGTELFPYENIGDESGGKSFNE
LEGKEPVSDPFHYSEWDYQIQLERPAWATVLEKRAKAGDLQIIEAITAQYKREIHRMKFLLDAMQPQGVQRIRRLEDGDE
IDINAAISSLTDIRLGNQPDPRIMMRSVRKTRDFSILVLLDLSESTNEKVQDQEYSVRELTQQACVLLADAINKVGDPFA
IHGFCSDGRHDVEYYRFKDFDQHWDETPKSRLAGMTGQLSTRMGAAIRHAGHHLQLQRSAKKLLIVITDGEPADVDVRDP
QYLRYDTKKAVEEVAKLGVTTYCMSLDPRADNYVSRIFGQKNYMVVDHVQRLPEKLPLLYAGLTR

Vous noterez que ce code "AEMMMM1" est constitué des premières lettres des 5 premiers niveaux de classification taxonomique (Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae). Quelques fois il peut être pratique d'ajouter des codes pour identifier par exemple les séquences du groupe extérieur:

>exAEMMMM1 [Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae Methanosarcina]  E-value=1e-85  Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales; Methanosarcinaceae; Methanosarcina; gi|851310952|ref|WP_048174166.1| UDP-glucose 4-epimerase [Methanosarcina siciliae]
MSFNLADYAELLEDLSPHSQNALQANWHEATKVFSPRGLDNYLKGAAAIRGLGKGDSLVETWIEKAPMVAKEVGEDVVGD
LATASLELASRTSGTVIELLLATSAIAANRLGDAELFIKYLQFINTLIAQAPRGVRPMLDKLEVLFQHLTLGGLRRWALW
GAHAHRTNYEEQIRYFSLDSKESMAMLQKERKGTLLVDVQRRINMYLRALWARDFFMRPTSGDFETREGYRPYIEDYLLH
VPDAFDDFTVEGQEPVSGLELYRATAAHCAAHVVETKLPISAEALNPMQIAVISVIEDARVETLSIRRFPGLKQLWSKLH
TATPEMNGSMGDYLNRLARALLDESYKDKDPWIVEARALFALAQEKLDSNLTSWDIGVQLAHSFGQKRIPFNPRTDLLTA
PYRDDNRYFWEFEEFDFNKAASAGYESIKQVRKYVSVMEMANEIDVETAGDDAEEIWVLGTELFPYENIGDESGGKSFNE
LEGKEPVSDPFHYSEWDYQIQLERPAWATVLEKRAKAGDLQIIEAITAQYKREIHRMKFLLDAMQPQGVQRIRRLEDGDE
IDINAAISSLTDIRLGNQPDPRIMMRSVRKTRDFSILVLLDLSESTNEKVQDQEYSVRELTQQACVLLADAINKVGDPFA
IHGFCSDGRHDVEYYRFKDFDQHWDETPKSRLAGMTGQLSTRMGAAIRHAGHHLQLQRSAKKLLIVITDGEPADVDVRDP
QYLRYDTKKAVEEVAKLGVTTYCMSLDPRADNYVSRIFGQKNYMVVDHVQRLPEKLPLLYAGLTR
 

Construisez les alignements multiples (séquences du groupe d'étude, du groupe extérieur et n'oubliez pas la traduction de votre ORF!) en utilisant une version Internet d'un des logiciels suivants: ClustalW (classique), MUSCLE (rapide et un peu plus efficace) ou T-COFFEE (plus lent mais très robuste et avec une visualisation en couleur des blocs conservés très utile). Ces logiciels sont disponibles sur:

La seule limite au nombre de séquences à inclure dans votre alignement multiple est liée au temps de calcul des logiciels d'alignement multiple, ainsi qu'au temps de calcul de l'arbre phylogénétique. Ce temps reste en général raisonnable jusqu'à une trentaine (voire une cinquantaine) de séquences ayant chacune une centaine de résidus.

Copiez-collez l'alignement multiple produit (au format CLUSTALW) dans le champ 'Alignement Multiple' de l'Annotathon.

Copiez-collez egalement l'alignement multiple (positions selectionnees / sites informatifs) (au format CLUSTALW) issue de Gblocks dans le champ 'Alignement Multiple' de l'Annotathon. Cet alignement Gblocks est obtenu lors la construction de votre arbre phylogenetique.

ANALYSE DES RÉSULTATS:

1. Qualité de l'alignement multiple
   -> description qualitative de l'alignment: chiffrez avec le nombre de positions identiques et le nombre de positions avec des substitutions conservatives! Il s'agit ici de confirmer chiffres à l'appui que toutes les séquences sont bien homologues!
   -> Sont-elles toutes de longueur comparable (attention aux séquences tronquées!)?
   -> Nombre et répartition des INDELS
   -> Existe-t-il des sous groupes dans cette grande famille d'homologues (souvent par exemple: groupe étude vs groupe extérieur)?
   -> Après curation par GBLOCKS: combien de positions sont suffisament conservées (=homologues) pour être exploitées pour l'inférence phylogénétique (stats GBLOCKS)? Est-ce suffisant? Si non avez-vous relaxé les paramètres de stringence de GBLOCKS? Ou de retirer les homologues trop distants ou tronqués qui dégradent la qualité de l'alignement? 

2. Identification des régions conservées
    -> Pour ce faire, rien de mieux que d'annoter directement l'alignement multiple de GBLOCKS avec des codes "A", "B" etc. pour repérer les régions d'intéret, pour y faire ensuite référence dans vos analyses!
    -> Si des acides aminés (ou motifs de plusieurs acides aminés) sont connus comme étant impliqué dans des fonctions/activités de ce type de protéines (cf analyses fiches homologues SWISSPROT et domaines INTERPRO), les repérer dans l'alignement multiple (mettez des codes dans le style "->X<-")!
    -> Sont-il conservés chez tous les homologues, et dans l'ORF?

3. Etude des extrêmités de l'ORF
    3.1 Faire une analyse explicite de la région N-terminale de l'alignement (ORF complet? Quid du codon d'initiation? Nombre d'AA manquants)?
    3.2 Faire une analyse explicite de la région C-terminale de l'alignement (ORF complet? Nombre d'AA manquants)

Arbre phylogénétique

Vous utiliserez l'alignement multiple ci-dessus pour inférer un arbre phylogénétique selon deux approches de reconstruction d'arbres:

  • méthode dite de 'distances' (ex 'neighbor-joining (NJ)', 'BioNJ' ou 'Phylip protdist/neighbor')
  • méthode dite de 'maximun de vraissemblance' (ex 'PhyML)')

Vous pouvez utiliser le service en ligne dédié phylogeny.fr (recommendé, inclu à la fois BioNJ & PhyML).

Consultez la Foire aux Questions pour plus de détails sur l'inférence d'arbres phylogénétiques (y compris un tutorial en images).

 

ATTENTION: Utilisez le site http://annotathon.org/outils/nw_utils.php pour raciner et présenter vos arbres au format "TEXTE" (en effet, les manipulations d'arbres par "TreeDyn" sur le site phylogeny.fr ne sont pas 100% fonctionelles). Vous pouvez ainsi avec cet outil contrôler la dimension (largeur) des arbres, et vous pouvez sélectionner la racine souhaitée (indiquez tout simplement une ou plusieurs noms de séquences du groupe exterieur), le tout en préservant l'affichage des valeur de supports aux noeuds des arbres!

 

Dans tous les cas, copiez-collez la représentation dite 'textuelle' de l'arbre proposé dans le champ 'Arbre' de l'Annotathon. Indiquez aussi dans le champ 'Arbre' la méthode et les paramètres principaux utilisés pour produire votre arbre (ex 'PhyML / http://phylogeny.fr / groupe extérieur: Coccidioides immitis (ascomycetes)').

La représentation textuelle de votre arbre doit être de la forme - notez les (groupe taxonomiques):

PROTOCOLE:

a) Phylogeny.fr / méthode PhyML / Statistical tests for branch support aLRT: SH-like / default substitution model / groupe extérieur: Firmicutes
b) Phylogeny.fr / méthode BioNJ / pas de bootstrap / groupe extérieur: Firmicutes
---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

Important: Identifiez les branches importantes dans vos arbres avec des codes (ex "A", "B"...), puis référez-vous à ces codes dans vos analyses!

Pour une visualisation encore plus aisée et percutante, vous pouvez aussi utiliser des codes couleur pour identifier les différentes branches importantes de vos arbres (dans ce cas pensez à inclure une légende des couleurs). Pour utiliser des codes couleurs, vous devrez insérer vos arbres dans le champ 'Analyses des résultats' au lieu de les insérer dans le champ classique 'Résultats bruts' (mais les arbres colorisés sont tellement pratiques que cette petite entorse vous est plus que pardonnée!).

1. Congruence entre les deux arbres
    -> Décrivez la topologie de chacun des arbres: quels différents groupes monophylétiques observez-vous? 
    -> Est-ce que les deux arbres racontent la même histoire évolutive?
    -> Identifiez les points communs, ainsi que les incohérences éventuelles.

2. Cohérence avec la phylogénie des espèces de référence
    -> Les groupes d'étude et extérieurs sont-ils bien séparés?
    -> vos arbres phylogénétiques de gènes sont-ils cohérents avec les arbres des espèces ("arbre de la vie")? 
    -> repérez tout écart avec la phylogénie de référence, et proposez des hypothèses (HGT, duplication de gènes...)
3. Prédiction de l'origine taxonomique de l'ORF
    -> Dans quelle groupe monophylétique semble émerger la séquence métagénomique? 
    -> faites une hypothèse: groupe taxonomique d'appartenance le plus probable de l'ORF?
    -> Argumentez! Attention de ne pas sur/sous interpréter les arbres obtenus!...
    
			
RÉSULTATS BRUTS:
a)PhyML
Légende:
Actinobacteria
Chloroflexi
Firmicutes
Cyanobacteria

                                                          ,--------------+ BARSPP1 Bacteria Actinobacteria Rubrobacteridae Solirubrobactera                                         
                                                  ,-------+ 0.92                                                                                                                    
                                                  |       '--------------------+ BAAAPP1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                                   
                                                  |                                                                                                                                 
                                                  |          ,-------------+ BAAACN1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                                       
                                                  |          |                                                                                                                      
                                                  |     ,----+ 0.87           ,-------+ BAAAMI1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                            
                                                  |     |    '----------------+ 0.99                                                                                                
                                                  |,----+ 0.85                '------+ BAAACN2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                             
                                                  ||    |                                                                                                                           
                                                  ||    '-----------------+ BAAASS1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                                        
                                                  ||                                                                                                                                
                                                  ||                                                ,-----+ BAAAPP14 Bacteria Actinobacteria Actinobacteridae Actinomycetale        
                                                  ||                                            ,---+ 0.52                                                                          
                                               ,--+|0.69                            ,-----------+ 0.97------------+ BAAAPP8 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               |  ||                                |           |                                                                                   
                                               |  ||                      ,---------+ 0.98      '--------+ BAAAPP10 Bacteria Actinobacteria Actinobacteridae Actinomycetale         
                                               |  ||                      |         |                                                                                               
                                               |  ||                      |         '---------+ BAAAPP2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                    
                                               |  ||                ,-----+ 0.9                                                                                                     
                                               |  ||                |     |     ,------------------+ BAAAPP13 Bacteria Actinobacteria Actinobacteridae Actinomycetale               
                                               |  ||                |     |     |                                                                                                   
                                               |  ||            ,---+ 0.81'-----+ 0.83     ,----------------+ BAAAPP4 Bacteria Actinobacteria Actinobacteridae Actinomycetales      
                                               |  ||            |   |           '----------+ 0.92                                                                                   
                                               |  ||            |   |                      '-------------+ BAAAPP3 Bacteria Actinobacteria Actinobacteridae Actinomycetales         
                                               |  ||            |   |                                                                                                               
                                               |  ||        ,---+ 0.74-------------------------+ BAAAPN1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                   
                                               |  ||        |   |                                                                                                                   
                                               |  '+ 0.55   |   |   ,----------------------+ BAAAMM3 Bacteria Actinobacteria Actinobacteridae Actinomycetales                       
                                               |   |        |   |   |                                                                                                               
                                               |   |        |   '---+ 0.82           ,-------+ BAAAPP7 Bacteria Actinobacteria Actinobacteridae Actinomycetales                     
                                               |   |        |       |       ,--------+ 0.9                                                                                          
                                               |   |        |       '-------+ 0.89   '---+ BAAAPP5 Bacteria Actinobacteria Actinobacteridae Actinomycetales                         
                                               |   |        |               |                                                                                                       
                                               |   |        |               '------------------------+ BAAAMM4 Bacteria Actinobacteria Actinobacteridae Actinomycetales             
                                               |   |        |                                                                                                                       
                                               |   |   ,----+ 0.82   ,---------------------+ BAAASS2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                       
                                               |   |   |    |        |                                                                                                              
                                               |   |   |    |    ,---+ 0.23     ,----------+ BAAAMI3 Bacteria Actinobacteria Actinobacteridae Actinomycetales                       
                                               |   |   |    |    |   '----------+ 0.94                           &nnbsp;                                                                  
                                               |   |   |    |    |              '----+ BAAAMI2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                             
                                           ,---+ 0.76  |    |    |                                                                                                                  
                                           |   |   |   |    |    |                    ,+ BAAAMM2 Bacteria Actinobacteria Actinobacteridae Actinomycetales                           
                                           |   |   |   |    |    |    ,---------------+ 1                                                                                           
                                           |   |   |   |    |    |    |               ' BAAAMM1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                            
                                           |   |   |   |    '----+ 0.83                                                                                                             
                                           |   |   |   |         |    |      ,------------------+ BAAAPP9 Bacteria Actinobacteria Actinobacteridae Actinomycetales                  
                                           |   |   |   |         | ,--+ 0.71 |                                                                                                      
                                           |   |   '---+ 0.81    | |  | ,----+ 0.88----------+ BAAAPP6 Bacteria Actinobacteria Actinobacteridae Actinomycetales                     
                                           |   |       |         | |  | |    | |                                                                                                    
                                           |   |       |         | |  | |    '-+ 0.39----------+ BAAAPP11 Bacteria Actinobacteria Actinobacteridae Actinomycetale                   
                                           |   |       |         | |  '-+ 0.7  '--+ 0.076                                                                                           
                                           |   |       |         '-+ 0.35         '-----------------------+ BAAAAA2 Bacteria Actinobacteria Actinobacteridae Actinomycetales        
                                           |   |       |           |    |                                                                                                           
                                           |   |       |           |    '------------------------+ BAAAPP12 Bacteria Actinobacteria Actinobacteridae Actinomycetale                 
                                           |   |       |           |                                                                                                                
                                           |   |       |           |    ,--------------+ BAAAFG1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                           
                                           |   |       |           '----+ 0.52                                                                                                      
                                  ,--------+ 0.83  D    |                '---------+ BAAAST1 Bacteria Actinobacteria Actinobacteridae Actinomycetales                                
                                  |        |   |       |                                                                                                                            
                                  |        |   |       '---------------------------------+ BAAACN3 Bacteria Actinobacteria Actinobacteridae Actinomycetales                         
                                  |        |   |                                                                                                                                    
                                  |        |   |                   ,-------------+ BAA1 Bacteria Actinobacteria Acidimicrobidae E-value3e-75 Bacte                                  
                                  |        |   |            ,------+ 0.2  J                                                                                                         
                                  |        |   |            |      '------------------------+ BA3 Bacteria Actinobacteria E-value1e-68 Bacteria Actinobacteri                       
                                  |        |   |     ,------+ 0.82                                                                                                                  
                                  |        |   |     |      |      ,-------+ BA2 Bacteria Actinobacteria E-value7e-82 Bacteria Actinobacteri                                        
                                  |        |   |     |      '------+ 0.84   I                                                                                                       
                       ,----------+ 0.83  C |   '-----+ 0.88        '-----------------+ BAC1 Bacteria Actinobacteria Candidatus Microthrix E-value4e-74                              
                       |          |        |         |                                                                                                                              
                       |          |        |         |       ,----+ BA1 Bacteria Actinobacteria E-value5e-101 Bacteria Actinobacter                                                 
                       |          |        |         '-------+ 0.94    E                                                                                                            
                       |          |        |                 '-+ ORF7 Translation of ORF number 2 in reading frame 3 on the rever                                                   
                       |          |        |                                                                                                                                        
 ,---------------------+ 1  B      |        |           ,------------------+ exBCCCCC1 Bacteria Chloroflexi Caldilineae Caldilineales Caldili                                        
 |                     |          |        '-----------+ 0.91                                                                                                                       
 |                     |          |                    '------------------------------------------+ exBFLSS1 Bacteria Firmicutes Lactobacillales Streptococcaceae St                
 |                     |          |                                                                                                                                                 
 |                     |          '-----------------------------+ exBCNSS1 Bacteria Cyanobacteria Nostocales Scytonemataceae Scyto                                                  
 |                     |                                                                                                                                                            
 |                     '------------------------+ exBCPPP1 Bacteria Cyanobacteria Prochlorales Prochlorococcaceae                                                                   
 |                                                                                                                                                                                  
 |                                                  ,-------------------------------------------------------------+ exBFBBA1 Bacteria Firmicutes Bacillales Bacillaceae Anoxybacillu
 |                                         ,--------+ 0.77                                                                                                                          
 |                                  ,------+ 0.49   '------------------------------+ exBFBPV1 Bacteria Firmicutes Bacillales Planococcaceae Viridibac                               
 |                                  |      |                                                                                                                                        
 |                                  |      '---------------------------------------------+ exBFCCPD2 Bacteria Firmicutes Clostridia Clostridiales Peptococc                         
 |                                  |                                                                                                                                               
=+  A                               |                 ,-----------------------+ exBFCCPD1 Bacteria Firmicutes Clostridia Clostridiales Peptococc                                    
 |                                  |                 |                                                                                                                             
 |                                  |   ,-------------+ 0.68                               ,+ exBFBPAA2 Bacteria Firmicutes Bacillales Paenibacillaceae Aneuri                      
 |                         ,--------+ 0.75            '------------------------------------+ 1                                                                                      
 |                         |        |   |                                                  '------+ exBFBPAA1 Bacteria Firmicutes Bacillales Paenibacillaceae Aneuri                
 |                         |        |   |                                                                                                                                           
 |                         |        |  ,+ 0                                  ,--------------+ exBFBPS1 Bacteria Firmicutes Bacillales Planococcaceae Sporosarc                      
 |                         |        |  ||                         ,----------+ 0.85                                                                                                 
 |                         |        |  ||                 ,-------+ 0.72     '--------------------+ exBFBBV1 Bacteria Firmicutes Bacillales Bacillaceae Virgibacillu                
 |                         |        |  ||                 |       |                                                                                                                 
 |                         |        '--+'0.69-------------+ 0.9   '-------------+ exBFBBC1 Bacteria Firmicutes Bacillales Bacillaceae Caldalkaliba                                  
 |                         |           |                  |                                                                                                                         
 |                         |           |                  '------------------------+ exBFBBP1 Bacteria Firmicutes Bacillales Bacillaceae Pontibacillu                               
 |                         |           |                                                                                                                                            
 '-------------------------+ 1         '-------------------------------------+ exBFCC1 Bacteria Firmicutes Clostridia Clostridiales E-value7e-                                      
                           |                                                                                                                                                        
                           |                                         ,---------------+ exBFBPU1 Bacteria Firmicutes Bacillales Planococcaceae Ureibacil                             
                           |                                      ,--+ 0.54                                                                                                         
                           |                                      |  '-------------------+ exBFBPS2 Bacteria Firmicutes Bacillales Planococcaceae Solibacil                         
                           |                     ,----------------+ 0.96                                                                                                            
                           |                     |                |          , exBFBBL2 Bacteria Firmicutes Bacillales Bacillaceae Lysinibacill                                     
                           |                     |                '----------+ 0.91                                                                                                 
                           |      ,--------------+ 0.88                      '----+ exBFBBL1 Bacteria Firmicutes Bacillales Bacillaceae Lysinibacill                                
                           |      |              |                                                                                                                                  
                           '------+ 0.78         '--------------------------------------+ exBFBPK1 Bacteria Firmicutes Bacillales Planococcaceae Kurthia E                          
                                  |                                                                                                                                                 
                                  |                               , exBFCC2 Bacteria Firmicutes Clostridia Clostridiales E-value8e-                                                 
                                  '-------------------------------+ 0.99                                                                                                            
                                                                  '-+ exBFCCCP1 Bacteria Firmicutes Clostridia Clostridiales Clostridi                                              
                                                                                                                                                                                    
 |--------------------------|---------------------------|--------------------------|---------------------------|---                                     &nnbsp;                           
 0                       0.25                         0.5                       0.75                           1                                                                    
 substitutions/site                                                                                              

 

b) BioNJ
[...]

Taxonomie

Après analyse de votre arbre phylogénétique, spécifiez le groupe taxonomique le plus proche (par exemple "Alphaproteobacteria") dont semble être issu l'organisme qui porte votre fragment d'ADN. Pour ce faire deux solutions:

  • indiquez dans le champ "identifiant numérique NCBI" le code taxonomique du groupe taxonomique (par exemple 204455 pour Rhodobacterales, code que l'on trouve dans le fiches GENBANK de séquences à la ligne /db_xref="taxon:204455")
  • indiquez le nom scientifique exact de cet organsime (par ex Rhodobacterales) dans le champ "Nom scientifique".

Après l'enregistrement de vos annotations, vérifiez que celui des deux champs que vous n'avez pas renseigné s'est bien automatiquement rempli; par exemple si vous avez choisi d'indiquer "Alphaproteobacteria" dans le champ "Nom scientifique", après enregistrement vous devez voir s'afficher automatiquement le code "28211" dans le champ "identifiant numérique NCBI" (et inversement).

Notez que le champ "identifiant numérique NCBI" a précédence sur le champ "Nom scientifique"; donc si vous souhaitez changer d'organisme, il faut effacer le code numérique dans le champ "identifiant numérique NCBI" quand vous souhaitez modifier le contenu du champ "Nom scientifique"!

Quand la taxonomie est correctement spécifiée, s'affiche alors son linéage:

Rhodobacterales
Rank: order - Genetic Code: Bacterial and Plant Plastid - NCBI Identifier: 204455
Kingdom: Bacteria - Phylum: Proteobacteria - Class: Alphaproteobacteria - Order: Rhodobacterales
Bacteria; Proteobacteria; Alphaproteobacteria; Rhodobacterales;

IMPORTANT: à moins que votre fragment de séquence soit 100% identique à une séquence présente dans GENBANK, ne spécifiez pas un nom d'espèce précis. Puisque l'origine exacte de ce fragment est essentiellement inconnue, spécifiez plutôt le groupe taxonomique du noeud immédiatement au dessus de votre ORF dans l'arbre phylogénétique.

Processus Biologique & Fonction Moléculaire

Lorsque vos analyses in silico (BLAST, INTERPRO) le permettent, choisissez dans les menus déroulants les termes les plus appropriés et décrivant le plus spécifiquement possible votre ORF. Ces termes font partie d'une liste exhaustive et hierarchique de termes permettant de décrire toutes les activités cellulaires: il s'agit de la "Gene Ontology", souvent cités comme les annotations GO.

  • Fonction Moléculaire: activité biochimique de la protéine (ex. kinase)
  • Processus Biologique: rôle de cette activité dans la cellule (ex. transduction du signal)

Ces annotations GO étant fréquemment assignées aux gènes connus dans les banques de données publiques telles que SWISSPROT ou INTERPRO, n'hésitez pas à vous en inspirer des annotations GO des homologues de vos ORFs ou de ses domaines conservés pour choisir les termes GO les plus appropriés.

Conclusion

Ce champ sera central à votre évaluation: synthétisez dans ce champ vos interprétations et hypothèses bâties sur la base des observations faites dans les rubriques précedentes "ANALYSE DES RÉSULTATS". Imaginez que vous vous adressez à un jury a priori sceptique qu'il faut convaincre! Argumentez, faites référence aux résultats obtenus, chiffrez vos affirmations, croisez les indices, soyez attentif à votre vocabulaire; les analyses bioinformatiques ne peuvent rien démontrer, donc attention aux formules du type "La séquence GOS_12345 provient d'une alphaprotéobactérie de type XYZ". Séparez les faits, vos observations et vos hypothèses ("probablement", "suggère", "putatif")...

Vérifiez que vous avez au moins couvert:

  • les arguments en support votre hypothèse codant ou non-codant; discutez de la position de départ de l'ORF (consultez la FAQ pour les subtilités et erreurs classiques à ce sujet)!
  • vos prédictions sur la fonction de la protéine, tant au niveau des éventuels méchanismes biochimiques (ex. "enzyme de conjugaison de l'ubiquitine ..."), qu'au niveau plus large du rôle biologique au sein de l'organisme (ex. "rôle dans le contrôle du cycle cellulaire..."). Utilisez pour les prédictions de fonction les annotations disponibles pour les homologues de votre ORF dont la fonction est connue, par exemple dans les fiches SWISSPROT ou encore les fiches descriptive des domaines PFAM/INTERPRO.
  • votre hypothèse sur la classification taxonomique de l'organisme portant ce fragment d'ADN

Ce qu'il ne faut pas faire:

  • expliquer le fonctionnement ou les objectifs théoriques des logiciels utilisés (considérez que le lecteur connait parfaitement la bioinformatique!)
  • expliquer sur quel bouton vous avez cliqué (considérez que le lecteur sait très bien comment on lance un BLAST en ligne)
  • écrire en style SMS
  • délayer, enrober, étirer, en somme espérer une évaluation au poids...
  • répéter in extenso les résultats bruts alors que déjà présentés dans les champs idoines
  • écrire tout d'un bloc sans aucune structure
  • cloisonner chaque analyse (vous pouvez, vous devez faire référence à l'alignement multiple lorsque vous discutez des extrémités de votre ORF)
  • conclure directement sans aucune référence à des observations
  • présenter des hypothèses sans arguments circonstanciés et précis
  • rester vague, par exemple citer des homologues du BLAST ou des domaines conservés sans donner leurs E-values

Produisez avant tout un argumentaire scientifique, synthétique, complet, rigoureux, chiffré, structuré et implaccable.

 

Correction

La qualité de l'annotation de chaque lot des paniers de chaque étudiant sera notée. La note de TD globale de l'étudiant sera fonction à la fois de:

  • la difficulté des lots de séquences attribués (les séquences ne présentant pas de difficultés particulières compteront moins dans le calcul de la note finale que les séquences ayant requis plus d'efforts pour arriver à aller jusqu'au bout des annotations)
  • la qualité des annotations (exactitude, richesse, argumentation, rédaction)

    Demandez de l'aide si nécessaire, soyez organisés (marques pages, onglets) et surtout n'attendez pas la veille de la fermeture pour annoter!

Annotation evaluation check list

To help you anticipate potential annotation pitfalls, here is a (non comprehensive) list of the most common criticisms made about annotations submitted for evaluation:

Analysis Category Criticism
ORF ORF  
ORF ORF Erreurs de calcul dans les tailles des ORF et des polypeptides
ORF ORF Mauvaise classification d'un ORF
ORF ORF Mauvaise classification d'un ORF : relire les règles du jeu
ORF ORF Quand vous avez choisi "any codon" en initiation, ne soyez pas surpris si votre ORF ne commence pas par un codon d'inititation!
ORF ORF Taille du polypeptide erronée quand il ne présente pas de codon STOP
ORF ORF Texte de l'analyse des résultats incohérent avec la table 1.
ORF ORF Vous mélangez les extrémités 5' et 3'
ORF analysis Absence d'analyse des résultats de recherche d'ORF
ORF analysis Analyse des résultats incomplète
ORF analysis Analyse des résultats incomplète (nb d'ORF putatifs, incomplet en 5'/3'?, choix de l'ORF)
ORF analysis Classifiez chaque ORF parmi: Faux Positif, ORFan, Novel, Known !
ORF analysis Des informations manquantes dans la table 1
ORF analysis Discutez de la position de début de l'ORF en fonction des analyses ultérieures
ORF analysis Discutez si les autres ORF "moins longs" paraissent significatifs ou insignifiants
ORF analysis Discutez spécifiquement de la position de début de votre ORF (complet/incomplet en 5', position probable du codon d'initiation etc.)
ORF analysis Erreur de calcul dans la taille des ORF
ORF analysis Justifiez les classifications des ORFs (KNOWN, NOVEL, ORFan, FP)
ORF analysis Les ORFS sans homologues dans NR sont soit des faux positifs, soit des ORFans
ORF analysis Les proportions dans le diagramme schématique de répartition des ORFs ne sont pas respectées (utilisez une police de caractère dite "monospace")
ORF analysis Lot non-codant improbable vu la longueur des ORF!
ORF analysis Mentionnez la longueur de l'ORF que vous avez sélectionné
ORF analysis ORF inexact (contient des codons stop, ORF n'est pas le plus long ...)
ORF analysis Quand vous avez choisi "any codon" en initiation, ne soyez pas surpris si votre ORF ne commence pas par un codon d'inititation!
ORF analysis Un ORF "any codon" débutant à plus de 3pb de l'extrémité ne peut pas être incomplet en 5' (car codon stop en amont)!
ORF analysis Un ORF commençant à la position 1, 2 ou 3 a de fortes chances d'être incomplet. Faire une recherche avec l'option xtg n'a alors pas de sens.
ORF analysis Une description generale du panorama des ORFs obtenus serait la bienvenue - relire les règles du jeu.
ORF analysis Une description generale du panorama des ORFs obtenus serait la bienvenue - relire les règles du jeu.
ORF blast Nombre d'alignements BLAST erroné : limitez-vous à ceux dont la e-value est < 1e-10
ORF results Discutez de la position de fin de l'ORF en fonction des analyses ultérieures
ORF results Distinguez les deux protocoles avec un "a)" et un "b)" que vous reporterez aussi dans la partie résultats bruts pour identifier chaque résultat distinct.
ORF results Faites un tableau de synthèse des ORF détectés (cf les Règles du Jeu)
ORF results Il manque les résultats bruts d'une recherche d'ORF débutant par un codon d'initiation
ORF results Manque le protocole (brin, codons initiation, code génétique...)
ORF results N'affichez dans ORF finder que les ORF ayant une taille > 60 aa
ORF results Protocole incomplet ou mal présenté
ORF results Protocole: indiquez l'URL de l'outil utilisé.
ORF results Résultats incomplets (manque un brin, manque codons initiation alternatifs…)
ORF results Schéma des ORFS: attention, les positions des ORFs sur le brin reverse se comptent à partir de la "fin" du fragment!
ORF results Une analyse des biais de fréquences de nucléotides serait utile (ex SMS->DNA Stats)
ORF results manque les valeurs de certains paramètres de l'analyse de recherche d'ORF
blast analysis Analyse incomplète des données BLAST (nb de hits, gamme des e-value, distribution des HSP sur la séquence query…)
blast analysis Comparez les prédictions fonctionnelles par domaines conservés (INTERPRO) et les fonctions des homologues BLAST
blast analysis Décrivez qualitativement et quantitativement les meilleurs alignements 2 à 2
blast analysis Faites un tableau de synthèse des homologues détectés par BLAST (cf les Règles du Jeu)
blast analysis Les fiches SWISSPROT des homologues mentionnent-elles des acides aminés ou domaines essentiels pour l'activité de la protéine?
blast analysis Pas d'analyse des informations fonctionnelles à partir des homologues par blast
blast analysis Rassemblez sous "PROTOCOLE" la liste de tous les protocoles utilisés (cf les règles du jeu)
blast analysis Vous confondez "homologie" et "similarité" !!
blast analysis Vous confondez le minimum et le maximum du E-value
blast analysis Vous devez proposer un seuil de E-value/score au delà dequels les protéines alignées par BLAST ne sont probablement plus des homologues
blast blast Erreur de méthodologie
blast blast Nombre d'alignements BLAST erroné : limitez-vous à ceux dont la e-value est < 1e-10
blast blast Protocole incomplet
blast blast Protocole incomplet. Pensez à préciser la banque de données interrogée.
blast results BLAST contre SWISSPROT?
blast results D'autres BLAST auraient été pertinents (SP/NR, BLASTx, modifications de paramètres ...)
blast results Distinguez les multiples protocoles avec des "a)", "b)" etc. que vous reporterez aussi dans la partie résultats bruts pour identifier chaque résultat distinct.
blast results Manque le protocole (type de blast / banque)
blast results Mauvaise présentation (liste des séquences incomplète, trop (ou manque) alignements 2 à 2, erreur copier/coller…)
blast results Protocole incomplet ou mal présenté
blast results Protocole: indiquez l'URL de l'outil utilisé.
blast results Trop d'alignements 2 à 2!
blast taxonomy Choix des homologues non pertinent (groupes non représentés, sureprésentés…)
blast taxonomy Discutez du différentiel de score/E-value BLAST entre les séquences du groupe d'étude et du groupe extérieur
blast taxonomy Discutez votre choix de groupe d'étude
blast taxonomy Décrire aussi comment les E-values sont répartis entre les taxa
blast taxonomy Faites un tableau de synthèse des groupes taxonomiques avec la gamme des E-values (cf les Règles du Jeu)
blast taxonomy Il faut mettre la liste des séquences sélectionnées pour l'alignement multiple, avec leur score et evalue (cf. règles du jeu)
blast taxonomy Incluez le BLAST "LINEAGE REPORT" (pas les ORGANISM ou autres reports)
blast taxonomy Le BLAST "Taxonomy LINEAGE report" suffit ("Organism Report" superflu)
blast taxonomy Le BLAST "Taxonomy lineage report" contre NR est généralement suffisant (qu'apprenez-vous de plus avec le TR contre SWISSPROT?)
blast taxonomy Le BLAST "Taxonomy lineage report" contre la banque ENV_NR n'a par définition aucun sens
blast taxonomy Le tableau de synthèse du Tax Report doit inclure tous les phylums avec des homologues (quite à s'en tenir au phylum sans classe ou ordre pour les derniers de la liste)
blast taxonomy Listez pour chaque groupe taxonomique principal les E-values min et max ainsi que le nombre approximatif de hits
blast taxonomy Mauvais choix / non justification du choix du groupe extérieur
blast taxonomy Pas de description du taxonomy lineage report (groupes trouvés, avec leurs gamme de scores etc.)
blast taxonomy Pour trouver un groupe extérieur, il faut refaire un BLAST en demandant plus de 100 alignements (250, voire 500 ou plus)
blast taxonomy Précisez la taxonomie, le e-value et le nom des séquences retenues pour les groupes d'étude et extérieur, mais pas les formats FASTA complets
blast taxonomy Rapport taxonomique non fait
blast taxonomy Refaire un BLAST en augmentant le nombre de hits à afficher de 100 à 250, voire 500 ou plus, afin de cerner correctement le paysage des homologues
blast taxonomy Une petite description générale du panorama des homologues en introduction aurait été bienvenue:)
conclusion   Problème de concision et de sens dans la conclusion.
conclusion   Structurez votre conclusion de façon synthétique, surtout pas de structure chronologique!
conclusion ORF Précisez si votre ORF est complet; proportion d'AA manquant (cf alignement multiple)
conclusion blast Mauvaise (ou absence d') interpretation des resultats Blast
conclusion blast Pas d'analyse des informations fonctionnelles exploitables grace aux homologues BLAST
conclusion blast Vous confondez "homologie" et "similarité" !!
conclusion divers Justifiez votre proposition de symbole de gène !
conclusion divers Veuillez rédiger la conclusion
conclusion domains Absence de comparaison entre les infos trouvées dans interpro et chez les homologues
conclusion domains Incompréhension du principe d'InterPro
conclusion hypotheses Justifiez vos choix de termes de la Gene Ontology
conclusion hypotheses Justifiez votre proposition de symbole de gène!
conclusion hypotheses Pas de prédiction d'une fonction putative
conclusion hypotheses Soyez plus précis et rigoureux, chiffrez, cites les E-value etc.
conclusion results Il manque le symbole de gène
conclusion taxonomy Pas de comparaison des infos du taxonomy report avec les informations taxonomiques obtenues avec interpro
divers divers Mauvaise classification d'un ORF
divers divers Veuillez rédiger l'interprétation des résultats
divers divers le formatage des polices de caractères des arbres ne permet pas de bien lire leur topologie (choisissez une police dite "monospace")
domains analysis Absence ou mauvaise interprétation fonctionnelle à partir des fiches interpro trouvées
domains analysis Attention, les hypothèses fonctionnelles ne se définissent pas qu'avec InterPro; croisez avec les fonctions des homologues trouvés par BLAST!
domains analysis Certains domaines, listés dans les résultats bruts, ne font l'objet d'aucun commentaire?
domains analysis Citez vos sources (par exemple en donnant l'URL de la fiche INTERPRO d'où vous tirez des infos fonctionnelles)
domains analysis Discutez des E-values des prédictions de domaines
domains analysis Donnez quelques détails sur la fonction biologique prédite
domains analysis Expliquez pourquoi vous avez retenu ce domaine protéique conservé en particulier (et pas les autres)
domains analysis Mauvaise identification des domaines (vrais positifs non annotés, domaines redondants, non significatifs…)
domains analysis Vous avez indiqué des domaines redondants dans le tableau des domaines retenus.
domains analysis Vous devez renseigner dans le tableau idoine les informations relatives au(x) domaine(s) que vous retenez après l'analyse des résultats.
domains domains Incohérence entre la table 2 et le texte
domains domains Mauvaise description du protocole
domains domains Recherche des domaines protéiques non faite
domains domains Résultats bruts incomplets
domains domains Table 2 manquante
domains results L'intitulé de la banque d'origine doit être le numéro d'accession du domaine que s'il n'y a pas d'intitulé fonctionnel
domains results La Désignation des domaines doit correspondre à leur fonction, pas leur numéro d'accession
domains results Mauvaise présentation des résultats des domaines
domains results Protocole: indiquez l'URL de l'outil utilisé.
domains results Tous les domaines prédits doivent apparaitre au tableau de synthèse (éventuellement regroupez les domaines répétés avec une liste de paires début-fin)
domains results Vous n'avez pas listé les résultats bruts d'InterPro scan
molecular weight   On ne peut pas calculer de poids moléculaire sur une protéine incomplète
molecular weight divers Poids moléculaire erroné : à recalculer
molecular weight results Calcul non fait ou calcul non pertinent (en cas d'ORF partielle)
multiple aln   Vous devez aligner les séquences du groupe d'étude et celles du groupe extérieur ensemble
multiple aln ORF Erreur d'interpétation de la position de début (trop court ou trop long en 5')
multiple aln analysis Absence d'analyse de l'alignement multiple (=> informations sur la reconstruction phylogénétique)
multiple aln analysis Absence d'analyse de l'alignement multiple (régions conservées/divergentes, cohérence avec domaines INTERPRO...)
multiple aln analysis Alignement multiple non fait
multiple aln analysis Confrontez les positions fortement conservées avec les acides aminés annotés comme ayant des rôles identifiés dans les fiches SWISSPROT des homologues.
multiple aln analysis Description de l'alignement trop générique, faites des références précises et chiffrées vers l'alignement
multiple aln analysis Description de l'alignement trop générique, faites des références précises et chiffrées vers l'alignement (nombre de positions 100% identiques, de positions avec des substitutions conservatives)!
multiple aln analysis Il manque l'alignement filtré par GBLOCKS !
multiple aln analysis Nombre & répartition des INDELS à travers l'alignement multiple?
multiple aln analysis Pas de discussion sur la position de début de votre ORF par rapport aux homologues
multiple aln analysis Précisez le nombre approximatif d'AA manquants aux extrêmités incomplètes de votre ORF
multiple aln analysis Rassemblez sous "PROTOCOLE" la liste de tous les protocoles utilisés (cf les règles du jeu)
multiple aln analysis Revoir l'analyse des résultats.
multiple aln analysis Spécifiez le nombre d'acides aminés identifiés par GBLOCKS comme convenablement alignés
multiple aln analysis Toutes les séquences sont-elles de longueur similaire?
multiple aln divers Un seul alignement multiple suffit
multiple aln results Alignement multiple contient des séquences trop partielles
multiple aln results Alignement multiple contient à la fois des séquences nucleotidiques et protéiques
multiple aln results Aln multiple peu convainquant: semble contenir des séquences non-homologues ou trop distantes pour être alignables
multiple aln results Identifiez avec des codes (ex A, B, C...) les régions d'intéret directement dans l'alignement multiple, puis faites-y référence dans votre texte!
multiple aln results Les séquences au format FASTA ou les alignements hors format CLUSTAL doivent aller dans le BLOC NOTE!
multiple aln results Manque votre ORF...
multiple aln results Mauvaise présentation de l'alignement multiple (format CLUSTAL demandé, nom des séquences...)
multiple aln results Plusieurs séquences identiques
multiple aln results Protocole incomplet ou mal présenté
multiple aln results Présence de séquences non homologues
multiple aln results Trop peu de positions fiablement alignées identifiées par GBLOCKS! Refaites GBLOCKS en optant pour les paramètres moins stringent (sauf autoriser les INDELS).
multiple aln results Vous devez inclure l'alignment multiple après "curation" par GBlocks (avec les positions retenues pour la phylogénie annotées)
ontologies analysis Mauvais choix de la fonction moléculaire
ontologies analysis Mauvais choix du processus biologique
ontologies analysis Pas d'attibution de fonctions GO
ontologies analysis Processus biologique erroné
ontologies divers Il manque la fonction moléculaire
phylogeny   Faites un seul arbre pour le groupe d'étude et le groupe extérieur (et non des arbres séparés pour chaque groupe)
phylogeny   L'ORF ne peut pas venir du groupe extérieur ! (contradiction : revoir la définition d'un groupe extérieur)
phylogeny   N'oubliez pas de calculer les supports statistiques
phylogeny   Phylogénie non faite
phylogeny analysis Discutez des valeurs de support/robustesse aux noeuds/branches!
phylogeny analysis Identifiez les branches importantes dans vos arbres avec des codes (ex "A", "B"...), puis référez-vous à ces codes dans vos analyses!
phylogeny analysis Il est possible de faire une assignation taxonomique plus précise
phylogeny analysis L'assignation taxonomique retenue est large, est-il possible de faire une assignation taxonomique plus précise?
phylogeny analysis Mauvaise identification des séquences orthologues/paralogues et événements de spéciation/duplication à chaque nœud
phylogeny analysis Mauvaise interprétation de l'arbre (mauvaise identification de l'homologue le plus proche, non détection de HGT…)
phylogeny analysis Pas d'analyse sur la congruence ou non entre les différentes versions des arbres?
phylogeny analysis Pas d'identification du groupe taxonomique auquel pourrait appartenir l'organisme d'où provient la séquence
phylogeny analysis Pas de discussion sur la topologie de l'arbre: cohérent avec taxonomie? Congruence si plusieurs arbres?
phylogeny analysis Vous devez discuter de la cohérence des arbres des gènes avec l'arbre des espèces de référence
phylogeny analysis la cohérence avec l'arbre des espèces ("arbre de la vie") ne se limite pas à la séparation du groupe d'étude et du groupe extérieur: tous les niveaux taxonomiques doivent être regroupés...
phylogeny results Ajoutez sur l'arbre après le nom de la séquence le groupe taxonomique entre crochets [alpha-protéobactéries]
phylogeny results Distinguez les deux protocoles avec un "a)" et un "b)" que vous reporterez aussi dans la partie résultats bruts pour identifier chaque résultat distinct.
phylogeny results Identifiez les groupes taxonomiques principaux dans vos arbres en utilisant des codes couleurs (cf. règles du jeu)
phylogeny results Les proportions dans les arbres ne sont pas respectées (utilisez une police de caractère dite "monospace")
phylogeny results Manque arbre par NJ ou Parcimonie
phylogeny results Manque le protocole (type de méthode: NJ ou parcimonie, groupe ext ...)
phylogeny results Mauvaise présentation (étiquettes des feuilles pas de la forme 'Ecolix'...)
phylogeny results Protocole incomplet ou mal présenté
phylogeny results Vos arbres doivent être enracinés sur votre groupe extérieur
phylogeny results Votre arbre PhyML doit présenter les valeur de support/robustesse aux noeuds/branches!
phylogeny taxonomy Analyse NJ à recommencer en calculant les valeurs de bootstrap.
phylogeny taxonomy Choisissez le groupe taxonomique le plus probable pour votre ORF (pas la définition exacte de son homologue le plus proche)
phylogeny taxonomy Définissez le groupe taxonomique le plus probable pour votre ORF (remplissez le champ "Taxonomie")
phylogeny taxonomy Erreur dans le choix de groupe taxonomique d'appartenance
phylogeny taxonomy Les noms de groupes ajoutés dans l’arbre ne sont pas pertinents (bacteria, enterobacteria…)
writing   Concision dans la redaction de la conclusion
writing   Conclusion pouvant être mieux structurée
writing   Dans tout le texte, les phrases doivent commencer par des majuscules!
writing   Dans tout le texte, les phrases se terminent par des points!
writing   Dans tout le texte, les ponctuations doivent être suivies d'un espace!
writing   Les possessifs excessifs sont à proscrire! Par exemple ne jamais écrire "Notre ORF..."
writing   Manque de rigueur. Argumentez vos hypothèses! Chiffrez! Citez des résultats précis!
writing   Orthographe / rédaction insuffisantes
writing   Respectez la présentation recommandée pour les cadres RESULTATS (cf Règles du jeu)
writing analysis Numérotez et donnez un titre à toutes vos tables.
writing divers Dans tout le texte, seules les ponctuations doubles ( : ; ? ! ) peuvent être précédées d'un espace !
writing divers Dans tout le texte: relisez vous et corrigez les fautes d'orthographe