Règles du jeu

Principe
Equipe
Objectifs
Utilisation de l'Annotation
Annotation des séquences
Correction

Principe

Il y a 150 ans Charles Darwin parcourait les mers à bord du HMS Beagle pour observer la diversité morphologique du vivant; aujourd'hui c'est à bord de la goëlette Tara (ci-contre) que les biologistes sillonnent les océans pour observer la biodiversité à travers le séquençage métagénomique.

De septembre 2009 à novembre 2013, le navire océanographique Tara a sillonné tous les océans de la planète. Les océans produisent la moitié de l’oxygène que nous respirons. Si les forêts sont le premier poumon de notre planète, les océans constituent le second. Ces prairies de plancton et d’autres micro-organismes constituent, par leur activité photosynthétique, une immense pompe à oxygène. Mais, ces organismes marins sont aussi un important puits à gaz carbonique. Tara Oceans est une expédition pan-océanique dont la mission est de rendre compte de l'état de la biodiversité planctonique: des atolls coralliens tropicaux à l’Antarctique, des isthmes moyen-orientaux au passage du nord ouest. Une halte de Tara à Marseille a été faite du 20-29 septembre 2014.

Le séquençage métagénomique des échantillons Tara a démarré au GENOSCOPE (Evry). Ces séquences - encore confidentielles au sein du Consortium Tara - vous sont livrées à chaud, en attente d'annotation fonctionnelle. A cette échelle moléculaire, la bioinformatique est l'outil principal pour observer la biodiversité!

Votre mission, est de tenter d'identifier l'origine microbiologique de ces séquences (archae, protistes, algues, virus?), de déterminer quelles séquences sont codantes, et dans l'affirmative conclure s'il s'agit de protéines connues ou nouvelles.

La première opération sera d'identifier d'éventuels cadres ouverts de lecture (ORF). Les ORF qui correspondent vraisemblablement à des gènes codants seront repérables essentiellement à leurs tailles (au delà de 100 à 150 acides aminés) et aux similitudes de séquences avec d'autres gènes déjà connus et présents dans les banques annotées telles que SWISSPROT.

L'objectif est donc double:
-identifier de nouvelles espèces de microorganismes
-identifier des protéines totalement nouvelles ou des membres jusqu'à là inconnus de familles protéiques caractérisées.

Pour en savoir plus, voir le site de l'expéditio Tara Océans.

TaraLogo_s

Equipe

Enseignants qui souhaitent gérer une équipe d'étudiants annotateurs

Vous trouverez toutes les informations nécessaires sur la page spécifique Annotathon Instructor Manual (disponible en anglais seulement).

Etudiants qui suivent un enseignement universitaire

Veuillez ouvrir un compte dans votre équipe spécifique (par exemple BioCell2016) en ouvrant l'onglet "Créer un compte" en haut de cette page.

Annotateur volontaire

L'équipe "Open access" est ouverte à tous les explorateurs volontaires! Pour participer, ouvrez un compte dans l'équipe "Open Access" en suivant le lien "Créer un compte" en haut de cette page.

Objectifs

Vous allez collectivement annoter des fragments de séquences tirés aléatoirement parmi les fragments d'ADN métagénomique issus du projet Tara Océans. Chaque étudiant prendra en charge l'annotation complète de deux fragments de séquence métagénomique. Les annotateurs devront, pour chacun des fragments dont ils ont la charge, conclure s'ils semblent codants ou non. Dans l'affirmative vous devrez proposer des annotations fonctionnelles pour les nouveaux gènes hypothétiques, ainsi que le groupe taxonomique d'appartenance le plus probable.

Utilisation de l'Annotation

Authentification

Organisez votre espace de travail de façon à avoir à l'écran trois fenêtres du Navigateur Internet (ou trois onglets si vous préfèrez) permettant ainsi d'avoir en parallèle:

La page de travail principale de l'Annotathon
Les règles du jeu (la page que vous lisez actuellement).
La Foire aux questions avec des guides illustrés aux principales analyses bioinformatiques (Attention: certaines rubriques ne sont pas à jour)

Si vous n'avez pas encore de compte sur l'Annotathon (ce qui est le cas lors de votre première séance), cliquez sur l'onglet "Nouveau compte" dans le menu en haut de l'Annotathon. Créez un compte par étudiant en renseignant les divers champs du formulaire; soyez particulièrement attentifs à choisir la bonne affiliation, à fournir le Code d'équipe, à saisir précisemment les noms des étudiants (condition sine qua non pour avoir une note au TD); si vous n'êtes pas certains, demandez à votre responsable de TD! Vous devez fournir au moins une adresse de courrier électronique pour être tenu au courant des activités (vous pouvez saisir plusieurs adresses séparées par des virgules).

Enfin un clic sur "Ouvrir le Compte" doit faire afficher le message "Le compte 'XYZ' a été créé"; dans le cas contraire suivez les instructions pour corriger les erreurs. Une fois votre compte créé, vous pouvez ouvrir une session d'annotation en entrant le 'login/pseudo' et 'mot de passe' de votre compte dans les champs en haut de la page puis en cliquant sur "Connection".

Un fois connecté à l'Annotathon, contrôlez que votre pseudo et vos noms sont bien indiqués en haut de la page. Notez que vous devrez valider votre adresse de courrier électronique en suivant le lien fourni dans un courriel qui vous sera adressé automatiquement à la création du compte.

La page d'accueil (affichée après connection ou en cliquant sur l'onglet "Accueil") donne un aperçu global de l'état d'avancement du projet d'annotation. Notez qu'après connection avec votre pseudo, les statistiques en blanc sur fond rouge en bas de page représentra après les premières évaluations votre position par rapport au reste des étudiants de l'équipe.

Remarque: l'Annotathon est accessible à partir de n'importe quel accès Internet (campus ou non), sur MAC, PC Windows ou PC Linux...

Panier et fragments de séquence

L'objectif étant d'annoter des fragments de séquence, chaque étudiant peut consulter la liste des fragments de séquence dont il a pris la charge en cliquant sur l'onglet "Panier". Votre panier de séquences est initialement vide; pour ajouter un fragment de séquence à votre panier, sélectionnez le lieu d'échantillonage souhaité (ex Tropical South Pacific: 300 miles from F. Polynesia - International) puis cliquez sur le bouton "Ajouter un nouveau fragment de séquence à votre panier".

Vous ne pouvez ajouter de nouveaux fragments de séquence à votre panier que lorsque votre panier est vide, ou lorsque vous avez annoté tout ou partie des fragments déjà présents dans votre panier (c'est à dire soumis vos premières séquences à l'évaluation). Des nouveaux fragments de séquence sont donc ajoutés au panier à la discrétion de l'étudiant (à concurrence du nombre maximal de fragments requis par étudiant) puis annotés selon le guide proposé ci-dessous, et ce jusqu'à la date de fermeture de l'Annotathon (le nombre de jours d'ouverture restant est indiqué par un j-XX en haut de chaque page, cf. aussi "Evaluation et notation des étudiants" en fin des Règles du jeu).

Consulter vos annotations

Cliquez sur l'icone en face du fragment de séquence dont vous souhaitez consulter les annotations. L'annotation initiale des fragments de séquence est succinte: outre le séquence nucléotidique, sa longueur, et l'origine géographique de la séquence, chaque fragment de séquence comporte un numéro d'accession unique au sein de l'Annotathon. Le reste de l'annotation est votre responsabilité.

Modifier vos annotations

Cliquez sur l'icone en face du fragment de séquence souhaité pour avoir accès au formulaire de saisie des annotations des séquences. Après avoir saisi des données dans ce formulaire, n'oubliez pas de cliquer sur le bouton "Enregistrer les annotations" pour soumettre vos analyses au serveur central de l'Annotathon! Si vous quittez ce formulaire sans avoir cliqué sur ce bouton, vous perdez vos modifications en cours... Vu que vous pouvez revenir et modifier l'annotation d'un fragment de séquence autant de fois que vous le souhaitez, ce peut être une bonne habitude que de cliquer régulièrement sur "Enregistrer les annotations" pour ne pas risquer de perdre des annotations en cours!

Codes des fragments

Les codes des fragments de séquence (par ex GOS_21290.1) sont arbitraires et internes à l'Annotathon; le dernier chiffre correspond au numéro de version de vos annotations. Il démarre donc à 1 et s'incrémente de 1 à chaque enregistrement de vos annotations. Vous pouvez consulter les versions antérieures de vos annotations en sélectionnant la version souhaitée dans le menu déroulant en haut de vos fiches de visualisation d'annotations (clic sur l'icone ).

Soumettre vos annotations pour évaluation

Quand vous êtes satisfait de vos annotations, cliquez sur l'icone en face de votre fragment de séquence. Le statut de ce fragment de séquence passe alors de 'Annotation 1' à 'Evaluation 1' et vous ne pouvez plus le modifier le temps que les correcteurs passent en revue votre travail. Après cette première évaluation, le statut des fragments passent à 'Annotation 2'; vous pouvez alors à nouveau modifier vos annotations suite aux éventuels commentaires des correcteurs. Quand votre deuxième passe d'annotations est complétée, cliquez sur pour soumettre définitivement vos fragments de séquence pour l'évaluation finale.

Forum de discussion

L'onglet "Forum" vous permet d'accèder au forum interne de l'Annotathon (le signale qu'un nouveau message non lu a été posté sur le forum). Cliquez sur le sujet du message du forum pour accèder à son contenu. Si vous souhaitez répondre à ce message, utilisez le champ disponible sous le message puis cliquez sur "Poster le message". ATTENTION!: n'utilisez ce cadre QUE POUR REPONDRE AU MESSAGE DIRECTEMENT!

En revanche, si vous souhaitez ouvrir un nouveau fil de discussion, utilisez OBLIGATOIREMENT les formulaires spéciaux disponibles en haut de chacune de vos fiches d'annotation (dans votre "Panier", cliquez sur )! Vous choisirez alors dans quelle rubrique du forum vous souhaitez poster votre nouveau fil de discussion (ex Recherche d'homologues: BLAST).

Notez que les messages que vous envoyez sur le forum sont aussi directement acheminés vers l'adresse email des responsables de TD. Même si les messages s'adressent souvent aux responsables de TD, les étudiants qui connaissent les réponses aux questions postées sur le forum sont encouragés à y répondre. Les réponses pertinentes seront comptabilisées...

Messagerie / Annonces

De temps en temps, vos responsables de TD pourront faire des annonces qui s'afficheront en haut de chaque page de l'Annotathon. Une fois lus, il est conseillé de cliquer devant "Lu" pour transférer ces messages vers votre dossier de messages archivés. Ce dossier est disponible à tout moment en bas de la page "Forum".

Annotation des séquences

Principes généraux

Le formulaire de modification des annotations de séquences contient deux types de champs:

les résultats d'analyses (ex. ORFfinder, BLAST etc.)
vos interprétations, synthèses et conclusions (ex. fonction moléculaire, taxonomie, conclusion etc.)

L'Annotathon tient ainsi lieu à la fois de "cahier de laboratoire" (champs de type 1) et de "rapport de TD" (champs de type 2).

IMPORTANT: pour les champs de type 1 (résultats d'analyses), les champs sont initialement pré-remplis avec la structure suivante:

PROTOCOLE: 

--------------------------------------------------------------------------------------------------- 
ANALYSE DES RÉSULTATS: 

--------------------------------------------------------------------------------------------------- 

RÉSULTATS BRUTS:

Sous la rubrique "PROTOCOLE", spécifiez le résumé des informations nécessaires pour pouvoir reproduire l'analyse, au minimum: le nom de l'outil utilisé, son URL et les paramètres d'analyse. Par exemple pour la recherche d'ORF, la ligne de protocole pourra être:

PROTOCOLE:

SMS ORFinder / http://annotathon.org/sms2 / sens direct / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'

Copiez-collez ensuite les résultats in-extenso de vos analyses sous la rubrique "RÉSULTATS BRUTS". Si vous avez effectué plusieurs analyses d'un même type (par exemple deux SMS ORFfinder, un en sens direct, l'autre en sens indirect), alors référencez les deux analyses par un index:

PROTOCOLE:

a) SMS ORFinder / http://annotathon.org/sms2 / sens direct   / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'
b) SMS ORFinder / http://annotathon.org/sms2 / sens indirect / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'

---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

[ici vous rédigerez plus tard vos interprétations]

RÉSULTATS BRUTS:

a) sens direct

>ORF number 1 in reading frame 1 on the direct strand extends from base 511 to base 744.

CGAGTGATAACTGGTCCAGTAATCGCGATACCGATCATCTTGTTGCGGATTGACGATGTT
AAAATCCCGATCAGGGCGGATATCCAGCCCCAGCCTTTCACAACGTTGCTGAATCACTTC
GGGGCGGCCTATGACGATGGGAACTTCGCTGGTTTCTTCCAAAACGGCCTGAGCGGCGCG
CAGCACCCGCTCGTCTTCGCCCTCGGCAAACACAATCCGTCGAGCGCTGCTTGA

>Translation of ORF number 1 in reading frame 1 on the direct strand.
RVITGPVIAIPIILLRIDDVKIPIRADIQPQPFTTLLNHFGAAYDDGNFAGFFQNGLSGA
QHPLVFALGKHNPSSAA*

---------------------------------------------------------------------------------------------------
b) sens indirect

>ORF number 1 in reading frame 1 on the reverse strand extends from base 517 to base 855.
CCTGATCTGTGGCGCTGTGGGCGAATTCAGATGGCATCTGAATTATATCGAGCAAATTTT
AGGCAGCAAAACCTTATCGCCAAGCGGCGCGCTGTCTTTGATGATTTTAGAAGACGGGCC
TCTGTTCATCGCAGACACCCACGTCTGGGCGGATCCCACCCCCATGCAAATTGCCCAAAC
CGCCAAAGGGGCCGCGCGCCATGTGCGCCGTTTTGGCATAGAGCCACAAGTCGCGCTGTG
CTCGCAATCACAATTTGGAAATCTGAACAGCGAGACTGGCAAGAAAATGCGCCAAGCATT
GGATATTCTCGATACCGAAAAGGTGACGTTTACCTATGA

>Translation of ORF number 1 in reading frame 1 on the reverse strand.
PDLWRCGRIQMASELYRANFRQQNLIAKRRAVFDDFRRRASVHRRHPRLGGSHPHANCPN
RQRGRAPCAPFWHRATSRAVLAITIWKSEQRDWQENAPSIGYSRYRKGDVYL*

Enfin utilisez la rubrique "ANALYSE DES RÉSULTATS" de ces champs de type 1 pour exposer les faits saillants que vous êtes en mesure d'observer dans les résultats bruts. L'analyse des résultats, un exercice incontournable du discours scientifique, répond à la question "Qu'avons-nous vu de notable lorsque nous avons tenté l'expérience décrite dans le protocole?".

Remarque: Le dernier champ du formulaire, intitulé "Bloc Note", est à votre disposition pour conserver les informations de votre choix qui ne sont pas prévues par des rubriques spécifiques. Stockez-y tout ce qui pourra vous être utile lors des ré-analyses (par exemple des homologues au format FASTA). Le bloc-note ne fait pas partie des annotations 'officielles', il n'est pas consulté lors les évaluations.

Une aide en ligne pour chaque type d'annotation est disponible en cliquant sur les directement dans le formulaire. Les principales annotations attendues pour chaque fragment de séquence sont décrites brièvement ci-dessous.

N'oubliez pas qu'une Foire aux Questions (FAQ) est à votre disposition pour des conseils plus approfondis (y compris des guides illustrés) sur les outils bioinformatiques que vous serez amenés à utiliser. Attention: Certaines rubriques ne sont pas à jour. Soyez vigilant au niveau des interfaces de programmes et des versions des bases de donnees!!!!

Lors de toutes vos analyses, gardez en vue les trois fils directeurs principaux de votre travail d'annotation qui consiste à proposer:

si l'ADN est codant ou non? Et dans l'affirmative, les positions de début et de fin de l'ORF
une hypothèse fonctionnelle sur la protéine éventuellement codée par votre fragment d'ADN
une hypothèse taxonomique sur l'organisme qui pourrait porter ce fragment de séquence

Aucun résultat individuel d'analyse bioinformatique permet de répondre à lui seul à ces questions; les réponses se construiront en faisant les recoupements et la synthèse de tous ces résultats.

Recherche d'ORFs

La première analyse de chaque fragment de séquence consistera à rechercher les ORF potentiels inclus dans la séquence. Il existe de très nombreux logiciels en ligne pour dresser ce type de liste, dont:

SMS (de preference)
NCBI
EBI

Les ORFS à retenir pour analyse ultérieure vérifieront toutes les conditions suivantes:

ne contiennent pas de codons STOP
contiennent au moins 60 codons
peuvent être sur le brin direct ou indirect
peuvent être dans le cadre 1, 2 ou 3
peuvent être complets ou non en 5' comme en 3'

Copiez-collez les résultats bruts de recherche d'ORF dans le champ 'Recherche ORF' du formulaire de saisie de l'Annotathon. Si vous utilisez SMS, n'oubliez pas de faire l'analyse dans les deux sens! Et n'oubliez pas la ligne de PROTOCOLE pour chaque recherche d'ORF!

Résumez sous "ANALYSE DES RESULTATS" l'ensemble des ORFs détéctés par ORFinder dans un tableau du type:

	Taille (nucléotides)	Taille (aa)	Brin	position de début	position de fin	ORF complet en 5'	ORF complet en 3'	Nb d'alignements BLAST NR EV<1E-10	Classification de l'ORF
ORF1	267	88	direct	95	361	oui	oui	0	ORFan peu probable
ORF2	891	297	reverse	120	1010	oui	non	4256	KNOWN (étudiée ici)

Attention: vous devez impérativement numéroter toutes vos tables (numérotation continue à travers toutes les sections d'annotation, par exemple table 1 pour les ORFs, table 2 pour les domaines protéiques conservés etc.) et leur donner un titre!

Faites un petit schéma résumant les positions des différents ORF sur le fragment d'ADN, par exemple (attention ce schéma ne correspond pas à la table ci-dessus):

Figure 1: Diagramme de répartition des ORFs sur le fragment d'ADN TO72D_5186010

               (50)==ORF1==>(249) (268)====ORF2====>(579)            (744)========ORF3======>(1068)  
DIRECT :     1 ------------------------------------------------------------------------------ 1070
INDRECT : 1070 ------------------------------------------------------------------------------ 1
         (1068)<====================ORF4====================(394)
                                                     (407)<==========ORF5==========(134)
Légende:

==ORFx==> Faux positif
==ORFx==> KNOWN (ORF étudiée ici)
==ORFx==> NOVEL (ORF non étudié ici)

Si votre séquence contient plusieurs ORF, ne considérez a priori que le plus long d'entre eux (sauf si par exemple le plus court présente des homologues alors que le plus long est un ORFan).

Vous devrez classer chaque ORF détecté parmi l'une des catégories suivantes:

Faux Positif (succession de quelques codons sans STOP
ORFan (gène codant pour une protéine sans aucun homologue connu à ce jour)
Novel (gène codant pour une protéine avec des homologues dont les fonctions sont encore inconnues)
Known (gène codant pour une protéine avec des homologues dont les fonctions sont connues)

Vous pouvez aussi préciser la fiabilité de vos classifications avec des qualificatifs du type "Très Probable" ou "Peu probable" etc.

Pour déterminer si les ORFs détectés dans le fragment de séquence paraissent vraisemblables (vrais ou des faux positifs, KNOWN, NOVEL, ORFan?), les éléments clefs à considérer sont:

l'existence de protéines homologues (voir la rubrique BLAST) -> un ORF avec des homologues (E-value <1E-10) est très certainement un vrai positif (donc NOVEL ou KNOWN)
la longueur de l'ORF (un ORF >100aa sans homologues est probablement un ORFan)
un ORF sans homologues est très certainement un Faux Positif s'il est chevauchant (sur la majeure partie de sa longueur) avec un ORF ayant des homologues

Attention, ce dernier critère est très important: le gènes ne se chevauchent pas (quelques codons peut-être aux extrêmités, mais pas sur toute leur longueur!). Ceci est un élément crucial pour argumenter que certains ORFs sans homologues sont des faux positifs très probables!

-Si le fragment de séquence ne semble pas contenir de gène codant (pas d'ORF assez longs et pas d'homologues), cochez la case 'non-codant' de la rubrique 'Statut'. L'annotation de ce fragment de séquence est alors achevée; seuls les champs 'Recherche d'ORF' et 'BLAST' seront donc renseignés (en plus de votre rapport d'analyse dans le champ conclusion bien sûr). Toutefois, dans bien des cas, avant de conclure définitivement à un statut de "non-codant", nous vous conseillons aussi d'effectuer des recherches d'homologues dans les banques environnementales. Demander à un encadrant la procédure à suivre, cette dernière étant tout à fait exceptionnelle. Après avoir enregistré les annotations de ce fragment de séquence, vous pouvez ajouter un nouveau fragment de séquence à votre panier!

-Si la recherche d'homolgues par BLAST suggère qu'un ORF correspond bien à un gène (ou que l'ORF n'a aucun homologue connu mais semble trop long pour être dû au hasard - par exemple 250 codons[1]), cochez la case 'codant' de la rubrique 'Statut'. Indiquez ensuite le brin (direct ou indirect) sur lequel se trouve l'ORF, ainsi que ses positions de début et de fin. Notez que si votre ORF est complet en 3' (c'est à dire qu'il se termine par un codon STOP), il faudra retirer des coordonnées de fin les 3 nucléotides du STOP. Pour valider cet ORF, soumettez déjà ces données à l'Annotathon en cliquant sur "Enregistrer les annotations".

Si l'ORF vérifie les règles citées plus haut, la traduction sera alors affichée automatiquement; dans le cas contraire un message d'erreur vous indiquera par exemple si l'ORF contient des STOP. L'ORF peut être incomplet (codon STOP de fin ou codon d'initiation manquants) auquel cas seul un avertissement est affiché.

[1]en effet l'absence d'homologues dans les banques de séquences ne constitue pas la démonstration qu'un ORF est non-codant; dans ce cas on ne trouverait jamais de gènes complètement nouveaux! Il existe d'autres techniques d'identification de gène dites ab initio (par exemple celles exploitant les biais statisitiques d'utilisation de codons) mais celles-ci ne seront qu'au programme de bioinformatique de Master.

Consultez la Foire aux Questions pour plus de détails sur la recherche d'ORF, notamment sur la question très délicate et cruciale de la position exacte de début d'ORF...

ANALYSE DES RÉSULTATS:

Voici une proposition de structure pour l'analyse des ORFs:

1- Classifications des ORFs
  1.1- Justification des ORFs KNOWN (si présents)
  1.2- Justification des ORFs NOVEL (si présents)
  1.3- Justification des ORFs ORFan (si présents)
  1.4- Justification des ORFs Faux Positifs (si présents)

     -> donnez des arguments explicites et chiffrés!
     -> référez-vous à la table 1 explicitement!
     -> MAIS NE JAMAIS EXACTEMENT PARAPHRASER LE TABLEAU!
     -> citez vos sources, de préférence sous forme de liens, par ex:
        "les homologues sont des epimerase (cf. Fiche SWISSPROT MJ0211)"

2- ORF séléctionnée pour la suite de l'étude
     -> Justifiez!
     -> D'autres ORFs mériteraient-ils un analyse bioinformatique indépendante?

3- Extrêmités de l'ORF sélectionnée
     -> Discutez des positions de début et de fin de l'ORF, et le cas échéant estimer le nombre d'AA manquant (renvoyez à la rubrique alignement multiple pour les détails).

Masse moléculaire

Si l'ORF est complet (codon initiation->STOP), alors calculez la masse moléculaire théorique du polypetide correspondant à cet ORF en utilisant par exemple:

Domaines protéiques

Recherchez si la traduction de votre ORF présente des domaines protéiques conservés, en utilisant par exemple:

INTERPRO

Pour les résultats bruts de la recherche INTERPROscan, copiez vos résultats sous la forme suivante uniquement ("Export" -> "TSV").

RÉSULTATS BRUTS:

TO82S_4665010	35c27fb0e8e5c87be19799682b0ebae4	205	SUPERFAMILY	SSF52833		79	162	3.44E-7	T	30-09-2014	IPR012336	Thioredoxin-like fold
TO82S_4665010	35c27fb0e8e5c87be19799682b0ebae4	205	Pfam	PF14595	Thioredoxin	44	167	6.3E-32	T	30-09-2014
TO82S_4665010	35c27fb0e8e5c87be19799682b0ebae4	205	Gene3D	G3DSA:3.40.30.10		18	205	4.4E-36	T	30-09-2014	IPR012336	Thioredoxin-like fold

Veuillez résumer ce résultat brut assez indigeste par un tableau N°2 (encore un!) de synthèse, en ignorant les domaines prédits non intégrés à INTERPRO (no IPR) et en ne conservant qu'un seul domaine représentatif s'il y a des prédictions redondantes (par exemple ne reportez que le domaine Gene3D qui a le meilleur e-value dans le résultat ci-dessus qui présente 3 domaines redondants):

Table 2: Liste des domaines protéiques conservés détectés par InterproScan, après nettoyage de la redondance

Code Interpro

 (IPRxxxxxx)

Banque

d'origine

Code dans la
banque d'origine

Position

de début

Position

de fin

E-value

Intitulé banque d'origine

Intitulé Interpro

IPR012336

Gene3D

G3DSA:3.40.30.10

4.4E-36

Néant

Thioredoxin-like fold

Vous devez ensuite renseigner dans le petit tableau spécial du formulaire "Domaines conservés" de l'Annotathon entre 1 et 4 domaines qui vous semblent les plus pertinents. Ne soumettez à l'Annotathon que les domaines qui vous paraissent clairement significatifs, c'est à dire

ceux que l'on ne s'attend pas à trouver purement par hasard (dont les signatures/profils sont suffisamment spécifiques). La E-value associée à chaque alignement de domaines fonctionnels sont là pour vous y aider.
ceux dont la fonction concorde avec les autres analyses bioinformatiques effectuées (par exemple un domaine de liaison à l'ADN pour un ORF dont les homologues trouvés par BLAST sont des facteurs de transcription)
non redondants (et non-chevauchants) avec d'autres domaines que vous avez retenu

Si vous êtes convaincu de la vraissemblance de certains domaines prédits (4 au maximum), saisissez-en les noms et coordonnées dans le formulaire de l'Annotathon. Ne répétez pas le même domaine fonctionnelreprésenté sous différents noms/numéros d'accession dans plusieurs base de données (on retrouve en effet fréquement le même domaine protéique sous des numéros d'accession différents dans PROSITE, PFam, PRINTS etc.).

ANALYSE DES RÉSULTATS:

1. Domaine(s) retenu(s)
    -> Justifiez, chiffrez vos arguments (longeur du domaine, E-value)!
    -> Mentionnez les autres domaines (aussi des vrais positifs) non retenus qui sont juste redondant avec le domaine retenu: même domaine prédit par une autre méthode / d'une autre base de données de domaines, domaines implicites au domaine retenu (par exemple un domaine transmembranaire pour un transporteur membranaire)
    -> référez-vous à la table 2 explicitement, SANS EXACTEMENT LA PARAPHRASER!

2. Domaines rejetés (le cas échéant)
    -> Justifiez pourquoi certains domaines sont exclus (soucis de E-value, domaines non intégrés dans INTERPRO)!

3. Fonction biologique
    -> Donnez des détails sur la fonction biologique associée au(x) domaine(s) retenu(s) (activité enzymatique, fonction moléculaire, processus biologiques, répartition à travers le vivant etc.)
    -> Croisez avec les résultats du BLAST (notamment contre SWISSPROT)
    -> citez vos sources (par exemple en donnant un lien vers l'URL d'une fiche INTERPRO ou PFAM)!

Recherche d'homologues par BLAST

A partir de cette etape, il n'est pas necessaire de copier les resulats intermediaires dans les champs correspondants. Pour eviter les effets cycliques de l'analyse, vous pouvez utiliser le 'Bloc note' pour ces resultats intermediaires. Une fois que l'origine taxonomique de votre sequence est acquise, vous pouvez alors mettre au propre vos resultats intermediaires dans les champs correspondants. Utilisez BLAST pour rechercher s'il existe d'éventuels homologues de vos ORF dans les banques de séquence. Vous trouverez des serveur Internet BLAST sur:

Deux approches BLAST sont possibles pour chercher des homologues à votre séquence:

un BLASTp (séquence protéique contre banque protéique) de votre ORF contre une banque protéique
un BLASTx (séquence nucléotidique traduite par BLAST dans les 6 phases contre banque protéique) de la séquence NUCLEOTIDIQUE complète de votre fragment de séquence contre une banque protéique; utilisez ce BLASTx si vous avez des doutes sur le cadre de lecture de votre ORF, où si votre recherche d'ORF a été apparement infructueuse (le BLASTx est généralement insensible aux erreurs de séquençage)

Interrogez impérativement les deux banques suivantes:

NR banque de protéine la plus exhaustive disponible (utile pour l'analyse phylogénétique)
SWISSPROT petite banque de protéine où les fiches d'annotation sont très complètes (utile pour l'analyse fonctionnelle)

Copiez-collez dans le champ 'BLAST' de l'Annotathon au minimum (Attention: une version texte du resultat blast est obtenue via le bouton "Reformat"):

l'entête des résultats du/des BLAST (ou indiquez le PROTOCOLE: quel programme a été utilisé contre quelle banque de données et autres paramètres éventuels)
la liste complète des résumés des séquences ayant été alignée suivie des deux colonnes 'Score' et 'E-Value'
la première dizaine d'alignements deux-à-deux
le rapport taxonomique du BLAST (BLAST au NCBI seulement, lien dans l'entête du BLAST) dans le champ "Rapport Taxonomique" de l'Annotathon: ne copiez que la première partie dite Lineage Report!

Si votre ORF présente des homologues connus, précisez impérativement dans votre ANALYSE DES RESULTATS quel est la valeur seuil de E-value qui sépare les homologues (vrais positifs) des non-homologues (faux positifs). Présentez un résumé de synthèse de vos observations BLAST dans un tableau du type:

Table 3: Nombre et qualité des alignements détectés par BLASTp contre NR et SWISSPROT

	nombre de protéines alignées	e-value min	e-value max	e-value seuil
NR	3124	5e-61	10	4e-07
SP	105	3e-05	10	< 3e-05

A l'aide de l'outil "Definition List", listez dans une table 4 de la rubrique ANALYSE DES RESULTATS l'ensemble des fonctions des homologues avec leurs gammes de E-values (cf exemple ci-dessous).

Attention: ce petit outil "Definition List" est bien pratique, mais très rudimentaire: il récupère chaque identifiant de votre listing BLAST, va chercher dans NR la ligne de définition complète de chaque fiche protéique (elles sont souvent tronquées dans le listing BLAST), puis compte pour chaque "définition" unique le nombre de fois (et les E-values extrêmes) où cette définition a été vue. Dans certains cas, il vous faudra encore simplifier cette liste de définitions, par exemple en regroupant sous une seule ligne "DNA polymerase B" de votre table 4 l'ensemble des "définitions" suivantes:

"DNA polymerase B"
"DNA polymerase B PolB"
"Putative DNA polymerase B"
"DNA polymerase B family proteins"
"DNA polymerase B, partial"

Table 4: Catalogue des fonctions des protéines alignées par BLASTp contre NR

   ___________________________________________________________________________________________________
  |    descriptions :                                                     | min e-value | max e-value | 
  |_______________________________________________________________________|_____________|_____________|
  | • carbamoyl phosphate synthase large subunit                          |    5e-61    |       10    |
  | • transcriptional regulator                                           |    7e-33    |    2e-29    |
  | • haloacid dehalogenase                                               |    2e-31    |    3e-10    |
  | • UDP-phosphate galactose phosphotransferase                          |    5e-30    |     0.35    |
  | • pilin glycosyl transferase B2                                       |    2e-28    |    4e-18    |
  | • carboxylate-amine ligase                                            |    9e-25    |      8.3    |
  | • sialic acid O-acetyltransferase NeuD family sugar O-acyltransferase |    5e-19    |    6e-19    |
  | • NAD-dependent epimerase/dehydratase                                 |    1e-17    |    0.040    |
  | • biotin carboxylase                                                  |    7e-17    |      9.9    |
  | • carboxyltransferase                                                 |    5e-16    |      4.1    |
  | • DNA polymerase B                                                    |    2e-01    |      9.9    |
  |_______________________________________________________________________|_____________|_____________|

Vous devrez évidemment discuter si cette liste de fonctions semble cohérente, c'est à dire que toutes ces fonctions sont synonymes ou compatibles. Cette comparaison des différentes fonctions présentes dans les résultats du BLAST servira notamment à définir la valeur seuil de la E-value. Discutez aussi de la cohérence avec les prédictions INTERPRO!

ANALYSE DES RÉSULTATS:

N'oubliez pas:
-Abandonner si aucun homologue (ou très peu, <10)
-Abandonner si ce gène existe déjà dans les banques de données (séquence protéique >95% identique sur >90% de la longueur de l'ORF)

Proposition de structure:

1. Panorama des alignements
    -> Description très synthétique des résultats (y-a-t-il des alignements, les protéines alignées sont-elles de fonctions connues, qualité des meilleurs alignements?)
    -> Chiffrez toutes vos observations (E-values, nombre d'alignements, % d'identité + longueurs d'alignements, nombre d'INDEL etc.)!
    -> Citez les tableaux SANS EXACTEMENT LES PARAPHRASER!

2. Identification des homologues
    -> Justifiez les seuils de E-value (NR & SP) qui séparent les homologues probables des homologues improbables (ou incertains)!
    -> Vous devez montrer que les fonctions des homologues (sous le seuil de E-values) sont cohérentes entre elles (faire référence à la table 4)

3. Fonction des homologues dans SWISSPROT
   -> A partir de l'exploration des fiches SWISSPROT des plus proches homologues, faites des hypothèse fonctionelles à propos de votre ORF (acides aminés / domaines avec des rôles spécifiques), croisez avec les résultats d'INTERPRO!

-> Dans tous les cas, citez vos sources (par exemple en donnant un lien vers l'URL d'une fiche SWISSPROT)!

Rapport Taxonomique du BLAST contre NR

Le "Lineage Report" vous permet essentiellement de determiner le Groupe Etude et le Groupe Exterieur qui formeront la base de votre alignement multiple, puis de l'arbre phylogénétique.

IMPORTANT: Vous pouvez obtenir le rapport taxonomique de votre Blast en utilisant l'outil local "tax_report2" TaxReports.

Copiez sous RESULTATS BRUTS l'ensemble du Lineage Taxonomique (mais pas le Organism Report SVP):

RÉSULTATS BRUTS:

Lineage report
.LUCA
. Bacteria
. .Cyanobacteria
. . Prochlorales
. . .Prochlorococcaceae
. . . Prochlorococcus
. . . .Prochlorococcus marinus str. MIT 9515........ 315  4e-103 2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. MIT 9301........ 305  3e-99  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. MIT 9215........ 303  8e-99  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. AS9601.......... 301  4e-98  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. NATL1A.......... 261  2e-82  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . . .Prochlorococcus marinus str. MIT 9303........ 249  1e-77  2 hits  Bacteria:Cyanobacteria:Prochlorales:     phytoene desaturase [Prochlorococcus mari...   
. . Synechococcus sp. WH 8109....................... 251  1e-78  1 hit   Bacteria:Cyanobacteria:Chroococcales:    Carotene 7,8-desaturase [Synechococcus sp. WH ...   
. . Synechococcus sp. WH 7803....................... 251  2e-78  3 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene dehydrogenase [Synechococcus sp....   
. . Synechococcus sp. CB0205........................ 250  3e-78  1 hit   Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. BL107......................... 250  3e-78  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. WH 8016....................... 250  4e-78  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. CC9311........................ 250  4e-78  6 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene desaturase [Synechococcus sp. CC931...   
. . Synechococcus sp. RS9916........................ 249  1e-77  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. CB0101........................ 248  2e-77  1 hit   Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Synechococcus...   
. . Synechococcus sp. RCC307........................ 236  2e-72  3 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene dehydrogenase [Synechococcus sp....   
. . Synechococcus sp. PCC 7002...................... 217  2e-65  3 hits  Bacteria:Cyanobacteria:Chroococcales:    phytoene dehydrogenase [Synechococcus sp....   
. . Cyanobium sp. PCC 7001.......................... 249  7e-78  2 hits  Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Cyanobium sp....   
. . Crocosphaera watsonii........................... 231  1e-70  1 hit   Bacteria:Cyanobacteria:Chroococcales:    15-cis-phytoene desaturase [Crocosphaera ...   
[...]

En vous aidant de l'outil "Taxonomy List", faites sous ANALYSE DES RESULTATS un résumé de vos observations du rapport taxonomique dans un tableau du style suivant (notez que ce tableau de synthèse doit être précis pour les taxa les plus proches, et peut devenir moins précis avec par exemple juste une ligne par Phylum ou même Règne pour les taxa les plus éloignés):

Table 5: Synthèse des classifications taxonomiques des protéines alignées par BLASTp contre NR

`Règne`	`Phylum`	`Classe`	`Gamme de e-value`	`Nombre d'alignements`
`Bacteria`	`Proteobacteria`	`Betaproteobacteria`	`3E-71 à 8E-38`	400
		Gammaproteobacteria	9E-64 à 7.8	2500
		Alphaproteobacteria	3E-43 à 0.09	130
		Deltaproteobacteria	`1E-47 à 3.0`	80
		Epsilonproteobacteria	2E-32 à 5E-16	30
	Firmicutes	-	7E-51 à 7E-30	3700
	Actinobacteria	-	5E-48 à 6E-26	80
Eukaryota	-	-	8E-24 à 2.5	80

Vous utiliserez ces résultats du BLAST pour constituer deux groupes de séquences homologues qui serviront, après alignement multiple, à tenter une reconstruction d'arbre phylogénétique:

un groupe d'étude (jusqu'à environ 20-30 séquences) représentant les homologues appartenant au même groupe taxonomique présume pour votre ORF
un groupe extérieur (environ 5-15 séquences) représentant les homologues les plus proches n'appartenant pas au groupe d'étude (dans le but d'enraciner l'arbre phylogénétique, lire absolument la FAQ à ce sujet)

IMPORTANT: Notez que TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur sont des HOMOLOGUES, c'est à dire au dessous de la E-value seuil déterminée précedemment lors du BLAST.

Consultez la Foire aux Questions pour plus de détails sur le BLAST.

Consultez ce document pour plus de détails sur la constitution des groupes d'étude et exterieur.

ANALYSE DES RÉSULTATS:

1. Panorama taxonomique des homologues
   -> faites un très bref tour d'horizon des origines taxonomiques des homologues (limités à un petit nombre de phyla bactériens, ou présents chez l'ensemble des procaryotes, ou ubiquitaire à l'ensemble des êtres cellulaires etc.).

2. Choix du groupe d'étude
   -> faire explicitement référence à la table 5
   -> Définissez et justifiez le choix de groupe d'étude 
   -> Définissez et justifiez le groupe extérieur qui en découle!
   -> calculez explicitement le différentiel de E-values entre les 2 groupes d'étude et extérieur!
   -> citez vos sources (par exemple en donnant un lien vers l'URL de l'arbre de la vie)!

IMPORTANT: Indiquez dans la rubrique ANALYSE DES RÉSULTATS du champ Rapport Taxonomique la liste complète de TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur: pour chaque séquence donnez son numéro d'accession, le nom de code que vous aurez choisi (voir ci-dessous Alignement multiple de séquences protéiques), son E-value donné par BLAST et son groupe taxonomique d'appartenance. Vous pouvez faire du copier-coller à partir des entêtes de vos sequences (au format fasta) issues de l'outil local "tax_report2" (mais ne pas indiquer ici les séquences protéiques!). Par exemple:

PROTOCOLE:
BLASTp contre NR, / wwww.ncbi.nlm.nih.edu / paramètres par défaut, sauf "Number of descriptions=5000"


ANALYSE DES RÉSULTATS:

[ici rédigez votre description du taxonomy report, votre justification des groupes d'étude et exterieur, suivi de la liste des séquences choisies pour les groupes:]

Groupe d'étude: Cyanobacteria

>Bac_Cya_Pro_3 [Bacteria Cyanobacteria Prochlorales]  E-value=1e-15  Bacteria;Cyanobacteria;Prochlorales;Prochlorococcaceae;Prochlorococcus; gi|488894830|ref|WP_002805954.1| zeta-carotene desaturase [Prochlorococcus marinus] 
>Bac_Cya_Chr_2 [Bacteria Cyanobacteria Chroococcales]  E-value=7e-78  Bacteria;Cyanobacteria;Chroococcales;Cyanobium; gi|493968054|ref|WP_006911325.1| 15-cis-phytoene desaturase [Cyanobium sp. PCC 7001] 
>Bac_Cya_Chr_3 [Bacteria Cyanobacteria Chroococcales]  E-value=1e-70  Bacteria;Cyanobacteria;Chroococcales;Crocosphaera; gi|494523610|ref|WP_007313063.1| 15-cis-phytoene desaturase [Crocosphaera watsonii] 
>Bac_Cya_Chr_4 [Bacteria Cyanobacteria Chroococcales]  E-value=9e-68  Bacteria;Cyanobacteria;Chroococcales;Cyanothece; gi|218438147|ref|YP_002376476.1| phytoene desaturase [Cyanothece sp. PCC 7424] 
>Bac_Cya_Chr_5 [Bacteria Cyanobacteria Chroococcales]  E-value=1e-64  Bacteria;Cyanobacteria;Chroococcales;Synechocystis; gi|16330439|ref|NP_441167.1| phytoene desaturase [Synechocystis sp. PCC 6803] 
>Bac_Cya_Osc_1 [Bacteria Cyanobacteria Oscillatoriales]  E-value=3e-72  Bacteria;Cyanobacteria;Oscillatoriales; gi|497454285|ref|WP_009768483.1| phytoene desaturase [Oscillatoriales cyanobacterium JSC-12] 
>Bac_Cya_Osc_3 [Bacteria Cyanobacteria Oscillatoriales]  E-value=1e-16  Bacteria;Cyanobacteria;Oscillatoriales;Microcoleus; gi|493682519|ref|WP_006632676.1| zeta-carotene desaturase [Microcoleus vaginatus] 
>Bac_Cya_Nos_1 [Bacteria Cyanobacteria Nostocales]  E-value=1e-70  Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298491654|ref|YP_003721831.1| phytoene desaturase ['Nostoc azollae' 0708] 
>Bac_Cya_Nos_2 [Bacteria Cyanobacteria Nostocales]  E-value=5e-14  Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298492908|ref|YP_003723085.1| carotene 7,8-desaturase ['Nostoc azollae' 0708] 
>Bac_Cya_Nos_3 [Bacteria Cyanobacteria Nostocales]  E-value=2e-70  Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Anabaena; gi|414079384|ref|YP_007000808.1| phytoene desaturase [Anabaena sp. 90] 
>Bac_Cya_Sti_1 [Bacteria Cyanobacteria Stigonematales]  E-value=2e-68  Bacteria;Cyanobacteria;Stigonematales;Fischerella; gi|497072507|ref|WP_009458406.1| 15-cis-phytoene desaturase [Fischerella] 

Groupe extérieur: autres bacteria non Cyanobacteria (Chloroflexi, Chlorobi, Acidobacteria, Firmicutes, Planctomycetes)

>Bac_Chl_Chl_1 [Bacteria Chloroflexi Chloroflexales]  E-value=3e-32  Bacteria;Chloroflexi;Chloroflexales;Chloroflexaceae;Chloroflexus; gi|163847906|ref|YP_001635950.1| carotene 7,8-desaturase [Chloroflexus aurantiacus J-10-fl] 
>Bac_Chl_Chl_2 [Bacteria Chlorobi Chlorobia]  E-value=2e-30  Bacteria;Chlorobi;Chlorobia;Chlorobiales;Chlorobiaceae;Chlorobaculum; gi|193212415|ref|YP_001998368.1| carotene 7,8-desaturase [Chlorobaculum parvum NCIB 8327] 
>Bac_Aci_Can_1 [Bacteria Acidobacteria Candidatus Chloracidobacterium]  E-value=2e-27  Bacteria;Acidobacteria;Candidatus Chloracidobacterium; gi|347753771|ref|YP_004861335.1| hypothetical protein [Candidatus Chloracidobacterium thermophilum B] 
>Bac_Fir_Bac_1 [Bacteria Firmicutes Bacillales]  E-value=2e-14  Bacteria;Firmicutes;Bacillales;Bacillaceae;Bacillus; gi|407961641|dbj|BAM54881.1| zeta-carotene desaturase [Bacillus subtilis BEST7613]
>Bac_Pla_Pla_1 [Bacteria Planctomycetes Planctomycetacia]  E-value=2e-11  Bacteria;Planctomycetes;Planctomycetacia;Planctomycetales;Planctomycetaceae;Singulisphaera; gi|430745940|ref|YP_007205069.1|

Alignement multiple de séquences protéiques

L'objectif de cet alignement multiple est d'abord de vérifier que l'ORF en question s'intègre correctement dans la famille de ses homologues présumés: l'alignement multiple doit donc présenter des régions conservées convaincantes. D'autre part l'alignement multiple servira à inférer un arbre phylogénétique des homologues présumés (cf. ci-dessous "Arbre phylogénétique"): l'alignement doit donc suggérer suffisamment de mutations (positions informatives) pour pouvoir reconstruire l'histoire évolutive de ces protéines! Attention à ne pas inclure de séquences trop partielles qui réduisent les positions informatives.

Il est fréquent d'avoir à refaire plusieurs fois l'alignement après avoir ajouté ou retiré des séquences plus ou moins divergentes avant d'obtenir un alignement satisfaisant.

IMPORTANT: avant de procéder à l'alignement multiple, vous pouvez insérer des noms des séquences directement dans leur format FASTA afin de créer des étiquettes de séquence lisibles pour l'alignement multiple et les arbres phylogénétiques. Le nom de séquence est constitué des lettres directement après le signe > jusqu'au premier espace, à concurrence de 10 caractères maximum. Si vous avez selectionné vos séquences d'interets à partir du rapport taxonomique issu de TaxReports2 ("Chercher les séquences sélectionnées au format FASTA"), alors des noms de séquence uniques ont déjà été insérés, par exemple:

>AEMMMM1 [Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae Methanosarcina]  E-value=1e-85  Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales; Methanosarcinaceae; Methanosarcina; gi|851310952|ref|WP_048174166.1| UDP-glucose 4-epimerase [Methanosarcina siciliae]
MSFNLADYAELLEDLSPHSQNALQANWHEATKVFSPRGLDNYLKGAAAIRGLGKGDSLVETWIEKAPMVAKEVGEDVVGD
LATASLELASRTSGTVIELLLATSAIAANRLGDAELFIKYLQFINTLIAQAPRGVRPMLDKLEVLFQHLTLGGLRRWALW
GAHAHRTNYEEQIRYFSLDSKESMAMLQKERKGTLLVDVQRRINMYLRALWARDFFMRPTSGDFETREGYRPYIEDYLLH
VPDAFDDFTVEGQEPVSGLELYRATAAHCAAHVVETKLPISAEALNPMQIAVISVIEDARVETLSIRRFPGLKQLWSKLH
TATPEMNGSMGDYLNRLARALLDESYKDKDPWIVEARALFALAQEKLDSNLTSWDIGVQLAHSFGQKRIPFNPRTDLLTA
PYRDDNRYFWEFEEFDFNKAASAGYESIKQVRKYVSVMEMANEIDVETAGDDAEEIWVLGTELFPYENIGDESGGKSFNE
LEGKEPVSDPFHYSEWDYQIQLERPAWATVLEKRAKAGDLQIIEAITAQYKREIHRMKFLLDAMQPQGVQRIRRLEDGDE
IDINAAISSLTDIRLGNQPDPRIMMRSVRKTRDFSILVLLDLSESTNEKVQDQEYSVRELTQQACVLLADAINKVGDPFA
IHGFCSDGRHDVEYYRFKDFDQHWDETPKSRLAGMTGQLSTRMGAAIRHAGHHLQLQRSAKKLLIVITDGEPADVDVRDP
QYLRYDTKKAVEEVAKLGVTTYCMSLDPRADNYVSRIFGQKNYMVVDHVQRLPEKLPLLYAGLTR

Vous noterez que ce code "AEMMMM1" est constitué des premières lettres des 5 premiers niveaux de classification taxonomique (Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae). Quelques fois il peut être pratique d'ajouter des codes pour identifier par exemple les séquences du groupe extérieur:

>exAEMMMM1 [Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae Methanosarcina]  E-value=1e-85  Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales; Methanosarcinaceae; Methanosarcina; gi|851310952|ref|WP_048174166.1| UDP-glucose 4-epimerase [Methanosarcina siciliae]
MSFNLADYAELLEDLSPHSQNALQANWHEATKVFSPRGLDNYLKGAAAIRGLGKGDSLVETWIEKAPMVAKEVGEDVVGD
LATASLELASRTSGTVIELLLATSAIAANRLGDAELFIKYLQFINTLIAQAPRGVRPMLDKLEVLFQHLTLGGLRRWALW
GAHAHRTNYEEQIRYFSLDSKESMAMLQKERKGTLLVDVQRRINMYLRALWARDFFMRPTSGDFETREGYRPYIEDYLLH
VPDAFDDFTVEGQEPVSGLELYRATAAHCAAHVVETKLPISAEALNPMQIAVISVIEDARVETLSIRRFPGLKQLWSKLH
TATPEMNGSMGDYLNRLARALLDESYKDKDPWIVEARALFALAQEKLDSNLTSWDIGVQLAHSFGQKRIPFNPRTDLLTA
PYRDDNRYFWEFEEFDFNKAASAGYESIKQVRKYVSVMEMANEIDVETAGDDAEEIWVLGTELFPYENIGDESGGKSFNE
LEGKEPVSDPFHYSEWDYQIQLERPAWATVLEKRAKAGDLQIIEAITAQYKREIHRMKFLLDAMQPQGVQRIRRLEDGDE
IDINAAISSLTDIRLGNQPDPRIMMRSVRKTRDFSILVLLDLSESTNEKVQDQEYSVRELTQQACVLLADAINKVGDPFA
IHGFCSDGRHDVEYYRFKDFDQHWDETPKSRLAGMTGQLSTRMGAAIRHAGHHLQLQRSAKKLLIVITDGEPADVDVRDP
QYLRYDTKKAVEEVAKLGVTTYCMSLDPRADNYVSRIFGQKNYMVVDHVQRLPEKLPLLYAGLTR

Construisez les alignements multiples (séquences du groupe d'étude, du groupe extérieur et n'oubliez pas la traduction de votre ORF!) en utilisant une version Internet d'un des logiciels suivants: ClustalW (classique), MUSCLE (rapide et un peu plus efficace) ou T-COFFEE (plus lent mais très robuste et avec une visualisation en couleur des blocs conservés très utile). Ces logiciels sont disponibles sur:

La seule limite au nombre de séquences à inclure dans votre alignement multiple est liée au temps de calcul des logiciels d'alignement multiple, ainsi qu'au temps de calcul de l'arbre phylogénétique. Ce temps reste en général raisonnable jusqu'à une trentaine (voire une cinquantaine) de séquences ayant chacune une centaine de résidus.

Copiez-collez l'alignement multiple produit (au format CLUSTALW) dans le champ 'Alignement Multiple' de l'Annotathon.

Copiez-collez egalement l'alignement multiple (positions selectionnees / sites informatifs) (au format CLUSTALW) issue de Gblocks dans le champ 'Alignement Multiple' de l'Annotathon. Cet alignement Gblocks est obtenu lors la construction de votre arbre phylogenetique.

ANALYSE DES RÉSULTATS:

1. Qualité de l'alignement multiple
   -> description qualitative de l'alignment: chiffrez avec le nombre de positions identiques et le nombre de positions avec des substitutions conservatives! Il s'agit ici de confirmer chiffres à l'appui que toutes les séquences sont bien homologues!
   -> Sont-elles toutes de longueur comparable (attention aux séquences tronquées!)?
   -> Nombre et répartition des INDELS
   -> Existe-t-il des sous groupes dans cette grande famille d'homologues (souvent par exemple: groupe étude vs groupe extérieur)?
   -> Après curation par GBLOCKS: combien de positions sont suffisament conservées (=homologues) pour être exploitées pour l'inférence phylogénétique (stats GBLOCKS)? Est-ce suffisant? Si non avez-vous relaxé les paramètres de stringence de GBLOCKS? Ou de retirer les homologues trop distants ou tronqués qui dégradent la qualité de l'alignement? 

2. Identification des régions conservées
    -> Pour ce faire, rien de mieux que d'annoter directement l'alignement multiple de GBLOCKS avec des codes "A", "B" etc. pour repérer les régions d'intéret, pour y faire ensuite référence dans vos analyses!
    -> Si des acides aminés (ou motifs de plusieurs acides aminés) sont connus comme étant impliqué dans des fonctions/activités de ce type de protéines (cf analyses fiches homologues SWISSPROT et domaines INTERPRO), les repérer dans l'alignement multiple (mettez des codes dans le style "->X<-")!
    -> Sont-il conservés chez tous les homologues, et dans l'ORF?

3. Etude des extrêmités de l'ORF
    3.1 Faire une analyse explicite de la région N-terminale de l'alignement (ORF complet? Quid du codon d'initiation? Nombre d'AA manquants)?
    3.2 Faire une analyse explicite de la région C-terminale de l'alignement (ORF complet? Nombre d'AA manquants)

Arbre phylogénétique

Vous utiliserez l'alignement multiple ci-dessus pour inférer un arbre phylogénétique selon deux approches de reconstruction d'arbres:

méthode dite de 'distances' (ex 'neighbor-joining (NJ)', 'BioNJ' ou 'Phylip protdist/neighbor')
méthode dite de 'maximun de vraissemblance' (ex 'PhyML)')

Vous pouvez utiliser le service en ligne dédié phylogeny.fr (recommendé, inclu à la fois BioNJ & PhyML).

Consultez la Foire aux Questions pour plus de détails sur l'inférence d'arbres phylogénétiques (y compris un tutorial en images).

ATTENTION: Utilisez le site http://annotathon.org/outils/nw_utils.php pour raciner et présenter vos arbres au format "TEXTE" (en effet, les manipulations d'arbres par "TreeDyn" sur le site phylogeny.fr ne sont pas 100% fonctionelles). Vous pouvez ainsi avec cet outil contrôler la dimension (largeur) des arbres, et vous pouvez sélectionner la racine souhaitée (indiquez tout simplement une ou plusieurs noms de séquences du groupe exterieur), le tout en préservant l'affichage des valeur de supports aux noeuds des arbres!

Dans tous les cas, copiez-collez la représentation dite 'textuelle' de l'arbre proposé dans le champ 'Arbre' de l'Annotathon. Indiquez aussi dans le champ 'Arbre' la méthode et les paramètres principaux utilisés pour produire votre arbre (ex 'PhyML / http://phylogeny.fr / groupe extérieur: Coccidioides immitis (ascomycetes)').

La représentation textuelle de votre arbre doit être de la forme - notez les (groupe taxonomiques):

PROTOCOLE:

a) Phylogeny.fr / méthode PhyML / Statistical tests for branch support aLRT: SH-like / default substitution model / groupe extérieur: Firmicutes
b) Phylogeny.fr / méthode BioNJ / pas de bootstrap / groupe extérieur: Firmicutes
---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:

Important: Identifiez les branches importantes dans vos arbres avec des codes (ex "A", "B"...), puis référez-vous à ces codes dans vos analyses!

Pour une visualisation encore plus aisée et percutante, vous pouvez aussi utiliser des codes couleur pour identifier les différentes branches importantes de vos arbres (dans ce cas pensez à inclure une légende des couleurs). Pour utiliser des codes couleurs, vous devrez insérer vos arbres dans le champ 'Analyses des résultats' au lieu de les insérer dans le champ classique 'Résultats bruts' (mais les arbres colorisés sont tellement pratiques que cette petite entorse vous est plus que pardonnée!).

1. Congruence entre les deux arbres
    -> Décrivez la topologie de chacun des arbres: quels différents groupes monophylétiques observez-vous? 
    -> Est-ce que les deux arbres racontent la même histoire évolutive?
    -> Identifiez les points communs, ainsi que les incohérences éventuelles.

2. Cohérence avec la phylogénie des espèces de référence
    -> Les groupes d'étude et extérieurs sont-ils bien séparés?
    -> vos arbres phylogénétiques de gènes sont-ils cohérents avec les arbres des espèces ("arbre de la vie")? 
    -> repérez tout écart avec la phylogénie de référence, et proposez des hypothèses (HGT, duplication de gènes...)

3. Prédiction de l'origine taxonomique de l'ORF
    -> Dans quelle groupe monophylétique semble émerger la séquence métagénomique? 
    -> faites une hypothèse: groupe taxonomique d'appartenance le plus probable de l'ORF?
    -> Argumentez! Attention de ne pas sur/sous interpréter les arbres obtenus!...

			
RÉSULTATS BRUTS:

a)PhyML

Légende:
Actinobacteria
Chloroflexi
Firmicutes
Cyanobacteria

                                                          ,--------------+ BARSPP1 Bacteria Actinobacteria Rubrobacteridae Solirubrobactera
                                                  ,-------+ 0.92
                                                  |       '--------------------+ BAAAPP1 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                                  |
                                                  |          ,-------------+ BAAACN1 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                                  |          |
                                                  |     ,----+ 0.87           ,-------+ BAAAMI1 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                                  |     |    '----------------+ 0.99
                                                  |,----+ 0.85                '------+ BAAACN2 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                                  ||    |
                                                  ||    '-----------------+ BAAASS1 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                                  ||
                                                  ||                                                ,-----+ BAAAPP14 Bacteria Actinobacteria Actinobacteridae Actinomycetale
                                                  ||                                            ,---+ 0.52
                                               ,--+|0.69                            ,-----------+ 0.97------------+ BAAAPP8 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               | ||                                |           |
                                               | ||                      ,---------+ 0.98      '--------+ BAAAPP10 Bacteria Actinobacteria Actinobacteridae Actinomycetale
                                               | ||                      |         |
                                               | ||                      |         '---------+ BAAAPP2 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               | ||                ,-----+ 0.9
                                               | ||                |     |     ,------------------+ BAAAPP13 Bacteria Actinobacteria Actinobacteridae Actinomycetale
                                               | ||                |     |     |
                                               | ||            ,---+ 0.81'-----+ 0.83     ,----------------+ BAAAPP4 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               | ||            |   |           '----------+ 0.92
                                               | ||            |   |                      '-------------+ BAAAPP3 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               | ||            |   |
                                               | ||        ,---+ 0.74-------------------------+ BAAAPN1 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               | ||        |   |
                                               | '+ 0.55   |   |   ,----------------------+ BAAAMM3 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               |   |        |   |   |
                                               |   |        |   '---+ 0.82           ,-------+ BAAAPP7 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               |   |        |       |       ,--------+ 0.9
                                               |   |        |       '-------+ 0.89   '---+ BAAAPP5 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               |   |        |               |
                                               |   |        |               '------------------------+ BAAAMM4 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               |   |        |
                                               |   |   ,----+ 0.82   ,---------------------+ BAAASS2 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               |   |   |    |        |
                                               |   |   |    |    ,---+ 0.23     ,----------+ BAAAMI3 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                               |   |   |    |    |   '----------+ 0.94                           &nnbsp;
                                               |   |   |    |    |              '----+ BAAAMI2 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                           ,---+ 0.76 |    |    |
                                           |   |   |   |    |    |                    ,+ BAAAMM2 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                           |   |   |   |    |    |    ,---------------+ 1
                                           |   |   |   |    |    |    |               ' BAAAMM1 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                           |   |   |   |    '----+ 0.83
                                           |   |   |   |         |    |      ,------------------+ BAAAPP9 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                           |   |   |   |         | ,--+ 0.71 |
                                           |   |   '---+ 0.81    | | | ,----+ 0.88----------+ BAAAPP6 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                           |   |       |         | | | |    | |
                                           |   |       |         | | | |    '-+ 0.39----------+ BAAAPP11 Bacteria Actinobacteria Actinobacteridae Actinomycetale
                                           |   |       |         | | '-+ 0.7 '--+ 0.076
                                           |   |       |         '-+ 0.35         '-----------------------+ BAAAAA2 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                           |   |       |           |    |
                                           |   |       |           |    '------------------------+ BAAAPP12 Bacteria Actinobacteria Actinobacteridae Actinomycetale
                                           |   |       |           |
                                           |   |       |           |    ,--------------+ BAAAFG1 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                           |   |       |           '----+ 0.52
                                  ,--------+ 0.83 D    |                '---------+ BAAAST1 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                  |        |   |       |
                                  |        |   |       '---------------------------------+ BAAACN3 Bacteria Actinobacteria Actinobacteridae Actinomycetales
                                  |        |   |
                                  |        |   |                   ,-------------+ BAA1 Bacteria Actinobacteria Acidimicrobidae E-value3e-75 Bacte
                                  |        |   |            ,------+ 0.2 J
                                  |        |   |            |      '------------------------+ BA3 Bacteria Actinobacteria E-value1e-68 Bacteria Actinobacteri
                                  |        |   |     ,------+ 0.82
                                  |        |   |     |      |      ,-------+ BA2 Bacteria Actinobacteria E-value7e-82 Bacteria Actinobacteri
                                  |        |   |     |      '------+ 0.84   I
                       ,----------+ 0.83 C |   '-----+ 0.88        '-----------------+ BAC1 Bacteria Actinobacteria Candidatus Microthrix E-value4e-74
                       |          |        |         |
                       |          |        |         |       ,----+ BA1 Bacteria Actinobacteria E-value5e-101 Bacteria Actinobacter
                       |          |        |         '-------+ 0.94    E
                       |          |        |                 '-+ ORF7 Translation of ORF number 2 in reading frame 3 on the rever
                       |          |        |
,---------------------+ 1 B      |        |           ,------------------+ exBCCCCC1 Bacteria Chloroflexi Caldilineae Caldilineales Caldili
|                     |          |        '-----------+ 0.91
|                     |          |                    '------------------------------------------+ exBFLSS1 Bacteria Firmicutes Lactobacillales Streptococcaceae St
|                     |          |
|                     |          '-----------------------------+ exBCNSS1 Bacteria Cyanobacteria Nostocales Scytonemataceae Scyto
|                     |
|                     '------------------------+ exBCPPP1 Bacteria Cyanobacteria Prochlorales Prochlorococcaceae
|
|                                                  ,-------------------------------------------------------------+ exBFBBA1 Bacteria Firmicutes Bacillales Bacillaceae Anoxybacillu
|                                         ,--------+ 0.77
|                                  ,------+ 0.49   '------------------------------+ exBFBPV1 Bacteria Firmicutes Bacillales Planococcaceae Viridibac
|                                  |      |
|                                  |      '---------------------------------------------+ exBFCCPD2 Bacteria Firmicutes Clostridia Clostridiales Peptococc
|                                  |
=+ A                               |                 ,-----------------------+ exBFCCPD1 Bacteria Firmicutes Clostridia Clostridiales Peptococc
|                                  |                 |
|                                  |   ,-------------+ 0.68                               ,+ exBFBPAA2 Bacteria Firmicutes Bacillales Paenibacillaceae Aneuri
|                         ,--------+ 0.75            '------------------------------------+ 1
|                         |        |   |                                                  '------+ exBFBPAA1 Bacteria Firmicutes Bacillales Paenibacillaceae Aneuri
|                         |        |   |
|                         |        | ,+ 0                                  ,--------------+ exBFBPS1 Bacteria Firmicutes Bacillales Planococcaceae Sporosarc
|                         |        | ||                         ,----------+ 0.85
|                         |        | ||                 ,-------+ 0.72     '--------------------+ exBFBBV1 Bacteria Firmicutes Bacillales Bacillaceae Virgibacillu
|                         |        | ||                 |       |
|                         |        '--+'0.69-------------+ 0.9   '-------------+ exBFBBC1 Bacteria Firmicutes Bacillales Bacillaceae Caldalkaliba
|                         |           |                  |
|                         |           |                  '------------------------+ exBFBBP1 Bacteria Firmicutes Bacillales Bacillaceae Pontibacillu
|                         |           |
'-------------------------+ 1         '-------------------------------------+ exBFCC1 Bacteria Firmicutes Clostridia Clostridiales E-value7e-
                           |
                           |                                         ,---------------+ exBFBPU1 Bacteria Firmicutes Bacillales Planococcaceae Ureibacil
                           |                                      ,--+ 0.54
                           |                                      | '-------------------+ exBFBPS2 Bacteria Firmicutes Bacillales Planococcaceae Solibacil
                           |                     ,----------------+ 0.96
                           |                     |                |          , exBFBBL2 Bacteria Firmicutes Bacillales Bacillaceae Lysinibacill
                           |                     |                '----------+ 0.91
                           |      ,--------------+ 0.88                      '----+ exBFBBL1 Bacteria Firmicutes Bacillales Bacillaceae Lysinibacill
                           |      |              |
                           '------+ 0.78         '--------------------------------------+ exBFBPK1 Bacteria Firmicutes Bacillales Planococcaceae Kurthia E
                                  |
                                  |                               , exBFCC2 Bacteria Firmicutes Clostridia Clostridiales E-value8e-
                                  '-------------------------------+ 0.99
                                                                  '-+ exBFCCCP1 Bacteria Firmicutes Clostridia Clostridiales Clostridi

|--------------------------|---------------------------|--------------------------|---------------------------|---                                     &nnbsp;
0                       0.25                         0.5                       0.75                           1
substitutions/site

b) BioNJ [...]

Taxonomie

Après analyse de votre arbre phylogénétique, spécifiez le groupe taxonomique le plus proche (par exemple "Alphaproteobacteria") dont semble être issu l'organisme qui porte votre fragment d'ADN. Pour ce faire deux solutions:

indiquez dans le champ "identifiant numérique NCBI" le code taxonomique du groupe taxonomique (par exemple 204455 pour Rhodobacterales, code que l'on trouve dans le fiches GENBANK de séquences à la ligne /db_xref="taxon:204455")
indiquez le nom scientifique exact de cet organsime (par ex Rhodobacterales) dans le champ "Nom scientifique".

Après l'enregistrement de vos annotations, vérifiez que celui des deux champs que vous n'avez pas renseigné s'est bien automatiquement rempli; par exemple si vous avez choisi d'indiquer "Alphaproteobacteria" dans le champ "Nom scientifique", après enregistrement vous devez voir s'afficher automatiquement le code "28211" dans le champ "identifiant numérique NCBI" (et inversement).

Notez que le champ "identifiant numérique NCBI" a précédence sur le champ "Nom scientifique"; donc si vous souhaitez changer d'organisme, il faut effacer le code numérique dans le champ "identifiant numérique NCBI" quand vous souhaitez modifier le contenu du champ "Nom scientifique"!

Quand la taxonomie est correctement spécifiée, s'affiche alors son linéage:

Rhodobacterales
Rank: order - Genetic Code: Bacterial and Plant Plastid - NCBI Identifier: 204455
Kingdom: Bacteria - Phylum: Proteobacteria - Class: Alphaproteobacteria - Order: Rhodobacterales
Bacteria; Proteobacteria; Alphaproteobacteria; Rhodobacterales;

IMPORTANT: à moins que votre fragment de séquence soit 100% identique à une séquence présente dans GENBANK, ne spécifiez pas un nom d'espèce précis. Puisque l'origine exacte de ce fragment est essentiellement inconnue, spécifiez plutôt le groupe taxonomique du noeud immédiatement au dessus de votre ORF dans l'arbre phylogénétique.

Processus Biologique & Fonction Moléculaire

Lorsque vos analyses in silico (BLAST, INTERPRO) le permettent, choisissez dans les menus déroulants les termes les plus appropriés et décrivant le plus spécifiquement possible votre ORF. Ces termes font partie d'une liste exhaustive et hierarchique de termes permettant de décrire toutes les activités cellulaires: il s'agit de la "Gene Ontology", souvent cités comme les annotations GO.

Fonction Moléculaire: activité biochimique de la protéine (ex. kinase)
Processus Biologique: rôle de cette activité dans la cellule (ex. transduction du signal)

Ces annotations GO étant fréquemment assignées aux gènes connus dans les banques de données publiques telles que SWISSPROT ou INTERPRO, n'hésitez pas à vous en inspirer des annotations GO des homologues de vos ORFs ou de ses domaines conservés pour choisir les termes GO les plus appropriés.

Conclusion

Ce champ sera central à votre évaluation: synthétisez dans ce champ vos interprétations et hypothèses bâties sur la base des observations faites dans les rubriques précedentes "ANALYSE DES RÉSULTATS". Imaginez que vous vous adressez à un jury a priori sceptique qu'il faut convaincre! Argumentez, faites référence aux résultats obtenus, chiffrez vos affirmations, croisez les indices, soyez attentif à votre vocabulaire; les analyses bioinformatiques ne peuvent rien démontrer, donc attention aux formules du type "La séquence GOS_12345 provient d'une alphaprotéobactérie de type XYZ". Séparez les faits, vos observations et vos hypothèses ("probablement", "suggère", "putatif")...

Vérifiez que vous avez au moins couvert:

les arguments en support votre hypothèse codant ou non-codant; discutez de la position de départ de l'ORF (consultez la FAQ pour les subtilités et erreurs classiques à ce sujet)!
vos prédictions sur la fonction de la protéine, tant au niveau des éventuels méchanismes biochimiques (ex. "enzyme de conjugaison de l'ubiquitine ..."), qu'au niveau plus large du rôle biologique au sein de l'organisme (ex. "rôle dans le contrôle du cycle cellulaire..."). Utilisez pour les prédictions de fonction les annotations disponibles pour les homologues de votre ORF dont la fonction est connue, par exemple dans les fiches SWISSPROT ou encore les fiches descriptive des domaines PFAM/INTERPRO.
votre hypothèse sur la classification taxonomique de l'organisme portant ce fragment d'ADN

Ce qu'il ne faut pas faire:

expliquer le fonctionnement ou les objectifs théoriques des logiciels utilisés (considérez que le lecteur connait parfaitement la bioinformatique!)
expliquer sur quel bouton vous avez cliqué (considérez que le lecteur sait très bien comment on lance un BLAST en ligne)
écrire en style SMS
délayer, enrober, étirer, en somme espérer une évaluation au poids...
répéter in extenso les résultats bruts alors que déjà présentés dans les champs idoines
écrire tout d'un bloc sans aucune structure
cloisonner chaque analyse (vous pouvez, vous devez faire référence à l'alignement multiple lorsque vous discutez des extrémités de votre ORF)
conclure directement sans aucune référence à des observations
présenter des hypothèses sans arguments circonstanciés et précis
rester vague, par exemple citer des homologues du BLAST ou des domaines conservés sans donner leurs E-values

Produisez avant tout un argumentaire scientifique, synthétique, complet, rigoureux, chiffré, structuré et implaccable.

Correction

La qualité de l'annotation de chaque lot des paniers de chaque étudiant sera notée. La note de TD globale de l'étudiant sera fonction à la fois de:

la difficulté des lots de séquences attribués (les séquences ne présentant pas de difficultés particulières compteront moins dans le calcul de la note finale que les séquences ayant requis plus d'efforts pour arriver à aller jusqu'au bout des annotations)
la qualité des annotations (exactitude, richesse, argumentation, rédaction)
Demandez de l'aide si nécessaire, soyez organisés (marques pages, onglets) et surtout n'attendez pas la veille de la fermeture pour annoter!

Annotation evaluation check list

To help you anticipate potential annotation pitfalls, here is a (non comprehensive) list of the most common criticisms made about annotations submitted for evaluation:

Analysis	Category	Criticism
ORF	ORF
ORF	ORF	Erreurs de calcul dans les tailles des ORF et des polypeptides
ORF	ORF	Mauvaise classification d'un ORF
ORF	ORF	Mauvaise classification d'un ORF : relire les règles du jeu
ORF	ORF	Quand vous avez choisi "any codon" en initiation, ne soyez pas surpris si votre ORF ne commence pas par un codon d'inititation!
ORF	ORF	Taille du polypeptide erronée quand il ne présente pas de codon STOP
ORF	ORF	Texte de l'analyse des résultats incohérent avec la table 1.
ORF	ORF	Vous mélangez les extrémités 5' et 3'
ORF	analysis	Absence d'analyse des résultats de recherche d'ORF
ORF	analysis	Analyse des résultats incomplète
ORF	analysis	Analyse des résultats incomplète (nb d'ORF putatifs, incomplet en 5'/3'?, choix de l'ORF)
ORF	analysis	Classifiez chaque ORF parmi: Faux Positif, ORFan, Novel, Known !
ORF	analysis	Des informations manquantes dans la table 1
ORF	analysis	Discutez de la position de début de l'ORF en fonction des analyses ultérieures
ORF	analysis	Discutez si les autres ORF "moins longs" paraissent significatifs ou insignifiants
ORF	analysis	Discutez spécifiquement de la position de début de votre ORF (complet/incomplet en 5', position probable du codon d'initiation etc.)
ORF	analysis	Erreur de calcul dans la taille des ORF
ORF	analysis	Justifiez les classifications des ORFs (KNOWN, NOVEL, ORFan, FP)
ORF	analysis	Les ORFS sans homologues dans NR sont soit des faux positifs, soit des ORFans
ORF	analysis	Les proportions dans le diagramme schématique de répartition des ORFs ne sont pas respectées (utilisez une police de caractère dite "monospace")
ORF	analysis	Lot non-codant improbable vu la longueur des ORF!
ORF	analysis	Mentionnez la longueur de l'ORF que vous avez sélectionné
ORF	analysis	ORF inexact (contient des codons stop, ORF n'est pas le plus long ...)
ORF	analysis	Quand vous avez choisi "any codon" en initiation, ne soyez pas surpris si votre ORF ne commence pas par un codon d'inititation!
ORF	analysis	Un ORF "any codon" débutant à plus de 3pb de l'extrémité ne peut pas être incomplet en 5' (car codon stop en amont)!
ORF	analysis	Un ORF commençant à la position 1, 2 ou 3 a de fortes chances d'être incomplet. Faire une recherche avec l'option xtg n'a alors pas de sens.
ORF	analysis	Une description generale du panorama des ORFs obtenus serait la bienvenue - relire les règles du jeu.
ORF	analysis	Une description generale du panorama des ORFs obtenus serait la bienvenue - relire les règles du jeu.
ORF	blast	Nombre d'alignements BLAST erroné : limitez-vous à ceux dont la e-value est < 1e-10
ORF	results	Discutez de la position de fin de l'ORF en fonction des analyses ultérieures
ORF	results	Distinguez les deux protocoles avec un "a)" et un "b)" que vous reporterez aussi dans la partie résultats bruts pour identifier chaque résultat distinct.
ORF	results	Faites un tableau de synthèse des ORF détectés (cf les Règles du Jeu)
ORF	results	Il manque les résultats bruts d'une recherche d'ORF débutant par un codon d'initiation
ORF	results	Manque le protocole (brin, codons initiation, code génétique...)
ORF	results	N'affichez dans ORF finder que les ORF ayant une taille > 60 aa
ORF	results	Protocole incomplet ou mal présenté
ORF	results	Protocole: indiquez l'URL de l'outil utilisé.
ORF	results	Résultats incomplets (manque un brin, manque codons initiation alternatifs…)
ORF	results	Schéma des ORFS: attention, les positions des ORFs sur le brin reverse se comptent à partir de la "fin" du fragment!
ORF	results	Une analyse des biais de fréquences de nucléotides serait utile (ex SMS->DNA Stats)
ORF	results	manque les valeurs de certains paramètres de l'analyse de recherche d'ORF
blast	analysis	Analyse incomplète des données BLAST (nb de hits, gamme des e-value, distribution des HSP sur la séquence query…)
blast	analysis	Comparez les prédictions fonctionnelles par domaines conservés (INTERPRO) et les fonctions des homologues BLAST
blast	analysis	Décrivez qualitativement et quantitativement les meilleurs alignements 2 à 2
blast	analysis	Faites un tableau de synthèse des homologues détectés par BLAST (cf les Règles du Jeu)
blast	analysis	Les fiches SWISSPROT des homologues mentionnent-elles des acides aminés ou domaines essentiels pour l'activité de la protéine?
blast	analysis	Pas d'analyse des informations fonctionnelles à partir des homologues par blast
blast	analysis	Rassemblez sous "PROTOCOLE" la liste de tous les protocoles utilisés (cf les règles du jeu)
blast	analysis	Vous confondez "homologie" et "similarité" !!
blast	analysis	Vous confondez le minimum et le maximum du E-value
blast	analysis	Vous devez proposer un seuil de E-value/score au delà dequels les protéines alignées par BLAST ne sont probablement plus des homologues
blast	blast	Erreur de méthodologie
blast	blast	Nombre d'alignements BLAST erroné : limitez-vous à ceux dont la e-value est < 1e-10
blast	blast	Protocole incomplet
blast	blast	Protocole incomplet. Pensez à préciser la banque de données interrogée.
blast	results	BLAST contre SWISSPROT?
blast	results	D'autres BLAST auraient été pertinents (SP/NR, BLASTx, modifications de paramètres ...)
blast	results	Distinguez les multiples protocoles avec des "a)", "b)" etc. que vous reporterez aussi dans la partie résultats bruts pour identifier chaque résultat distinct.
blast	results	Manque le protocole (type de blast / banque)
blast	results	Mauvaise présentation (liste des séquences incomplète, trop (ou manque) alignements 2 à 2, erreur copier/coller…)
blast	results	Protocole incomplet ou mal présenté
blast	results	Protocole: indiquez l'URL de l'outil utilisé.
blast	results	Trop d'alignements 2 à 2!
blast	taxonomy	Choix des homologues non pertinent (groupes non représentés, sureprésentés…)
blast	taxonomy	Discutez du différentiel de score/E-value BLAST entre les séquences du groupe d'étude et du groupe extérieur
blast	taxonomy	Discutez votre choix de groupe d'étude
blast	taxonomy	Décrire aussi comment les E-values sont répartis entre les taxa
blast	taxonomy	Faites un tableau de synthèse des groupes taxonomiques avec la gamme des E-values (cf les Règles du Jeu)
blast	taxonomy	Il faut mettre la liste des séquences sélectionnées pour l'alignement multiple, avec leur score et evalue (cf. règles du jeu)
blast	taxonomy	Incluez le BLAST "LINEAGE REPORT" (pas les ORGANISM ou autres reports)
blast	taxonomy	Le BLAST "Taxonomy LINEAGE report" suffit ("Organism Report" superflu)
blast	taxonomy	Le BLAST "Taxonomy lineage report" contre NR est généralement suffisant (qu'apprenez-vous de plus avec le TR contre SWISSPROT?)
blast	taxonomy	Le BLAST "Taxonomy lineage report" contre la banque ENV_NR n'a par définition aucun sens
blast	taxonomy	Le tableau de synthèse du Tax Report doit inclure tous les phylums avec des homologues (quite à s'en tenir au phylum sans classe ou ordre pour les derniers de la liste)
blast	taxonomy	Listez pour chaque groupe taxonomique principal les E-values min et max ainsi que le nombre approximatif de hits
blast	taxonomy	Mauvais choix / non justification du choix du groupe extérieur
blast	taxonomy	Pas de description du taxonomy lineage report (groupes trouvés, avec leurs gamme de scores etc.)
blast	taxonomy	Pour trouver un groupe extérieur, il faut refaire un BLAST en demandant plus de 100 alignements (250, voire 500 ou plus)
blast	taxonomy	Précisez la taxonomie, le e-value et le nom des séquences retenues pour les groupes d'étude et extérieur, mais pas les formats FASTA complets
blast	taxonomy	Rapport taxonomique non fait
blast	taxonomy	Refaire un BLAST en augmentant le nombre de hits à afficher de 100 à 250, voire 500 ou plus, afin de cerner correctement le paysage des homologues
blast	taxonomy	Une petite description générale du panorama des homologues en introduction aurait été bienvenue:)
conclusion		Problème de concision et de sens dans la conclusion.
conclusion		Structurez votre conclusion de façon synthétique, surtout pas de structure chronologique!
conclusion	ORF	Précisez si votre ORF est complet; proportion d'AA manquant (cf alignement multiple)
conclusion	blast	Mauvaise (ou absence d') interpretation des resultats Blast
conclusion	blast	Pas d'analyse des informations fonctionnelles exploitables grace aux homologues BLAST
conclusion	blast	Vous confondez "homologie" et "similarité" !!
conclusion	divers	Justifiez votre proposition de symbole de gène !
conclusion	divers	Veuillez rédiger la conclusion
conclusion	domains	Absence de comparaison entre les infos trouvées dans interpro et chez les homologues
conclusion	domains	Incompréhension du principe d'InterPro
conclusion	hypotheses	Justifiez vos choix de termes de la Gene Ontology
conclusion	hypotheses	Justifiez votre proposition de symbole de gène!
conclusion	hypotheses	Pas de prédiction d'une fonction putative
conclusion	hypotheses	Soyez plus précis et rigoureux, chiffrez, cites les E-value etc.
conclusion	results	Il manque le symbole de gène
conclusion	taxonomy	Pas de comparaison des infos du taxonomy report avec les informations taxonomiques obtenues avec interpro
divers	divers	Mauvaise classification d'un ORF
divers	divers	Veuillez rédiger l'interprétation des résultats
divers	divers	le formatage des polices de caractères des arbres ne permet pas de bien lire leur topologie (choisissez une police dite "monospace")
domains	analysis	Absence ou mauvaise interprétation fonctionnelle à partir des fiches interpro trouvées
domains	analysis	Attention, les hypothèses fonctionnelles ne se définissent pas qu'avec InterPro; croisez avec les fonctions des homologues trouvés par BLAST!
domains	analysis	Certains domaines, listés dans les résultats bruts, ne font l'objet d'aucun commentaire?
domains	analysis	Citez vos sources (par exemple en donnant l'URL de la fiche INTERPRO d'où vous tirez des infos fonctionnelles)
domains	analysis	Discutez des E-values des prédictions de domaines
domains	analysis	Donnez quelques détails sur la fonction biologique prédite
domains	analysis	Expliquez pourquoi vous avez retenu ce domaine protéique conservé en particulier (et pas les autres)
domains	analysis	Mauvaise identification des domaines (vrais positifs non annotés, domaines redondants, non significatifs…)
domains	analysis	Vous avez indiqué des domaines redondants dans le tableau des domaines retenus.
domains	analysis	Vous devez renseigner dans le tableau idoine les informations relatives au(x) domaine(s) que vous retenez après l'analyse des résultats.
domains	domains	Incohérence entre la table 2 et le texte
domains	domains	Mauvaise description du protocole
domains	domains	Recherche des domaines protéiques non faite
domains	domains	Résultats bruts incomplets
domains	domains	Table 2 manquante
domains	results	L'intitulé de la banque d'origine doit être le numéro d'accession du domaine que s'il n'y a pas d'intitulé fonctionnel
domains	results	La Désignation des domaines doit correspondre à leur fonction, pas leur numéro d'accession
domains	results	Mauvaise présentation des résultats des domaines
domains	results	Protocole: indiquez l'URL de l'outil utilisé.
domains	results	Tous les domaines prédits doivent apparaitre au tableau de synthèse (éventuellement regroupez les domaines répétés avec une liste de paires début-fin)
domains	results	Vous n'avez pas listé les résultats bruts d'InterPro scan
molecular weight		On ne peut pas calculer de poids moléculaire sur une protéine incomplète
molecular weight	divers	Poids moléculaire erroné : à recalculer
molecular weight	results	Calcul non fait ou calcul non pertinent (en cas d'ORF partielle)
multiple aln		Vous devez aligner les séquences du groupe d'étude et celles du groupe extérieur ensemble
multiple aln	ORF	Erreur d'interpétation de la position de début (trop court ou trop long en 5')
multiple aln	analysis	Absence d'analyse de l'alignement multiple (=> informations sur la reconstruction phylogénétique)
multiple aln	analysis	Absence d'analyse de l'alignement multiple (régions conservées/divergentes, cohérence avec domaines INTERPRO...)
multiple aln	analysis	Alignement multiple non fait
multiple aln	analysis	Confrontez les positions fortement conservées avec les acides aminés annotés comme ayant des rôles identifiés dans les fiches SWISSPROT des homologues.
multiple aln	analysis	Description de l'alignement trop générique, faites des références précises et chiffrées vers l'alignement
multiple aln	analysis	Description de l'alignement trop générique, faites des références précises et chiffrées vers l'alignement (nombre de positions 100% identiques, de positions avec des substitutions conservatives)!
multiple aln	analysis	Il manque l'alignement filtré par GBLOCKS !
multiple aln	analysis	Nombre & répartition des INDELS à travers l'alignement multiple?
multiple aln	analysis	Pas de discussion sur la position de début de votre ORF par rapport aux homologues
multiple aln	analysis	Précisez le nombre approximatif d'AA manquants aux extrêmités incomplètes de votre ORF
multiple aln	analysis	Rassemblez sous "PROTOCOLE" la liste de tous les protocoles utilisés (cf les règles du jeu)
multiple aln	analysis	Revoir l'analyse des résultats.
multiple aln	analysis	Spécifiez le nombre d'acides aminés identifiés par GBLOCKS comme convenablement alignés
multiple aln	analysis	Toutes les séquences sont-elles de longueur similaire?
multiple aln	divers	Un seul alignement multiple suffit
multiple aln	results	Alignement multiple contient des séquences trop partielles
multiple aln	results	Alignement multiple contient à la fois des séquences nucleotidiques et protéiques
multiple aln	results	Aln multiple peu convainquant: semble contenir des séquences non-homologues ou trop distantes pour être alignables
multiple aln	results	Identifiez avec des codes (ex A, B, C...) les régions d'intéret directement dans l'alignement multiple, puis faites-y référence dans votre texte!
multiple aln	results	Les séquences au format FASTA ou les alignements hors format CLUSTAL doivent aller dans le BLOC NOTE!
multiple aln	results	Manque votre ORF...
multiple aln	results	Mauvaise présentation de l'alignement multiple (format CLUSTAL demandé, nom des séquences...)
multiple aln	results	Plusieurs séquences identiques
multiple aln	results	Protocole incomplet ou mal présenté
multiple aln	results	Présence de séquences non homologues
multiple aln	results	Trop peu de positions fiablement alignées identifiées par GBLOCKS! Refaites GBLOCKS en optant pour les paramètres moins stringent (sauf autoriser les INDELS).
multiple aln	results	Vous devez inclure l'alignment multiple après "curation" par GBlocks (avec les positions retenues pour la phylogénie annotées)
ontologies	analysis	Mauvais choix de la fonction moléculaire
ontologies	analysis	Mauvais choix du processus biologique
ontologies	analysis	Pas d'attibution de fonctions GO
ontologies	analysis	Processus biologique erroné
ontologies	divers	Il manque la fonction moléculaire
phylogeny		Faites un seul arbre pour le groupe d'étude et le groupe extérieur (et non des arbres séparés pour chaque groupe)
phylogeny		L'ORF ne peut pas venir du groupe extérieur ! (contradiction : revoir la définition d'un groupe extérieur)
phylogeny		N'oubliez pas de calculer les supports statistiques
phylogeny		Phylogénie non faite
phylogeny	analysis	Discutez des valeurs de support/robustesse aux noeuds/branches!
phylogeny	analysis	Identifiez les branches importantes dans vos arbres avec des codes (ex "A", "B"...), puis référez-vous à ces codes dans vos analyses!
phylogeny	analysis	Il est possible de faire une assignation taxonomique plus précise
phylogeny	analysis	L'assignation taxonomique retenue est large, est-il possible de faire une assignation taxonomique plus précise?
phylogeny	analysis	Mauvaise identification des séquences orthologues/paralogues et événements de spéciation/duplication à chaque nœud
phylogeny	analysis	Mauvaise interprétation de l'arbre (mauvaise identification de l'homologue le plus proche, non détection de HGT…)
phylogeny	analysis	Pas d'analyse sur la congruence ou non entre les différentes versions des arbres?
phylogeny	analysis	Pas d'identification du groupe taxonomique auquel pourrait appartenir l'organisme d'où provient la séquence
phylogeny	analysis	Pas de discussion sur la topologie de l'arbre: cohérent avec taxonomie? Congruence si plusieurs arbres?
phylogeny	analysis	Vous devez discuter de la cohérence des arbres des gènes avec l'arbre des espèces de référence
phylogeny	analysis	la cohérence avec l'arbre des espèces ("arbre de la vie") ne se limite pas à la séparation du groupe d'étude et du groupe extérieur: tous les niveaux taxonomiques doivent être regroupés...
phylogeny	results	Ajoutez sur l'arbre après le nom de la séquence le groupe taxonomique entre crochets [alpha-protéobactéries]
phylogeny	results	Distinguez les deux protocoles avec un "a)" et un "b)" que vous reporterez aussi dans la partie résultats bruts pour identifier chaque résultat distinct.
phylogeny	results	Identifiez les groupes taxonomiques principaux dans vos arbres en utilisant des codes couleurs (cf. règles du jeu)
phylogeny	results	Les proportions dans les arbres ne sont pas respectées (utilisez une police de caractère dite "monospace")
phylogeny	results	Manque arbre par NJ ou Parcimonie
phylogeny	results	Manque le protocole (type de méthode: NJ ou parcimonie, groupe ext ...)
phylogeny	results	Mauvaise présentation (étiquettes des feuilles pas de la forme 'Ecolix'...)
phylogeny	results	Protocole incomplet ou mal présenté
phylogeny	results	Vos arbres doivent être enracinés sur votre groupe extérieur
phylogeny	results	Votre arbre PhyML doit présenter les valeur de support/robustesse aux noeuds/branches!
phylogeny	taxonomy	Analyse NJ à recommencer en calculant les valeurs de bootstrap.
phylogeny	taxonomy	Choisissez le groupe taxonomique le plus probable pour votre ORF (pas la définition exacte de son homologue le plus proche)
phylogeny	taxonomy	Définissez le groupe taxonomique le plus probable pour votre ORF (remplissez le champ "Taxonomie")
phylogeny	taxonomy	Erreur dans le choix de groupe taxonomique d'appartenance
phylogeny	taxonomy	Les noms de groupes ajoutés dans l’arbre ne sont pas pertinents (bacteria, enterobacteria…)
writing		Concision dans la redaction de la conclusion
writing		Conclusion pouvant être mieux structurée
writing		Dans tout le texte, les phrases doivent commencer par des majuscules!
writing		Dans tout le texte, les phrases se terminent par des points!
writing		Dans tout le texte, les ponctuations doivent être suivies d'un espace!
writing		Les possessifs excessifs sont à proscrire! Par exemple ne jamais écrire "Notre ORF..."
writing		Manque de rigueur. Argumentez vos hypothèses! Chiffrez! Citez des résultats précis!
writing		Orthographe / rédaction insuffisantes
writing		Respectez la présentation recommandée pour les cadres RESULTATS (cf Règles du jeu)
writing	analysis	Numérotez et donnez un titre à toutes vos tables.
writing	divers	Dans tout le texte, seules les ponctuations doubles ( : ; ? ! ) peuvent être précédées d'un espace !
writing	divers	Dans tout le texte: relisez vous et corrigez les fautes d'orthographe