Règles du jeu
Principe
Il y a 150 ans Charles Darwin parcourait les mers à bord du HMS Beagle pour observer la diversité morphologique du vivant; aujourd'hui c'est à bord de la goëlette Tara (ci-contre) que les biologistes sillonnent les océans pour observer la biodiversité à travers le séquençage métagénomique.
De septembre 2009 à novembre 2013, le navire océanographique Tara a sillonné tous les océans de la planète. Les océans produisent la moitié de l’oxygène que nous respirons. Si les forêts sont le premier poumon de notre planète, les océans constituent le second. Ces prairies de plancton et d’autres micro-organismes constituent, par leur activité photosynthétique, une immense pompe à oxygène. Mais, ces organismes marins sont aussi un important puits à gaz carbonique. Tara Oceans est une expédition pan-océanique dont la mission est de rendre compte de l'état de la biodiversité planctonique: des atolls coralliens tropicaux à l’Antarctique, des isthmes moyen-orientaux au passage du nord ouest. Une halte de Tara à Marseille a été faite du 20-29 septembre 2014.
Le séquençage métagénomique des échantillons Tara a démarré au GENOSCOPE (Evry). Ces séquences - encore confidentielles au sein du Consortium Tara - vous sont livrées à chaud, en attente d'annotation fonctionnelle. A cette échelle moléculaire, la bioinformatique est l'outil principal pour observer la biodiversité!
Votre mission, est de tenter d'identifier l'origine microbiologique de ces séquences (archae, protistes, algues, virus?), de déterminer quelles séquences sont codantes, et dans l'affirmative conclure s'il s'agit de protéines connues ou nouvelles.
La première opération sera d'identifier d'éventuels cadres ouverts de lecture (ORF). Les ORF qui correspondent vraisemblablement à des gènes codants seront repérables essentiellement à leurs tailles (au delà de 100 à 150 acides aminés) et aux similitudes de séquences avec d'autres gènes déjà connus et présents dans les banques annotées telles que SWISSPROT.
L'objectif est donc double:
-identifier de nouvelles espèces de microorganismes
-identifier des protéines totalement nouvelles ou des membres jusqu'à là inconnus de familles protéiques caractérisées.
Pour en savoir plus, voir le site de l'expéditio Tara Océans.

Equipe
Enseignants qui souhaitent gérer une équipe d'étudiants annotateurs
Vous trouverez toutes les informations nécessaires sur la page spécifique Annotathon Instructor Manual (disponible en anglais seulement).
Etudiants qui suivent un enseignement universitaire
Veuillez ouvrir un compte dans votre équipe spécifique (par exemple BioCell2016) en ouvrant l'onglet "Créer un compte" en haut de cette page.
Annotateur volontaire
L'équipe "Open access" est ouverte à tous les explorateurs volontaires! Pour participer, ouvrez un compte dans l'équipe "Open Access" en suivant le lien "Créer un compte" en haut de cette page.
Objectifs
Vous allez collectivement annoter des fragments de séquences tirés aléatoirement parmi les fragments d'ADN métagénomique issus du projet Tara Océans. Chaque étudiant prendra en charge l'annotation complète de deux fragments de séquence métagénomique. Les annotateurs devront, pour chacun des fragments dont ils ont la charge, conclure s'ils semblent codants ou non. Dans l'affirmative vous devrez proposer des annotations fonctionnelles pour les nouveaux gènes hypothétiques, ainsi que le groupe taxonomique d'appartenance le plus probable.
Utilisation de l'Annotation
Authentification
Organisez votre espace de travail de façon à avoir à l'écran trois fenêtres du Navigateur Internet (ou trois onglets si vous préfèrez) permettant ainsi d'avoir en parallèle:
- La page de travail principale de l'Annotathon
- Les règles du jeu (la page que vous lisez actuellement).
- La Foire aux questions avec des guides illustrés aux principales analyses bioinformatiques (Attention: certaines rubriques ne sont pas à jour)
Si vous n'avez pas encore de compte sur l'Annotathon (ce qui est le cas lors de votre première séance), cliquez sur l'onglet "Nouveau compte" dans le menu en haut de l'Annotathon. Créez un compte par étudiant en renseignant les divers champs du formulaire; soyez particulièrement attentifs à choisir la bonne affiliation, à fournir le Code d'équipe, à saisir précisemment les noms des étudiants (condition sine qua non pour avoir une note au TD); si vous n'êtes pas certains, demandez à votre responsable de TD! Vous devez fournir au moins une adresse de courrier électronique pour être tenu au courant des activités (vous pouvez saisir plusieurs adresses séparées par des virgules).
Enfin un clic sur "Ouvrir le Compte" doit faire afficher le message "Le compte 'XYZ' a été créé"; dans le cas contraire suivez les instructions pour corriger les erreurs. Une fois votre compte créé, vous pouvez ouvrir une session d'annotation en entrant le 'login/pseudo' et 'mot de passe' de votre compte dans les champs en haut de la page puis en cliquant sur "Connection".
Un fois connecté à l'Annotathon, contrôlez que votre pseudo et vos noms sont bien indiqués en haut de la page. Notez que vous devrez valider votre adresse de courrier électronique en suivant le lien fourni dans un courriel qui vous sera adressé automatiquement à la création du compte.
La page d'accueil (affichée après connection ou en cliquant sur l'onglet "Accueil") donne un aperçu global de l'état d'avancement du projet d'annotation. Notez qu'après connection avec votre pseudo, les statistiques en blanc sur fond rouge en bas de page représentra après les premières évaluations votre position par rapport au reste des étudiants de l'équipe.
Remarque: l'Annotathon est accessible à partir de n'importe quel accès Internet (campus ou non), sur MAC, PC Windows ou PC Linux...
Panier et fragments de séquence
L'objectif étant d'annoter des fragments de séquence, chaque étudiant peut consulter la liste des fragments de séquence dont il a pris la charge en cliquant sur l'onglet "Panier". Votre panier de séquences est initialement vide; pour ajouter un fragment de séquence à votre panier, sélectionnez le lieu d'échantillonage souhaité (ex Tropical South Pacific: 300 miles from F. Polynesia - International) puis cliquez sur le bouton "Ajouter un nouveau fragment de séquence à votre panier".
Vous ne pouvez ajouter de nouveaux fragments de séquence à votre panier que lorsque votre panier est vide, ou lorsque vous avez annoté tout ou partie des fragments déjà présents dans votre panier (c'est à dire soumis vos premières séquences à l'évaluation). Des nouveaux fragments de séquence sont donc ajoutés au panier à la discrétion de l'étudiant (à concurrence du nombre maximal de fragments requis par étudiant) puis annotés selon le guide proposé ci-dessous, et ce jusqu'à la date de fermeture de l'Annotathon (le nombre de jours d'ouverture restant est indiqué par un j-XX en haut de chaque page, cf. aussi "Evaluation et notation des étudiants" en fin des Règles du jeu).
Consulter vos annotations
Cliquez sur l'icone
en face du fragment de séquence dont vous souhaitez consulter les annotations. L'annotation initiale des fragments de séquence est succinte: outre le séquence nucléotidique, sa longueur, et l'origine géographique de la séquence, chaque fragment de séquence comporte un numéro d'accession unique au sein de l'Annotathon. Le reste de l'annotation est votre responsabilité.
Modifier vos annotations
Cliquez sur l'icone
en face du fragment de séquence souhaité pour avoir accès au formulaire de saisie des annotations des séquences. Après avoir saisi des données dans ce formulaire, n'oubliez pas de cliquer sur le bouton "Enregistrer les annotations" pour soumettre vos analyses au serveur central de l'Annotathon! Si vous quittez ce formulaire sans avoir cliqué sur ce bouton, vous perdez vos modifications en cours... Vu que vous pouvez revenir et modifier l'annotation d'un fragment de séquence autant de fois que vous le souhaitez, ce peut être une bonne habitude que de cliquer régulièrement sur "Enregistrer les annotations" pour ne pas risquer de perdre des annotations en cours!
Codes des fragments
Les codes des fragments de séquence (par ex GOS_21290.1) sont arbitraires et internes à l'Annotathon; le dernier chiffre correspond au numéro de version de vos annotations. Il démarre donc à 1 et s'incrémente de 1 à chaque enregistrement de vos annotations. Vous pouvez consulter les versions antérieures de vos annotations en sélectionnant la version souhaitée dans le menu déroulant en haut de vos fiches de visualisation d'annotations (clic sur l'icone
).
Soumettre vos annotations pour évaluation
Quand vous êtes satisfait de vos annotations, cliquez sur l'icone
en face de votre fragment de séquence. Le statut de ce fragment de séquence passe alors de 'Annotation 1' à 'Evaluation 1' et vous ne pouvez plus le modifier le temps que les correcteurs passent en revue votre travail. Après cette première évaluation, le statut des fragments passent à 'Annotation 2'; vous pouvez alors à nouveau modifier vos annotations suite aux éventuels commentaires des correcteurs. Quand votre deuxième passe d'annotations est complétée, cliquez sur
pour soumettre définitivement vos fragments de séquence pour l'évaluation finale.
Forum de discussion
L'onglet "Forum" vous permet d'accèder au forum interne de l'Annotathon (le
signale qu'un nouveau message non lu a été posté sur le forum). Cliquez sur le sujet du message du forum pour accèder à son contenu. Si vous souhaitez répondre à ce message, utilisez le champ disponible sous le message puis cliquez sur "Poster le message". ATTENTION!: n'utilisez ce cadre QUE POUR REPONDRE AU MESSAGE DIRECTEMENT!
En revanche, si vous souhaitez ouvrir un nouveau fil de discussion, utilisez OBLIGATOIREMENT les formulaires spéciaux disponibles en haut de chacune de vos fiches d'annotation (dans votre "Panier", cliquez sur
)! Vous choisirez alors dans quelle rubrique du forum vous souhaitez poster votre nouveau fil de discussion (ex Recherche d'homologues: BLAST).
Notez que les messages que vous envoyez sur le forum sont aussi directement acheminés vers l'adresse email des responsables de TD. Même si les messages s'adressent souvent aux responsables de TD, les étudiants qui connaissent les réponses aux questions postées sur le forum sont encouragés à y répondre. Les réponses pertinentes seront comptabilisées...
Messagerie / Annonces
De temps en temps, vos responsables de TD pourront faire des annonces qui s'afficheront en haut de chaque page de l'Annotathon. Une fois lus, il est conseillé de cliquer devant "Lu" pour transférer ces messages vers votre dossier de messages archivés. Ce dossier est disponible à tout moment en bas de la page "Forum".
Annotation des séquences
Principes généraux
Le formulaire de modification des annotations de séquences contient deux types de champs:
- les résultats d'analyses (ex. ORFfinder, BLAST etc.)
- vos interprétations, synthèses et conclusions (ex. fonction moléculaire, taxonomie, conclusion etc.)
L'Annotathon tient ainsi lieu à la fois de "cahier de laboratoire" (champs de type 1) et de "rapport de TD" (champs de type 2).
IMPORTANT: pour les champs de type 1 (résultats d'analyses), les champs sont initialement pré-remplis avec la structure suivante:
PROTOCOLE: --------------------------------------------------------------------------------------------------- ANALYSE DES RÉSULTATS: --------------------------------------------------------------------------------------------------- RÉSULTATS BRUTS: |
Sous la rubrique "PROTOCOLE", spécifiez le résumé des informations nécessaires pour pouvoir reproduire l'analyse, au minimum: le nom de l'outil utilisé, son URL et les paramètres d'analyse. Par exemple pour la recherche d'ORF, la ligne de protocole pourra être:
PROTOCOLE: SMS ORFinder / http://annotathon.org/sms2 / sens direct / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel'
Copiez-collez ensuite les résultats in-extenso de vos analyses sous la rubrique "RÉSULTATS BRUTS". Si vous avez effectué plusieurs analyses d'un même type (par exemple deux SMS ORFfinder, un en sens direct, l'autre en sens indirect), alors référencez les deux analyses par un index:
PROTOCOLE: a) SMS ORFinder / http://annotathon.org/sms2 / sens direct / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel' b) SMS ORFinder / http://annotathon.org/sms2 / sens indirect / cadres 1, 2 & 3 / min 60 AA / initiation 'any codon' / code génétique 'universel' --------------------------------------------------------------------------------------------------- ANALYSE DES RÉSULTATS: [ici vous rédigerez plus tard vos interprétations] RÉSULTATS BRUTS: a) sens direct >ORF number 1 in reading frame 1 on the direct strand extends from base 511 to base 744. CGAGTGATAACTGGTCCAGTAATCGCGATACCGATCATCTTGTTGCGGATTGACGATGTT AAAATCCCGATCAGGGCGGATATCCAGCCCCAGCCTTTCACAACGTTGCTGAATCACTTC GGGGCGGCCTATGACGATGGGAACTTCGCTGGTTTCTTCCAAAACGGCCTGAGCGGCGCG CAGCACCCGCTCGTCTTCGCCCTCGGCAAACACAATCCGTCGAGCGCTGCTTGA >Translation of ORF number 1 in reading frame 1 on the direct strand. RVITGPVIAIPIILLRIDDVKIPIRADIQPQPFTTLLNHFGAAYDDGNFAGFFQNGLSGA QHPLVFALGKHNPSSAA* --------------------------------------------------------------------------------------------------- b) sens indirect >ORF number 1 in reading frame 1 on the reverse strand extends from base 517 to base 855. CCTGATCTGTGGCGCTGTGGGCGAATTCAGATGGCATCTGAATTATATCGAGCAAATTTT AGGCAGCAAAACCTTATCGCCAAGCGGCGCGCTGTCTTTGATGATTTTAGAAGACGGGCC TCTGTTCATCGCAGACACCCACGTCTGGGCGGATCCCACCCCCATGCAAATTGCCCAAAC CGCCAAAGGGGCCGCGCGCCATGTGCGCCGTTTTGGCATAGAGCCACAAGTCGCGCTGTG CTCGCAATCACAATTTGGAAATCTGAACAGCGAGACTGGCAAGAAAATGCGCCAAGCATT GGATATTCTCGATACCGAAAAGGTGACGTTTACCTATGA >Translation of ORF number 1 in reading frame 1 on the reverse strand. PDLWRCGRIQMASELYRANFRQQNLIAKRRAVFDDFRRRASVHRRHPRLGGSHPHANCPN RQRGRAPCAPFWHRATSRAVLAITIWKSEQRDWQENAPSIGYSRYRKGDVYL* |
Enfin utilisez la rubrique "ANALYSE DES RÉSULTATS" de ces champs de type 1 pour exposer les faits saillants que vous êtes en mesure d'observer dans les résultats bruts. L'analyse des résultats, un exercice incontournable du discours scientifique, répond à la question "Qu'avons-nous vu de notable lorsque nous avons tenté l'expérience décrite dans le protocole?".
Remarque: Le dernier champ du formulaire, intitulé "Bloc Note", est à votre disposition pour conserver les informations de votre choix qui ne sont pas prévues par des rubriques spécifiques. Stockez-y tout ce qui pourra vous être utile lors des ré-analyses (par exemple des homologues au format FASTA). Le bloc-note ne fait pas partie des annotations 'officielles', il n'est pas consulté lors les évaluations.
Une aide en ligne pour chaque type d'annotation est disponible en cliquant sur les
directement dans le formulaire. Les principales annotations attendues pour chaque fragment de séquence sont décrites brièvement ci-dessous.
N'oubliez pas qu'une Foire aux Questions (FAQ) est à votre disposition pour des conseils plus approfondis (y compris des guides illustrés) sur les outils bioinformatiques que vous serez amenés à utiliser. Attention: Certaines rubriques ne sont pas à jour. Soyez vigilant au niveau des interfaces de programmes et des versions des bases de donnees!!!!
Lors de toutes vos analyses, gardez en vue les trois fils directeurs principaux de votre travail d'annotation qui consiste à proposer:
- si l'ADN est codant ou non? Et dans l'affirmative, les positions de début et de fin de l'ORF
- une hypothèse fonctionnelle sur la protéine éventuellement codée par votre fragment d'ADN
- une hypothèse taxonomique sur l'organisme qui pourrait porter ce fragment de séquence
Aucun résultat individuel d'analyse bioinformatique permet de répondre à lui seul à ces questions; les réponses se construiront en faisant les recoupements et la synthèse de tous ces résultats.
Recherche d'ORFs
La première analyse de chaque fragment de séquence consistera à rechercher les ORF potentiels inclus dans la séquence. Il existe de très nombreux logiciels en ligne pour dresser ce type de liste, dont:
Les ORFS à retenir pour analyse ultérieure vérifieront toutes les conditions suivantes:
- ne contiennent pas de codons STOP
- contiennent au moins 60 codons
- peuvent être sur le brin direct ou indirect
- peuvent être dans le cadre 1, 2 ou 3
- peuvent être complets ou non en 5' comme en 3'
Copiez-collez les résultats bruts de recherche d'ORF dans le champ 'Recherche ORF' du formulaire de saisie de l'Annotathon. Si vous utilisez SMS, n'oubliez pas de faire l'analyse dans les deux sens! Et n'oubliez pas la ligne de PROTOCOLE pour chaque recherche d'ORF!
Résumez sous "ANALYSE DES RESULTATS" l'ensemble des ORFs détéctés par ORFinder dans un tableau du type:
| Taille (nucléotides) |
Taille (aa) | Brin | position de début | position de fin | ORF complet en 5' | ORF complet en 3' | Nb d'alignements BLAST NR EV<1E-10 |
Classification de l'ORF | |
| ORF1 | 267 | 88 | direct | 95 | 361 | oui | oui | 0 | ORFan peu probable |
| ORF2 | 891 | 297 | reverse | 120 | 1010 | oui | non | 4256 |
KNOWN (étudiée ici) |
Attention: vous devez impérativement numéroter toutes vos tables (numérotation continue à travers toutes les sections d'annotation, par exemple table 1 pour les ORFs, table 2 pour les domaines protéiques conservés etc.) et leur donner un titre!
Faites un petit schéma résumant les positions des différents ORF sur le fragment d'ADN, par exemple (attention ce schéma ne correspond pas à la table ci-dessus):
|
Figure 1: Diagramme de répartition des ORFs sur le fragment d'ADN TO72D_5186010 (50)==ORF1==>(249) (268)====ORF2====>(579) (744)========ORF3======>(1068) DIRECT : 1 ------------------------------------------------------------------------------ 1070 INDRECT : 1070 ------------------------------------------------------------------------------ 1 (1068)<====================ORF4====================(394) (407)<==========ORF5==========(134) Légende: ==ORFx==> Faux positif |
Si votre séquence contient plusieurs ORF, ne considérez a priori que le plus long d'entre eux (sauf si par exemple le plus court présente des homologues alors que le plus long est un ORFan).
Vous devrez classer chaque ORF détecté parmi l'une des catégories suivantes:
- Faux Positif (succession de quelques codons sans STOP
- ORFan (gène codant pour une protéine sans aucun homologue connu à ce jour)
- Novel (gène codant pour une protéine avec des homologues dont les fonctions sont encore inconnues)
- Known (gène codant pour une protéine avec des homologues dont les fonctions sont connues)
Vous pouvez aussi préciser la fiabilité de vos classifications avec des qualificatifs du type "Très Probable" ou "Peu probable" etc.
Pour déterminer si les ORFs détectés dans le fragment de séquence paraissent vraisemblables (vrais ou des faux positifs, KNOWN, NOVEL, ORFan?), les éléments clefs à considérer sont:
- l'existence de protéines homologues (voir la rubrique BLAST) -> un ORF avec des homologues (E-value <1E-10) est très certainement un vrai positif (donc NOVEL ou KNOWN)
- la longueur de l'ORF (un ORF >100aa sans homologues est probablement un ORFan)
- un ORF sans homologues est très certainement un Faux Positif s'il est chevauchant (sur la majeure partie de sa longueur) avec un ORF ayant des homologues
Attention, ce dernier critère est très important: le gènes ne se chevauchent pas (quelques codons peut-être aux extrêmités, mais pas sur toute leur longueur!). Ceci est un élément crucial pour argumenter que certains ORFs sans homologues sont des faux positifs très probables!
-Si le fragment de séquence ne semble pas contenir de gène codant (pas d'ORF assez longs et pas d'homologues), cochez la case 'non-codant' de la rubrique 'Statut'. L'annotation de ce fragment de séquence est alors achevée; seuls les champs 'Recherche d'ORF' et 'BLAST' seront donc renseignés (en plus de votre rapport d'analyse dans le champ conclusion bien sûr). Toutefois, dans bien des cas, avant de conclure définitivement à un statut de "non-codant", nous vous conseillons aussi d'effectuer des recherches d'homologues dans les banques environnementales. Demander à un encadrant la procédure à suivre, cette dernière étant tout à fait exceptionnelle. Après avoir enregistré les annotations de ce fragment de séquence, vous pouvez ajouter un nouveau fragment de séquence à votre panier!
-Si la recherche d'homolgues par BLAST suggère qu'un ORF correspond bien à un gène (ou que l'ORF n'a aucun homologue connu mais semble trop long pour être dû au hasard - par exemple 250 codons[1]), cochez la case 'codant' de la rubrique 'Statut'. Indiquez ensuite le brin (direct ou indirect) sur lequel se trouve l'ORF, ainsi que ses positions de début et de fin. Notez que si votre ORF est complet en 3' (c'est à dire qu'il se termine par un codon STOP), il faudra retirer des coordonnées de fin les 3 nucléotides du STOP. Pour valider cet ORF, soumettez déjà ces données à l'Annotathon en cliquant sur "Enregistrer les annotations".
Si l'ORF vérifie les règles citées plus haut, la traduction sera alors affichée automatiquement; dans le cas contraire un message d'erreur vous indiquera par exemple si l'ORF contient des STOP. L'ORF peut être incomplet (codon STOP de fin ou codon d'initiation manquants) auquel cas seul un avertissement est affiché.
[1]en effet l'absence d'homologues dans les banques de séquences ne constitue pas la démonstration qu'un ORF est non-codant; dans ce cas on ne trouverait jamais de gènes complètement nouveaux! Il existe d'autres techniques d'identification de gène dites ab initio (par exemple celles exploitant les biais statisitiques d'utilisation de codons) mais celles-ci ne seront qu'au programme de bioinformatique de Master.
Consultez la Foire aux Questions pour plus de détails sur la recherche d'ORF, notamment sur la question très délicate et cruciale de la position exacte de début d'ORF...
ANALYSE DES RÉSULTATS:
Voici une proposition de structure pour l'analyse des ORFs:
1- Classifications des ORFs
1.1- Justification des ORFs KNOWN (si présents)
1.2- Justification des ORFs NOVEL (si présents)
1.3- Justification des ORFs ORFan (si présents)
1.4- Justification des ORFs Faux Positifs (si présents)
-> donnez des arguments explicites et chiffrés!
-> référez-vous à la table 1 explicitement!
-> MAIS NE JAMAIS EXACTEMENT PARAPHRASER LE TABLEAU!
-> citez vos sources, de préférence sous forme de liens, par ex:
"les homologues sont des epimerase (cf. Fiche SWISSPROT MJ0211)"
2- ORF séléctionnée pour la suite de l'étude
-> Justifiez!
-> D'autres ORFs mériteraient-ils un analyse bioinformatique indépendante?
3- Extrêmités de l'ORF sélectionnée
-> Discutez des positions de début et de fin de l'ORF, et le cas échéant estimer le nombre d'AA manquant (renvoyez à la rubrique alignement multiple pour les détails).
|
Masse moléculaire
Si l'ORF est complet (codon initiation->STOP), alors calculez la masse moléculaire théorique du polypetide correspondant à cet ORF en utilisant par exemple:
Domaines protéiques
Recherchez si la traduction de votre ORF présente des domaines protéiques conservés, en utilisant par exemple:
Pour les résultats bruts de la recherche INTERPROscan, copiez vos résultats sous la forme suivante uniquement ("Export" -> "TSV").
RÉSULTATS BRUTS: TO82S_4665010 35c27fb0e8e5c87be19799682b0ebae4 205 SUPERFAMILY SSF52833 79 162 3.44E-7 T 30-09-2014 IPR012336 Thioredoxin-like fold TO82S_4665010 35c27fb0e8e5c87be19799682b0ebae4 205 Pfam PF14595 Thioredoxin 44 167 6.3E-32 T 30-09-2014 TO82S_4665010 35c27fb0e8e5c87be19799682b0ebae4 205 Gene3D G3DSA:3.40.30.10 18 205 4.4E-36 T 30-09-2014 IPR012336 Thioredoxin-like fold |
Veuillez résumer ce résultat brut assez indigeste par un tableau N°2 (encore un!) de synthèse, en ignorant les domaines prédits non intégrés à INTERPRO (no IPR) et en ne conservant qu'un seul domaine représentatif s'il y a des prédictions redondantes (par exemple ne reportez que le domaine Gene3D qui a le meilleur e-value dans le résultat ci-dessus qui présente 3 domaines redondants):
|
Table 2: Liste des domaines protéiques conservés détectés par InterproScan, après nettoyage de la redondance
|
Vous devez ensuite renseigner dans le petit tableau spécial du formulaire "Domaines conservés" de l'Annotathon entre 1 et 4 domaines qui vous semblent les plus pertinents. Ne soumettez à l'Annotathon que les domaines qui vous paraissent clairement significatifs, c'est à dire
- ceux que l'on ne s'attend pas à trouver purement par hasard (dont les signatures/profils sont suffisamment spécifiques). La E-value associée à chaque alignement de domaines fonctionnels sont là pour vous y aider.
- ceux dont la fonction concorde avec les autres analyses bioinformatiques effectuées (par exemple un domaine de liaison à l'ADN pour un ORF dont les homologues trouvés par BLAST sont des facteurs de transcription)
- non redondants (et non-chevauchants) avec d'autres domaines que vous avez retenu
Si vous êtes convaincu de la vraissemblance de certains domaines prédits (4 au maximum), saisissez-en les noms et coordonnées dans le formulaire de l'Annotathon. Ne répétez pas le même domaine fonctionnelreprésenté sous différents noms/numéros d'accession dans plusieurs base de données (on retrouve en effet fréquement le même domaine protéique sous des numéros d'accession différents dans PROSITE, PFam, PRINTS etc.).
ANALYSE DES RÉSULTATS:
1. Domaine(s) retenu(s)
-> Justifiez, chiffrez vos arguments (longeur du domaine, E-value)!
-> Mentionnez les autres domaines (aussi des vrais positifs) non retenus qui sont juste redondant avec le domaine retenu: même domaine prédit par une autre méthode / d'une autre base de données de domaines, domaines implicites au domaine retenu (par exemple un domaine transmembranaire pour un transporteur membranaire)
-> référez-vous à la table 2 explicitement, SANS EXACTEMENT LA PARAPHRASER!
2. Domaines rejetés (le cas échéant)
-> Justifiez pourquoi certains domaines sont exclus (soucis de E-value, domaines non intégrés dans INTERPRO)!
3. Fonction biologique
-> Donnez des détails sur la fonction biologique associée au(x) domaine(s) retenu(s) (activité enzymatique, fonction moléculaire, processus biologiques, répartition à travers le vivant etc.)
-> Croisez avec les résultats du BLAST (notamment contre SWISSPROT)
-> citez vos sources (par exemple en donnant un lien vers l'URL d'une fiche INTERPRO ou PFAM)!
|
Recherche d'homologues par BLAST
A partir de cette etape, il n'est pas necessaire de copier les resulats intermediaires dans les champs correspondants. Pour eviter les effets cycliques de l'analyse, vous pouvez utiliser le 'Bloc note' pour ces resultats intermediaires. Une fois que l'origine taxonomique de votre sequence est acquise, vous pouvez alors mettre au propre vos resultats intermediaires dans les champs correspondants. Utilisez BLAST pour rechercher s'il existe d'éventuels homologues de vos ORF dans les banques de séquence. Vous trouverez des serveur Internet BLAST sur:
Deux approches BLAST sont possibles pour chercher des homologues à votre séquence:
- un BLASTp (séquence protéique contre banque protéique) de votre ORF contre une banque protéique
- un BLASTx (séquence nucléotidique traduite par BLAST dans les 6 phases contre banque protéique) de la séquence NUCLEOTIDIQUE complète de votre fragment de séquence contre une banque protéique; utilisez ce BLASTx si vous avez des doutes sur le cadre de lecture de votre ORF, où si votre recherche d'ORF a été apparement infructueuse (le BLASTx est généralement insensible aux erreurs de séquençage)
Interrogez impérativement les deux banques suivantes:
- NR banque de protéine la plus exhaustive disponible (utile pour l'analyse phylogénétique)
- SWISSPROT petite banque de protéine où les fiches d'annotation sont très complètes (utile pour l'analyse fonctionnelle)
Copiez-collez dans le champ 'BLAST' de l'Annotathon au minimum (Attention: une version texte du resultat blast est obtenue via le bouton "Reformat"):
- l'entête des résultats du/des BLAST (ou indiquez le PROTOCOLE: quel programme a été utilisé contre quelle banque de données et autres paramètres éventuels)
- la liste complète des résumés des séquences ayant été alignée suivie des deux colonnes 'Score' et 'E-Value'
- la première dizaine d'alignements deux-à-deux
- le rapport taxonomique du BLAST (BLAST au NCBI seulement, lien dans l'entête du BLAST) dans le champ "Rapport Taxonomique" de l'Annotathon: ne copiez que la première partie dite Lineage Report!
Si votre ORF présente des homologues connus, précisez impérativement dans votre ANALYSE DES RESULTATS quel est la valeur seuil de E-value qui sépare les homologues (vrais positifs) des non-homologues (faux positifs). Présentez un résumé de synthèse de vos observations BLAST dans un tableau du type:
|
Table 3: Nombre et qualité des alignements détectés par BLASTp contre NR et SWISSPROT
|
A l'aide de l'outil "Definition List", listez dans une table 4 de la rubrique ANALYSE DES RESULTATS l'ensemble des fonctions des homologues avec leurs gammes de E-values (cf exemple ci-dessous).
Attention: ce petit outil "Definition List" est bien pratique, mais très rudimentaire: il récupère chaque identifiant de votre listing BLAST, va chercher dans NR la ligne de définition complète de chaque fiche protéique (elles sont souvent tronquées dans le listing BLAST), puis compte pour chaque "définition" unique le nombre de fois (et les E-values extrêmes) où cette définition a été vue. Dans certains cas, il vous faudra encore simplifier cette liste de définitions, par exemple en regroupant sous une seule ligne "DNA polymerase B" de votre table 4 l'ensemble des "définitions" suivantes:
- "DNA polymerase B"
- "DNA polymerase B PolB"
- "Putative DNA polymerase B"
- "DNA polymerase B family proteins"
- "DNA polymerase B, partial"
|
Table 4: Catalogue des fonctions des protéines alignées par BLASTp contre NR ___________________________________________________________________________________________________ | descriptions : | min e-value | max e-value | |_______________________________________________________________________|_____________|_____________| | • carbamoyl phosphate synthase large subunit | 5e-61 | 10 | | • transcriptional regulator | 7e-33 | 2e-29 | | • haloacid dehalogenase | 2e-31 | 3e-10 | | • UDP-phosphate galactose phosphotransferase | 5e-30 | 0.35 | | • pilin glycosyl transferase B2 | 2e-28 | 4e-18 | | • carboxylate-amine ligase | 9e-25 | 8.3 | | • sialic acid O-acetyltransferase NeuD family sugar O-acyltransferase | 5e-19 | 6e-19 | | • NAD-dependent epimerase/dehydratase | 1e-17 | 0.040 | | • biotin carboxylase | 7e-17 | 9.9 | | • carboxyltransferase | 5e-16 | 4.1 | | • DNA polymerase B | 2e-01 | 9.9 | |_______________________________________________________________________|_____________|_____________| |
Vous devrez évidemment discuter si cette liste de fonctions semble cohérente, c'est à dire que toutes ces fonctions sont synonymes ou compatibles. Cette comparaison des différentes fonctions présentes dans les résultats du BLAST servira notamment à définir la valeur seuil de la E-value. Discutez aussi de la cohérence avec les prédictions INTERPRO!
Rapport Taxonomique du BLAST contre NR
Le "Lineage Report" vous permet essentiellement de determiner le Groupe Etude et le Groupe Exterieur qui formeront la base de votre alignement multiple, puis de l'arbre phylogénétique.
IMPORTANT: Vous pouvez obtenir le rapport taxonomique de votre Blast en utilisant l'outil local "tax_report2" TaxReports.
Copiez sous RESULTATS BRUTS l'ensemble du Lineage Taxonomique (mais pas le Organism Report SVP):
RÉSULTATS BRUTS: Lineage report .LUCA . Bacteria . .Cyanobacteria . . Prochlorales . . .Prochlorococcaceae . . . Prochlorococcus . . . .Prochlorococcus marinus str. MIT 9515........ 315 4e-103 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. MIT 9301........ 305 3e-99 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. MIT 9215........ 303 8e-99 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. AS9601.......... 301 4e-98 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. NATL1A.......... 261 2e-82 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . . .Prochlorococcus marinus str. MIT 9303........ 249 1e-77 2 hits Bacteria:Cyanobacteria:Prochlorales: phytoene desaturase [Prochlorococcus mari... . . Synechococcus sp. WH 8109....................... 251 1e-78 1 hit Bacteria:Cyanobacteria:Chroococcales: Carotene 7,8-desaturase [Synechococcus sp. WH ... . . Synechococcus sp. WH 7803....................... 251 2e-78 3 hits Bacteria:Cyanobacteria:Chroococcales: phytoene dehydrogenase [Synechococcus sp.... . . Synechococcus sp. CB0205........................ 250 3e-78 1 hit Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. BL107......................... 250 3e-78 2 hits Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. WH 8016....................... 250 4e-78 2 hits Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. CC9311........................ 250 4e-78 6 hits Bacteria:Cyanobacteria:Chroococcales: phytoene desaturase [Synechococcus sp. CC931... . . Synechococcus sp. RS9916........................ 249 1e-77 2 hits Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. CB0101........................ 248 2e-77 1 hit Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Synechococcus... . . Synechococcus sp. RCC307........................ 236 2e-72 3 hits Bacteria:Cyanobacteria:Chroococcales: phytoene dehydrogenase [Synechococcus sp.... . . Synechococcus sp. PCC 7002...................... 217 2e-65 3 hits Bacteria:Cyanobacteria:Chroococcales: phytoene dehydrogenase [Synechococcus sp.... . . Cyanobium sp. PCC 7001.......................... 249 7e-78 2 hits Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Cyanobium sp.... . . Crocosphaera watsonii........................... 231 1e-70 1 hit Bacteria:Cyanobacteria:Chroococcales: 15-cis-phytoene desaturase [Crocosphaera ... [...] |
En vous aidant de l'outil "Taxonomy List", faites sous ANALYSE DES RESULTATS un résumé de vos observations du rapport taxonomique dans un tableau du style suivant (notez que ce tableau de synthèse doit être précis pour les taxa les plus proches, et peut devenir moins précis avec par exemple juste une ligne par Phylum ou même Règne pour les taxa les plus éloignés):
|
Table 5: Synthèse des classifications taxonomiques des protéines alignées par BLASTp contre NR
|
Vous utiliserez ces résultats du BLAST pour constituer deux groupes de séquences homologues qui serviront, après alignement multiple, à tenter une reconstruction d'arbre phylogénétique:
- un groupe d'étude (jusqu'à environ 20-30 séquences) représentant les homologues appartenant au même groupe taxonomique présume pour votre ORF
- un groupe extérieur (environ 5-15 séquences) représentant les homologues les plus proches n'appartenant pas au groupe d'étude (dans le but d'enraciner l'arbre phylogénétique, lire absolument la FAQ à ce sujet)
IMPORTANT: Notez que TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur sont des HOMOLOGUES, c'est à dire au dessous de la E-value seuil déterminée précedemment lors du BLAST.
Consultez la Foire aux Questions pour plus de détails sur le BLAST.
Consultez ce document pour plus de détails sur la constitution des groupes d'étude et exterieur.
IMPORTANT: Indiquez dans la rubrique ANALYSE DES RÉSULTATS du champ Rapport Taxonomique la liste complète de TOUTES les séquences sélectionnées dans les groupes d'étude et extérieur: pour chaque séquence donnez son numéro d'accession, le nom de code que vous aurez choisi (voir ci-dessous Alignement multiple de séquences protéiques), son E-value donné par BLAST et son groupe taxonomique d'appartenance. Vous pouvez faire du copier-coller à partir des entêtes de vos sequences (au format fasta) issues de l'outil local "tax_report2" (mais ne pas indiquer ici les séquences protéiques!). Par exemple:
PROTOCOLE: BLASTp contre NR, / wwww.ncbi.nlm.nih.edu / paramètres par défaut, sauf "Number of descriptions=5000" ANALYSE DES RÉSULTATS: [ici rédigez votre description du taxonomy report, votre justification des groupes d'étude et exterieur, suivi de la liste des séquences choisies pour les groupes:] Groupe d'étude: Cyanobacteria >Bac_Cya_Pro_3 [Bacteria Cyanobacteria Prochlorales] E-value=1e-15 Bacteria;Cyanobacteria;Prochlorales;Prochlorococcaceae;Prochlorococcus; gi|488894830|ref|WP_002805954.1| zeta-carotene desaturase [Prochlorococcus marinus] >Bac_Cya_Chr_2 [Bacteria Cyanobacteria Chroococcales] E-value=7e-78 Bacteria;Cyanobacteria;Chroococcales;Cyanobium; gi|493968054|ref|WP_006911325.1| 15-cis-phytoene desaturase [Cyanobium sp. PCC 7001] >Bac_Cya_Chr_3 [Bacteria Cyanobacteria Chroococcales] E-value=1e-70 Bacteria;Cyanobacteria;Chroococcales;Crocosphaera; gi|494523610|ref|WP_007313063.1| 15-cis-phytoene desaturase [Crocosphaera watsonii] >Bac_Cya_Chr_4 [Bacteria Cyanobacteria Chroococcales] E-value=9e-68 Bacteria;Cyanobacteria;Chroococcales;Cyanothece; gi|218438147|ref|YP_002376476.1| phytoene desaturase [Cyanothece sp. PCC 7424] >Bac_Cya_Chr_5 [Bacteria Cyanobacteria Chroococcales] E-value=1e-64 Bacteria;Cyanobacteria;Chroococcales;Synechocystis; gi|16330439|ref|NP_441167.1| phytoene desaturase [Synechocystis sp. PCC 6803] >Bac_Cya_Osc_1 [Bacteria Cyanobacteria Oscillatoriales] E-value=3e-72 Bacteria;Cyanobacteria;Oscillatoriales; gi|497454285|ref|WP_009768483.1| phytoene desaturase [Oscillatoriales cyanobacterium JSC-12] >Bac_Cya_Osc_3 [Bacteria Cyanobacteria Oscillatoriales] E-value=1e-16 Bacteria;Cyanobacteria;Oscillatoriales;Microcoleus; gi|493682519|ref|WP_006632676.1| zeta-carotene desaturase [Microcoleus vaginatus] >Bac_Cya_Nos_1 [Bacteria Cyanobacteria Nostocales] E-value=1e-70 Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298491654|ref|YP_003721831.1| phytoene desaturase ['Nostoc azollae' 0708] >Bac_Cya_Nos_2 [Bacteria Cyanobacteria Nostocales] E-value=5e-14 Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Trichormus; gi|298492908|ref|YP_003723085.1| carotene 7,8-desaturase ['Nostoc azollae' 0708] >Bac_Cya_Nos_3 [Bacteria Cyanobacteria Nostocales] E-value=2e-70 Bacteria;Cyanobacteria;Nostocales;Nostocaceae;Anabaena; gi|414079384|ref|YP_007000808.1| phytoene desaturase [Anabaena sp. 90] >Bac_Cya_Sti_1 [Bacteria Cyanobacteria Stigonematales] E-value=2e-68 Bacteria;Cyanobacteria;Stigonematales;Fischerella; gi|497072507|ref|WP_009458406.1| 15-cis-phytoene desaturase [Fischerella] Groupe extérieur: autres bacteria non Cyanobacteria (Chloroflexi, Chlorobi, Acidobacteria, Firmicutes, Planctomycetes) >Bac_Chl_Chl_1 [Bacteria Chloroflexi Chloroflexales] E-value=3e-32 Bacteria;Chloroflexi;Chloroflexales;Chloroflexaceae;Chloroflexus; gi|163847906|ref|YP_001635950.1| carotene 7,8-desaturase [Chloroflexus aurantiacus J-10-fl] >Bac_Chl_Chl_2 [Bacteria Chlorobi Chlorobia] E-value=2e-30 Bacteria;Chlorobi;Chlorobia;Chlorobiales;Chlorobiaceae;Chlorobaculum; gi|193212415|ref|YP_001998368.1| carotene 7,8-desaturase [Chlorobaculum parvum NCIB 8327] >Bac_Aci_Can_1 [Bacteria Acidobacteria Candidatus Chloracidobacterium] E-value=2e-27 Bacteria;Acidobacteria;Candidatus Chloracidobacterium; gi|347753771|ref|YP_004861335.1| hypothetical protein [Candidatus Chloracidobacterium thermophilum B] >Bac_Fir_Bac_1 [Bacteria Firmicutes Bacillales] E-value=2e-14 Bacteria;Firmicutes;Bacillales;Bacillaceae;Bacillus; gi|407961641|dbj|BAM54881.1| zeta-carotene desaturase [Bacillus subtilis BEST7613] >Bac_Pla_Pla_1 [Bacteria Planctomycetes Planctomycetacia] E-value=2e-11 Bacteria;Planctomycetes;Planctomycetacia;Planctomycetales;Planctomycetaceae;Singulisphaera; gi|430745940|ref|YP_007205069.1| |
Alignement multiple de séquences protéiques
L'objectif de cet alignement multiple est d'abord de vérifier que l'ORF en question s'intègre correctement dans la famille de ses homologues présumés: l'alignement multiple doit donc présenter des régions conservées convaincantes. D'autre part l'alignement multiple servira à inférer un arbre phylogénétique des homologues présumés (cf. ci-dessous "Arbre phylogénétique"): l'alignement doit donc suggérer suffisamment de mutations (positions informatives) pour pouvoir reconstruire l'histoire évolutive de ces protéines! Attention à ne pas inclure de séquences trop partielles qui réduisent les positions informatives.
Il est fréquent d'avoir à refaire plusieurs fois l'alignement après avoir ajouté ou retiré des séquences plus ou moins divergentes avant d'obtenir un alignement satisfaisant.
IMPORTANT: avant de procéder à l'alignement multiple, vous pouvez insérer des noms des séquences directement dans leur format FASTA afin de créer des étiquettes de séquence lisibles pour l'alignement multiple et les arbres phylogénétiques. Le nom de séquence est constitué des lettres directement après le signe > jusqu'au premier espace, à concurrence de 10 caractères maximum. Si vous avez selectionné vos séquences d'interets à partir du rapport taxonomique issu de TaxReports2 ("Chercher les séquences sélectionnées au format FASTA"), alors des noms de séquence uniques ont déjà été insérés, par exemple:
>AEMMMM1 [Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae Methanosarcina] E-value=1e-85 Archaea; Euryarchaeota; Methanomicrobia; Methanosarcinales; Methanosarcinaceae; Methanosarcina; gi|851310952|ref|WP_048174166.1| UDP-glucose 4-epimerase [Methanosarcina siciliae] MSFNLADYAELLEDLSPHSQNALQANWHEATKVFSPRGLDNYLKGAAAIRGLGKGDSLVETWIEKAPMVAKEVGEDVVGD LATASLELASRTSGTVIELLLATSAIAANRLGDAELFIKYLQFINTLIAQAPRGVRPMLDKLEVLFQHLTLGGLRRWALW GAHAHRTNYEEQIRYFSLDSKESMAMLQKERKGTLLVDVQRRINMYLRALWARDFFMRPTSGDFETREGYRPYIEDYLLH VPDAFDDFTVEGQEPVSGLELYRATAAHCAAHVVETKLPISAEALNPMQIAVISVIEDARVETLSIRRFPGLKQLWSKLH TATPEMNGSMGDYLNRLARALLDESYKDKDPWIVEARALFALAQEKLDSNLTSWDIGVQLAHSFGQKRIPFNPRTDLLTA PYRDDNRYFWEFEEFDFNKAASAGYESIKQVRKYVSVMEMANEIDVETAGDDAEEIWVLGTELFPYENIGDESGGKSFNE LEGKEPVSDPFHYSEWDYQIQLERPAWATVLEKRAKAGDLQIIEAITAQYKREIHRMKFLLDAMQPQGVQRIRRLEDGDE IDINAAISSLTDIRLGNQPDPRIMMRSVRKTRDFSILVLLDLSESTNEKVQDQEYSVRELTQQACVLLADAINKVGDPFA IHGFCSDGRHDVEYYRFKDFDQHWDETPKSRLAGMTGQLSTRMGAAIRHAGHHLQLQRSAKKLLIVITDGEPADVDVRDP QYLRYDTKKAVEEVAKLGVTTYCMSLDPRADNYVSRIFGQKNYMVVDHVQRLPEKLPLLYAGLTR |
Vous noterez que ce code "AEMMMM1" est constitué des premières lettres des 5 premiers niveaux de classification taxonomique (Archaea Euryarchaeota Methanomicrobia Methanosarcinales Methanosarcinaceae). Quelques fois il peut être pratique d'ajouter des codes pour identifier par exemple les séquences du groupe extérieur:
Construisez les alignements multiples (séquences du groupe d'étude, du groupe extérieur et n'oubliez pas la traduction de votre ORF!) en utilisant une version Internet d'un des logiciels suivants: ClustalW (classique), MUSCLE (rapide et un peu plus efficace) ou T-COFFEE (plus lent mais très robuste et avec une visualisation en couleur des blocs conservés très utile). Ces logiciels sont disponibles sur:
La seule limite au nombre de séquences à inclure dans votre alignement multiple est liée au temps de calcul des logiciels d'alignement multiple, ainsi qu'au temps de calcul de l'arbre phylogénétique. Ce temps reste en général raisonnable jusqu'à une trentaine (voire une cinquantaine) de séquences ayant chacune une centaine de résidus.
Copiez-collez l'alignement multiple produit (au format CLUSTALW) dans le champ 'Alignement Multiple' de l'Annotathon.
Copiez-collez egalement l'alignement multiple (positions selectionnees / sites informatifs) (au format CLUSTALW) issue de Gblocks dans le champ 'Alignement Multiple' de l'Annotathon. Cet alignement Gblocks est obtenu lors la construction de votre arbre phylogenetique.
ANALYSE DES RÉSULTATS:
1. Qualité de l'alignement multiple
-> description qualitative de l'alignment: chiffrez avec le nombre de positions identiques et le nombre de positions avec des substitutions conservatives! Il s'agit ici de confirmer chiffres à l'appui que toutes les séquences sont bien homologues!
-> Sont-elles toutes de longueur comparable (attention aux séquences tronquées!)?
-> Nombre et répartition des INDELS
-> Existe-t-il des sous groupes dans cette grande famille d'homologues (souvent par exemple: groupe étude vs groupe extérieur)?
-> Après curation par GBLOCKS: combien de positions sont suffisament conservées (=homologues) pour être exploitées pour l'inférence phylogénétique (stats GBLOCKS)? Est-ce suffisant? Si non avez-vous relaxé les paramètres de stringence de GBLOCKS? Ou de retirer les homologues trop distants ou tronqués qui dégradent la qualité de l'alignement?
2. Identification des régions conservées
-> Pour ce faire, rien de mieux que d'annoter directement l'alignement multiple de GBLOCKS avec des codes "A", "B" etc. pour repérer les régions d'intéret, pour y faire ensuite référence dans vos analyses!
-> Si des acides aminés (ou motifs de plusieurs acides aminés) sont connus comme étant impliqué dans des fonctions/activités de ce type de protéines (cf analyses fiches homologues SWISSPROT et domaines INTERPRO), les repérer dans l'alignement multiple (mettez des codes dans le style "->X<-")!
-> Sont-il conservés chez tous les homologues, et dans l'ORF?
3. Etude des extrêmités de l'ORF
3.1 Faire une analyse explicite de la région N-terminale de l'alignement (ORF complet? Quid du codon d'initiation? Nombre d'AA manquants)?
3.2 Faire une analyse explicite de la région C-terminale de l'alignement (ORF complet? Nombre d'AA manquants)
|
Arbre phylogénétique
Vous utiliserez l'alignement multiple ci-dessus pour inférer un arbre phylogénétique selon deux approches de reconstruction d'arbres:
- méthode dite de 'distances' (ex 'neighbor-joining (NJ)', 'BioNJ' ou 'Phylip protdist/neighbor')
- méthode dite de 'maximun de vraissemblance' (ex 'PhyML)')
Vous pouvez utiliser le service en ligne dédié phylogeny.fr (recommendé, inclu à la fois BioNJ & PhyML).
Consultez la Foire aux Questions pour plus de détails sur l'inférence d'arbres phylogénétiques (y compris un tutorial en images).
ATTENTION: Utilisez le site http://annotathon.org/outils/nw_utils.php pour raciner et présenter vos arbres au format "TEXTE" (en effet, les manipulations d'arbres par "TreeDyn" sur le site phylogeny.fr ne sont pas 100% fonctionelles). Vous pouvez ainsi avec cet outil contrôler la dimension (largeur) des arbres, et vous pouvez sélectionner la racine souhaitée (indiquez tout simplement une ou plusieurs noms de séquences du groupe exterieur), le tout en préservant l'affichage des valeur de supports aux noeuds des arbres!
Dans tous les cas, copiez-collez la représentation dite 'textuelle' de l'arbre proposé dans le champ 'Arbre' de l'Annotathon. Indiquez aussi dans le champ 'Arbre' la méthode et les paramètres principaux utilisés pour produire votre arbre (ex 'PhyML / http://phylogeny.fr / groupe extérieur: Coccidioides immitis (ascomycetes)').
La représentation textuelle de votre arbre doit être de la forme - notez les (groupe taxonomiques):
PROTOCOLE:
a) Phylogeny.fr / méthode PhyML / Statistical tests for branch support aLRT: SH-like / default substitution model / groupe extérieur: Firmicutes
b) Phylogeny.fr / méthode BioNJ / pas de bootstrap / groupe extérieur: Firmicutes
---------------------------------------------------------------------------------------------------
ANALYSE DES RÉSULTATS:
Important: Identifiez les branches importantes dans vos arbres avec des codes (ex "A", "B"...), puis référez-vous à ces codes dans vos analyses!
Pour une visualisation encore plus aisée et percutante, vous pouvez aussi utiliser des codes couleur pour identifier les différentes branches importantes de vos arbres (dans ce cas pensez à inclure une légende des couleurs). Pour utiliser des codes couleurs, vous devrez insérer vos arbres dans le champ 'Analyses des résultats' au lieu de les insérer dans le champ classique 'Résultats bruts' (mais les arbres colorisés sont tellement pratiques que cette petite entorse vous est plus que pardonnée!).
1. Congruence entre les deux arbres
-> Décrivez la topologie de chacun des arbres: quels différents groupes monophylétiques observez-vous?
-> Est-ce que les deux arbres racontent la même histoire évolutive?
-> Identifiez les points communs, ainsi que les incohérences éventuelles.
2. Cohérence avec la phylogénie des espèces de référence
-> Les groupes d'étude et extérieurs sont-ils bien séparés?
-> vos arbres phylogénétiques de gènes sont-ils cohérents avec les arbres des espèces ("arbre de la vie")?
-> repérez tout écart avec la phylogénie de référence, et proposez des hypothèses (HGT, duplication de gènes...)
3. Prédiction de l'origine taxonomique de l'ORF
-> Dans quelle groupe monophylétique semble émerger la séquence métagénomique?
-> faites une hypothèse: groupe taxonomique d'appartenance le plus probable de l'ORF?
-> Argumentez! Attention de ne pas sur/sous interpréter les arbres obtenus!...
RÉSULTATS BRUTS:
Légende:
|
Taxonomie
Après analyse de votre arbre phylogénétique, spécifiez le groupe taxonomique le plus proche (par exemple "Alphaproteobacteria") dont semble être issu l'organisme qui porte votre fragment d'ADN. Pour ce faire deux solutions:
- indiquez dans le champ "identifiant numérique NCBI" le code taxonomique du groupe taxonomique (par exemple 204455 pour Rhodobacterales, code que l'on trouve dans le fiches GENBANK de séquences à la ligne /db_xref="taxon:204455")
- indiquez le nom scientifique exact de cet organsime (par ex Rhodobacterales) dans le champ "Nom scientifique".
Après l'enregistrement de vos annotations, vérifiez que celui des deux champs que vous n'avez pas renseigné s'est bien automatiquement rempli; par exemple si vous avez choisi d'indiquer "Alphaproteobacteria" dans le champ "Nom scientifique", après enregistrement vous devez voir s'afficher automatiquement le code "28211" dans le champ "identifiant numérique NCBI" (et inversement).
Notez que le champ "identifiant numérique NCBI" a précédence sur le champ "Nom scientifique"; donc si vous souhaitez changer d'organisme, il faut effacer le code numérique dans le champ "identifiant numérique NCBI" quand vous souhaitez modifier le contenu du champ "Nom scientifique"!
Quand la taxonomie est correctement spécifiée, s'affiche alors son linéage:
Rhodobacterales
Rank: order - Genetic Code: Bacterial and Plant Plastid - NCBI Identifier: 204455
Kingdom: Bacteria - Phylum: Proteobacteria - Class: Alphaproteobacteria - Order: Rhodobacterales
Bacteria; Proteobacteria; Alphaproteobacteria; Rhodobacterales;
IMPORTANT: à moins que votre fragment de séquence soit 100% identique à une séquence présente dans GENBANK, ne spécifiez pas un nom d'espèce précis. Puisque l'origine exacte de ce fragment est essentiellement inconnue, spécifiez plutôt le groupe taxonomique du noeud immédiatement au dessus de votre ORF dans l'arbre phylogénétique.
Processus Biologique & Fonction Moléculaire
Lorsque vos analyses in silico (BLAST, INTERPRO) le permettent, choisissez dans les menus déroulants les termes les plus appropriés et décrivant le plus spécifiquement possible votre ORF. Ces termes font partie d'une liste exhaustive et hierarchique de termes permettant de décrire toutes les activités cellulaires: il s'agit de la "Gene Ontology", souvent cités comme les annotations GO.
- Fonction Moléculaire: activité biochimique de la protéine (ex. kinase)
- Processus Biologique: rôle de cette activité dans la cellule (ex. transduction du signal)
Ces annotations GO étant fréquemment assignées aux gènes connus dans les banques de données publiques telles que SWISSPROT ou INTERPRO, n'hésitez pas à vous en inspirer des annotations GO des homologues de vos ORFs ou de ses domaines conservés pour choisir les termes GO les plus appropriés.
Conclusion
Ce champ sera central à votre évaluation: synthétisez dans ce champ vos interprétations et hypothèses bâties sur la base des observations faites dans les rubriques précedentes "ANALYSE DES RÉSULTATS". Imaginez que vous vous adressez à un jury a priori sceptique qu'il faut convaincre! Argumentez, faites référence aux résultats obtenus, chiffrez vos affirmations, croisez les indices, soyez attentif à votre vocabulaire; les analyses bioinformatiques ne peuvent rien démontrer, donc attention aux formules du type "La séquence GOS_12345 provient d'une alphaprotéobactérie de type XYZ". Séparez les faits, vos observations et vos hypothèses ("probablement", "suggère", "putatif")...
Vérifiez que vous avez au moins couvert:
- les arguments en support votre hypothèse codant ou non-codant; discutez de la position de départ de l'ORF (consultez la FAQ pour les subtilités et erreurs classiques à ce sujet)!
- vos prédictions sur la fonction de la protéine, tant au niveau des éventuels méchanismes biochimiques (ex. "enzyme de conjugaison de l'ubiquitine ..."), qu'au niveau plus large du rôle biologique au sein de l'organisme (ex. "rôle dans le contrôle du cycle cellulaire..."). Utilisez pour les prédictions de fonction les annotations disponibles pour les homologues de votre ORF dont la fonction est connue, par exemple dans les fiches SWISSPROT ou encore les fiches descriptive des domaines PFAM/INTERPRO.
- votre hypothèse sur la classification taxonomique de l'organisme portant ce fragment d'ADN
Ce qu'il ne faut pas faire:
- expliquer le fonctionnement ou les objectifs théoriques des logiciels utilisés (considérez que le lecteur connait parfaitement la bioinformatique!)
- expliquer sur quel bouton vous avez cliqué (considérez que le lecteur sait très bien comment on lance un BLAST en ligne)
- écrire en style SMS
- délayer, enrober, étirer, en somme espérer une évaluation au poids...
- répéter in extenso les résultats bruts alors que déjà présentés dans les champs idoines
- écrire tout d'un bloc sans aucune structure
- cloisonner chaque analyse (vous pouvez, vous devez faire référence à l'alignement multiple lorsque vous discutez des extrémités de votre ORF)
- conclure directement sans aucune référence à des observations
- présenter des hypothèses sans arguments circonstanciés et précis
- rester vague, par exemple citer des homologues du BLAST ou des domaines conservés sans donner leurs E-values
Produisez avant tout un argumentaire scientifique, synthétique, complet, rigoureux, chiffré, structuré et implaccable.
Correction
La qualité de l'annotation de chaque lot des paniers de chaque étudiant sera notée. La note de TD globale de l'étudiant sera fonction à la fois de:
- la difficulté des lots de séquences attribués (les séquences ne présentant pas de difficultés particulières compteront moins dans le calcul de la note finale que les séquences ayant requis plus d'efforts pour arriver à aller jusqu'au bout des annotations)
- la qualité des annotations (exactitude, richesse, argumentation, rédaction)
Demandez de l'aide si nécessaire, soyez organisés (marques pages, onglets) et surtout n'attendez pas la veille de la fermeture pour annoter!
Annotation evaluation check list
To help you anticipate potential annotation pitfalls, here is a (non comprehensive) list of the most common criticisms made about annotations submitted for evaluation:
| Analysis | Category | Criticism |
| ORF | ORF | |
| ORF | ORF | Erreurs de calcul dans les tailles des ORF et des polypeptides |
| ORF | ORF | Mauvaise classification d'un ORF |
| ORF | ORF | Mauvaise classification d'un ORF : relire les règles du jeu |
| ORF | ORF | Quand vous avez choisi "any codon" en initiation, ne soyez pas surpris si votre ORF ne commence pas par un codon d'inititation! |
| ORF | ORF | Taille du polypeptide erronée quand il ne présente pas de codon STOP |
| ORF | ORF | Texte de l'analyse des résultats incohérent avec la table 1. |
| ORF | ORF | Vous mélangez les extrémités 5' et 3' |
| ORF | analysis | Absence d'analyse des résultats de recherche d'ORF |
| ORF | analysis | Analyse des résultats incomplète |
| ORF | analysis | Analyse des résultats incomplète (nb d'ORF putatifs, incomplet en 5'/3'?, choix de l'ORF) |
| ORF | analysis | Classifiez chaque ORF parmi: Faux Positif, ORFan, Novel, Known ! |
| ORF | analysis | Des informations manquantes dans la table 1 |
| ORF | analysis | Discutez de la position de début de l'ORF en fonction des analyses ultérieures |
| ORF | analysis | Discutez si les autres ORF "moins longs" paraissent significatifs ou insignifiants |
| ORF | analysis | Discutez spécifiquement de la position de début de votre ORF (complet/incomplet en 5', position probable du codon d'initiation etc.) |
| ORF | analysis | Erreur de calcul dans la taille des ORF |
| ORF | analysis | Justifiez les classifications des ORFs (KNOWN, NOVEL, ORFan, FP) |
| ORF | analysis | Les ORFS sans homologues dans NR sont soit des faux positifs, soit des ORFans |
| ORF | analysis | Les proportions dans le diagramme schématique de répartition des ORFs ne sont pas respectées (utilisez une police de caractère dite "monospace") |
| ORF | analysis | Lot non-codant improbable vu la longueur des ORF! |
| ORF | analysis | Mentionnez la longueur de l'ORF que vous avez sélectionné |
| ORF | analysis | ORF inexact (contient des codons stop, ORF n'est pas le plus long ...) |
| ORF | analysis | Quand vous avez choisi "any codon" en initiation, ne soyez pas surpris si votre ORF ne commence pas par un codon d'inititation! |
| ORF | analysis | Un ORF "any codon" débutant à plus de 3pb de l'extrémité ne peut pas être incomplet en 5' (car codon stop en amont)! |
| ORF | analysis | Un ORF commençant à la position 1, 2 ou 3 a de fortes chances d'être incomplet. Faire une recherche avec l'option xtg n'a alors pas de sens. |
| ORF | analysis | Une description generale du panorama des ORFs obtenus serait la bienvenue - relire les règles du jeu. |
| ORF | analysis | Une description generale du panorama des ORFs obtenus serait la bienvenue - relire les règles du jeu. |
| ORF | blast | Nombre d'alignements BLAST erroné : limitez-vous à ceux dont la e-value est < 1e-10 |
| ORF | results | Discutez de la position de fin de l'ORF en fonction des analyses ultérieures |
| ORF | results | Distinguez les deux protocoles avec un "a)" et un "b)" que vous reporterez aussi dans la partie résultats bruts pour identifier chaque résultat distinct. |
| ORF | results | Faites un tableau de synthèse des ORF détectés (cf les Règles du Jeu) |
| ORF | results | Il manque les résultats bruts d'une recherche d'ORF débutant par un codon d'initiation |
| ORF | results | Manque le protocole (brin, codons initiation, code génétique...) |
| ORF | results | N'affichez dans ORF finder que les ORF ayant une taille > 60 aa |
| ORF | results | Protocole incomplet ou mal présenté |
| ORF | results | Protocole: indiquez l'URL de l'outil utilisé. |
| ORF | results | Résultats incomplets (manque un brin, manque codons initiation alternatifs…) |
| ORF | results | Schéma des ORFS: attention, les positions des ORFs sur le brin reverse se comptent à partir de la "fin" du fragment! |
| ORF | results | Une analyse des biais de fréquences de nucléotides serait utile (ex SMS->DNA Stats) |
| ORF | results | manque les valeurs de certains paramètres de l'analyse de recherche d'ORF |
| blast | analysis | Analyse incomplète des données BLAST (nb de hits, gamme des e-value, distribution des HSP sur la séquence query…) |
| blast | analysis | Comparez les prédictions fonctionnelles par domaines conservés (INTERPRO) et les fonctions des homologues BLAST |
| blast | analysis | Décrivez qualitativement et quantitativement les meilleurs alignements 2 à 2 |
| blast | analysis | Faites un tableau de synthèse des homologues détectés par BLAST (cf les Règles du Jeu) |
| blast | analysis | Les fiches SWISSPROT des homologues mentionnent-elles des acides aminés ou domaines essentiels pour l'activité de la protéine? |
| blast | analysis | Pas d'analyse des informations fonctionnelles à partir des homologues par blast |
| blast | analysis | Rassemblez sous "PROTOCOLE" la liste de tous les protocoles utilisés (cf les règles du jeu) |
| blast | analysis | Vous confondez "homologie" et "similarité" !! |
| blast | analysis | Vous confondez le minimum et le maximum du E-value |
| blast | analysis | Vous devez proposer un seuil de E-value/score au delà dequels les protéines alignées par BLAST ne sont probablement plus des homologues |
| blast | blast | Erreur de méthodologie |
| blast | blast | Nombre d'alignements BLAST erroné : limitez-vous à ceux dont la e-value est < 1e-10 |
| blast | blast | Protocole incomplet |
| blast | blast | Protocole incomplet. Pensez à préciser la banque de données interrogée. |
| blast | results | BLAST contre SWISSPROT? |
| blast | results | D'autres BLAST auraient été pertinents (SP/NR, BLASTx, modifications de paramètres ...) |
| blast | results | Distinguez les multiples protocoles avec des "a)", "b)" etc. que vous reporterez aussi dans la partie résultats bruts pour identifier chaque résultat distinct. |
| blast | results | Manque le protocole (type de blast / banque) |
| blast | results | Mauvaise présentation (liste des séquences incomplète, trop (ou manque) alignements 2 à 2, erreur copier/coller…) |
| blast | results | Protocole incomplet ou mal présenté |
| blast | results | Protocole: indiquez l'URL de l'outil utilisé. |
| blast | results | Trop d'alignements 2 à 2! |
| blast | taxonomy | Choix des homologues non pertinent (groupes non représentés, sureprésentés…) |
| blast | taxonomy | Discutez du différentiel de score/E-value BLAST entre les séquences du groupe d'étude et du groupe extérieur |
| blast | taxonomy | Discutez votre choix de groupe d'étude |
| blast | taxonomy | Décrire aussi comment les E-values sont répartis entre les taxa |
| blast | taxonomy | Faites un tableau de synthèse des groupes taxonomiques avec la gamme des E-values (cf les Règles du Jeu) |
| blast | taxonomy | Il faut mettre la liste des séquences sélectionnées pour l'alignement multiple, avec leur score et evalue (cf. règles du jeu) |
| blast | taxonomy | Incluez le BLAST "LINEAGE REPORT" (pas les ORGANISM ou autres reports) |
| blast | taxonomy | Le BLAST "Taxonomy LINEAGE report" suffit ("Organism Report" superflu) |
| blast | taxonomy | Le BLAST "Taxonomy lineage report" contre NR est généralement suffisant (qu'apprenez-vous de plus avec le TR contre SWISSPROT?) |
| blast | taxonomy | Le BLAST "Taxonomy lineage report" contre la banque ENV_NR n'a par définition aucun sens |
| blast | taxonomy | Le tableau de synthèse du Tax Report doit inclure tous les phylums avec des homologues (quite à s'en tenir au phylum sans classe ou ordre pour les derniers de la liste) |
| blast | taxonomy | Listez pour chaque groupe taxonomique principal les E-values min et max ainsi que le nombre approximatif de hits |
| blast | taxonomy | Mauvais choix / non justification du choix du groupe extérieur |
| blast | taxonomy | Pas de description du taxonomy lineage report (groupes trouvés, avec leurs gamme de scores etc.) |
| blast | taxonomy | Pour trouver un groupe extérieur, il faut refaire un BLAST en demandant plus de 100 alignements (250, voire 500 ou plus) |
| blast | taxonomy | Précisez la taxonomie, le e-value et le nom des séquences retenues pour les groupes d'étude et extérieur, mais pas les formats FASTA complets |
| blast | taxonomy | Rapport taxonomique non fait |
| blast | taxonomy | Refaire un BLAST en augmentant le nombre de hits à afficher de 100 à 250, voire 500 ou plus, afin de cerner correctement le paysage des homologues |
| blast | taxonomy | Une petite description générale du panorama des homologues en introduction aurait été bienvenue:) |
| conclusion | Problème de concision et de sens dans la conclusion. | |
| conclusion | Structurez votre conclusion de façon synthétique, surtout pas de structure chronologique! | |
| conclusion | ORF | Précisez si votre ORF est complet; proportion d'AA manquant (cf alignement multiple) |
| conclusion | blast | Mauvaise (ou absence d') interpretation des resultats Blast |
| conclusion | blast | Pas d'analyse des informations fonctionnelles exploitables grace aux homologues BLAST |
| conclusion | blast | Vous confondez "homologie" et "similarité" !! |
| conclusion | divers | Justifiez votre proposition de symbole de gène ! |
| conclusion | divers | Veuillez rédiger la conclusion |
| conclusion | domains | Absence de comparaison entre les infos trouvées dans interpro et chez les homologues |
| conclusion | domains | Incompréhension du principe d'InterPro |
| conclusion | hypotheses | Justifiez vos choix de termes de la Gene Ontology |
| conclusion | hypotheses | Justifiez votre proposition de symbole de gène! |
| conclusion | hypotheses | Pas de prédiction d'une fonction putative |
| conclusion | hypotheses | Soyez plus précis et rigoureux, chiffrez, cites les E-value etc. |
| conclusion | results | Il manque le symbole de gène |
| conclusion | taxonomy | Pas de comparaison des infos du taxonomy report avec les informations taxonomiques obtenues avec interpro |
| divers | divers | Mauvaise classification d'un ORF |
| divers | divers | Veuillez rédiger l'interprétation des résultats |
| divers | divers | le formatage des polices de caractères des arbres ne permet pas de bien lire leur topologie (choisissez une police dite "monospace") |
| domains | analysis | Absence ou mauvaise interprétation fonctionnelle à partir des fiches interpro trouvées |
| domains | analysis | Attention, les hypothèses fonctionnelles ne se définissent pas qu'avec InterPro; croisez avec les fonctions des homologues trouvés par BLAST! |
| domains | analysis | Certains domaines, listés dans les résultats bruts, ne font l'objet d'aucun commentaire? |
| domains | analysis | Citez vos sources (par exemple en donnant l'URL de la fiche INTERPRO d'où vous tirez des infos fonctionnelles) |
| domains | analysis | Discutez des E-values des prédictions de domaines |
| domains | analysis | Donnez quelques détails sur la fonction biologique prédite |
| domains | analysis | Expliquez pourquoi vous avez retenu ce domaine protéique conservé en particulier (et pas les autres) |
| domains | analysis | Mauvaise identification des domaines (vrais positifs non annotés, domaines redondants, non significatifs…) |
| domains | analysis | Vous avez indiqué des domaines redondants dans le tableau des domaines retenus. |
| domains | analysis | Vous devez renseigner dans le tableau idoine les informations relatives au(x) domaine(s) que vous retenez après l'analyse des résultats. |
| domains | domains | Incohérence entre la table 2 et le texte |
| domains | domains | Mauvaise description du protocole |
| domains | domains | Recherche des domaines protéiques non faite |
| domains | domains | Résultats bruts incomplets |
| domains | domains | Table 2 manquante |
| domains | results | L'intitulé de la banque d'origine doit être le numéro d'accession du domaine que s'il n'y a pas d'intitulé fonctionnel |
| domains | results | La Désignation des domaines doit correspondre à leur fonction, pas leur numéro d'accession |
| domains | results | Mauvaise présentation des résultats des domaines |
| domains | results | Protocole: indiquez l'URL de l'outil utilisé. |
| domains | results | Tous les domaines prédits doivent apparaitre au tableau de synthèse (éventuellement regroupez les domaines répétés avec une liste de paires début-fin) |
| domains | results | Vous n'avez pas listé les résultats bruts d'InterPro scan |
| molecular weight | On ne peut pas calculer de poids moléculaire sur une protéine incomplète | |
| molecular weight | divers | Poids moléculaire erroné : à recalculer |
| molecular weight | results | Calcul non fait ou calcul non pertinent (en cas d'ORF partielle) |
| multiple aln | Vous devez aligner les séquences du groupe d'étude et celles du groupe extérieur ensemble | |
| multiple aln | ORF | Erreur d'interpétation de la position de début (trop court ou trop long en 5') |
| multiple aln | analysis | Absence d'analyse de l'alignement multiple (=> informations sur la reconstruction phylogénétique) |
| multiple aln | analysis | Absence d'analyse de l'alignement multiple (régions conservées/divergentes, cohérence avec domaines INTERPRO...) |
| multiple aln | analysis | Alignement multiple non fait |
| multiple aln | analysis | Confrontez les positions fortement conservées avec les acides aminés annotés comme ayant des rôles identifiés dans les fiches SWISSPROT des homologues. |
| multiple aln | analysis | Description de l'alignement trop générique, faites des références précises et chiffrées vers l'alignement |
| multiple aln | analysis | Description de l'alignement trop générique, faites des références précises et chiffrées vers l'alignement (nombre de positions 100% identiques, de positions avec des substitutions conservatives)! |
| multiple aln | analysis | Il manque l'alignement filtré par GBLOCKS ! |
| multiple aln | analysis | Nombre & répartition des INDELS à travers l'alignement multiple? |
| multiple aln | analysis | Pas de discussion sur la position de début de votre ORF par rapport aux homologues |
| multiple aln | analysis | Précisez le nombre approximatif d'AA manquants aux extrêmités incomplètes de votre ORF |
| multiple aln | analysis | Rassemblez sous "PROTOCOLE" la liste de tous les protocoles utilisés (cf les règles du jeu) |
| multiple aln | analysis | Revoir l'analyse des résultats. |
| multiple aln | analysis | Spécifiez le nombre d'acides aminés identifiés par GBLOCKS comme convenablement alignés |
| multiple aln | analysis | Toutes les séquences sont-elles de longueur similaire? |
| multiple aln | divers | Un seul alignement multiple suffit |
| multiple aln | results | Alignement multiple contient des séquences trop partielles |
| multiple aln | results | Alignement multiple contient à la fois des séquences nucleotidiques et protéiques |
| multiple aln | results | Aln multiple peu convainquant: semble contenir des séquences non-homologues ou trop distantes pour être alignables |
| multiple aln | results | Identifiez avec des codes (ex A, B, C...) les régions d'intéret directement dans l'alignement multiple, puis faites-y référence dans votre texte! |
| multiple aln | results | Les séquences au format FASTA ou les alignements hors format CLUSTAL doivent aller dans le BLOC NOTE! |
| multiple aln | results | Manque votre ORF... |
| multiple aln | results | Mauvaise présentation de l'alignement multiple (format CLUSTAL demandé, nom des séquences...) |
| multiple aln | results | Plusieurs séquences identiques |
| multiple aln | results | Protocole incomplet ou mal présenté |
| multiple aln | results | Présence de séquences non homologues |
| multiple aln | results | Trop peu de positions fiablement alignées identifiées par GBLOCKS! Refaites GBLOCKS en optant pour les paramètres moins stringent (sauf autoriser les INDELS). |
| multiple aln | results | Vous devez inclure l'alignment multiple après "curation" par GBlocks (avec les positions retenues pour la phylogénie annotées) |
| ontologies | analysis | Mauvais choix de la fonction moléculaire |
| ontologies | analysis | Mauvais choix du processus biologique |
| ontologies | analysis | Pas d'attibution de fonctions GO |
| ontologies | analysis | Processus biologique erroné |
| ontologies | divers | Il manque la fonction moléculaire |
| phylogeny | Faites un seul arbre pour le groupe d'étude et le groupe extérieur (et non des arbres séparés pour chaque groupe) | |
| phylogeny | L'ORF ne peut pas venir du groupe extérieur ! (contradiction : revoir la définition d'un groupe extérieur) | |
| phylogeny | N'oubliez pas de calculer les supports statistiques | |
| phylogeny | Phylogénie non faite | |
| phylogeny | analysis | Discutez des valeurs de support/robustesse aux noeuds/branches! |
| phylogeny | analysis | Identifiez les branches importantes dans vos arbres avec des codes (ex "A", "B"...), puis référez-vous à ces codes dans vos analyses! |
| phylogeny | analysis | Il est possible de faire une assignation taxonomique plus précise |
| phylogeny | analysis | L'assignation taxonomique retenue est large, est-il possible de faire une assignation taxonomique plus précise? |
| phylogeny | analysis | Mauvaise identification des séquences orthologues/paralogues et événements de spéciation/duplication à chaque nœud |
| phylogeny | analysis | Mauvaise interprétation de l'arbre (mauvaise identification de l'homologue le plus proche, non détection de HGT…) |
| phylogeny | analysis | Pas d'analyse sur la congruence ou non entre les différentes versions des arbres? |
| phylogeny | analysis | Pas d'identification du groupe taxonomique auquel pourrait appartenir l'organisme d'où provient la séquence |
| phylogeny | analysis | Pas de discussion sur la topologie de l'arbre: cohérent avec taxonomie? Congruence si plusieurs arbres? |
| phylogeny | analysis | Vous devez discuter de la cohérence des arbres des gènes avec l'arbre des espèces de référence |
| phylogeny | analysis | la cohérence avec l'arbre des espèces ("arbre de la vie") ne se limite pas à la séparation du groupe d'étude et du groupe extérieur: tous les niveaux taxonomiques doivent être regroupés... |
| phylogeny | results | Ajoutez sur l'arbre après le nom de la séquence le groupe taxonomique entre crochets [alpha-protéobactéries] |
| phylogeny | results | Distinguez les deux protocoles avec un "a)" et un "b)" que vous reporterez aussi dans la partie résultats bruts pour identifier chaque résultat distinct. |
| phylogeny | results | Identifiez les groupes taxonomiques principaux dans vos arbres en utilisant des codes couleurs (cf. règles du jeu) |
| phylogeny | results | Les proportions dans les arbres ne sont pas respectées (utilisez une police de caractère dite "monospace") |
| phylogeny | results | Manque arbre par NJ ou Parcimonie |
| phylogeny | results | Manque le protocole (type de méthode: NJ ou parcimonie, groupe ext ...) |
| phylogeny | results | Mauvaise présentation (étiquettes des feuilles pas de la forme 'Ecolix'...) |
| phylogeny | results | Protocole incomplet ou mal présenté |
| phylogeny | results | Vos arbres doivent être enracinés sur votre groupe extérieur |
| phylogeny | results | Votre arbre PhyML doit présenter les valeur de support/robustesse aux noeuds/branches! |
| phylogeny | taxonomy | Analyse NJ à recommencer en calculant les valeurs de bootstrap. |
| phylogeny | taxonomy | Choisissez le groupe taxonomique le plus probable pour votre ORF (pas la définition exacte de son homologue le plus proche) |
| phylogeny | taxonomy | Définissez le groupe taxonomique le plus probable pour votre ORF (remplissez le champ "Taxonomie") |
| phylogeny | taxonomy | Erreur dans le choix de groupe taxonomique d'appartenance |
| phylogeny | taxonomy | Les noms de groupes ajoutés dans l’arbre ne sont pas pertinents (bacteria, enterobacteria…) |
| writing | Concision dans la redaction de la conclusion | |
| writing | Conclusion pouvant être mieux structurée | |
| writing | Dans tout le texte, les phrases doivent commencer par des majuscules! | |
| writing | Dans tout le texte, les phrases se terminent par des points! | |
| writing | Dans tout le texte, les ponctuations doivent être suivies d'un espace! | |
| writing | Les possessifs excessifs sont à proscrire! Par exemple ne jamais écrire "Notre ORF..." | |
| writing | Manque de rigueur. Argumentez vos hypothèses! Chiffrez! Citez des résultats précis! | |
| writing | Orthographe / rédaction insuffisantes | |
| writing | Respectez la présentation recommandée pour les cadres RESULTATS (cf Règles du jeu) | |
| writing | analysis | Numérotez et donnez un titre à toutes vos tables. |
| writing | divers | Dans tout le texte, seules les ponctuations doubles ( : ; ? ! ) peuvent être précédées d'un espace ! |
| writing | divers | Dans tout le texte: relisez vous et corrigez les fautes d'orthographe |