Navigation

 ·   Wiki Home
 ·   Data Processing
 ·   Hemileia vastatrix
 ·   Hypothenemus hampei
 ·   Coffea
 ·   Beauveria bassiana
 ·  
 ·   Title List
 ·   Uncategorized Pages
 ·   Random Page
 ·   Recent Changes
 ·   Wiki Help
 ·   What Links Here

Active Members:

Search:

 

Create or Find Page:

 

View Maker results

In this page you find information about the results of maker execution on coffee rust. Actually we make only preliminary tests of Maker and majority of text are in Spanish. We will translate this next months.

Fase I: Prueba Preliminar de MAKER para la Anotación de Roya

OVERVIEW

Ideal features of pipeline annotation are:

Easy to configure and install. Little bioinformatics requirements. Synthesis of repeats, align ESTs and proteins, alternative splicing and UTRs. Synthesis of confidence levels and evidence related with predictions. Easy to configure and train for every organism. Manage of databases (i.e GMOD)

Maker is designed for de novo annotations and accomplish with this requirements. In general Maker first search for repeats, align ESTs and proteins to Genome sequences and use genes predictors. Then, synthesize and integrates data and output genes that are protein coding.

OBJETIVO GENERAL

Utilizar el programa MAKER para realizar una anotación funcional de secuencias de Roya (Hemileia vastatrix).

OBJETIVOS ESPECÍFICOS

Realizar la anotación con el programa MAKER.
Emplear herramientas de visualización con la información obtenida tales como Apollo y Gbrowse.

MATERIALES Y METODOS

Para realizar la anotación se partió de 45224 contigs (secuencias ensambladas con Newbler de Roche). Estos contigs provienen de secuencias genómica deH. vastatrix obtenidas de librerías clonadas al azar (shotgun) con el método de secuenciación 454 (nombre de archivo: f3fct2j02.sff , 1.7GB). Las secuencias se encuentran almacenadas en las bases de datos de Cenicafé. De estos contigs se seleccionaron 769 que tenían una longitud mayor a 850b. Con los datos ya filtrados se utilizó el pipeline de MAKER para realizar la anotación de regiones codificantes para proteínas.

El archivo de configuración maker_opt.log a continuación resume los parámetros usados en la anotación:

#——-Genome (Required for De-Novo Annotation)
genome:/opt/data/roya/RoyaMy850.fasta #genome sequence file in fasta format #——-Re-annotation Options (Only Maker derived GFF3)
genome_gff: #re-annotate genome based on this gff3 file
est_pass:0 #use ests in genome_gff: 1 = yes, 0 = no
altest_pass:0 #use alternate organism ests in genome_gff: 1 = yes, 0 = no
protein_pass:0 #use proteins in genome_gff: 1 = yes, 0 = no
rm_pass:0 #use repeats in genome_gff: 1 = yes, 0 = no
model_pass:1 #use gene models in genome_gff: 1 = yes, 0 = no
pred_pass:0 #use ab-initio predictions in genome_gff: 1 = yes, 0 = no
other_pass:0 #passthrough everything else in genome_gff: 1 = yes, 0 = no

#——-EST Evidence (you should provide a value for at least one)
est:/opt/data/puccinia/pucciniaESTs.fasta #non-redundant set of assembled ESTs in fasta format (classic EST analysis)
est_reads: #unassembled nextgen mRNASeq in fasta format (not fully implemented)
altest: #EST/cDNA sequence file in fasta format from an alternate organism
est_gff: #EST evidence from an external gff3 file
altest_gff: #Alternate organism EST evidence from a seperate gff3 file

#——-Protein Homology Evidence (you should provide a value for at least one)
protein:/opt/data/uniref/uniref100.fasta #protein sequence file in fasta format
protein_gff: #protein homology evidence from an external gff3 file

#——-Repeat Masking (leave values blank to skip)
model_org:all #model organism for RepBase masking in RepeatMasker
repeat_protein:/opt/maker/data/te_proteins.fasta #a database of transposable element proteins in fasta format
rmlib: #an organism specific repeat library in fasta format
rm_gff: #repeat elements from an external gff3 file

#——-Gene Prediction Options
organism_type:eukaryotic #eukaryotic or prokaryotic. Default is eukaryotic
predictor:est2genome #prediction methods for annotations (seperate multiple values by ‘,’)
unmask:0 #Also run ab-initio methods on unmasked sequence, 1 = yes, 0 = no
snaphmm: #SNAP HMM model
gmhmm: #GeneMark HMM model
augustus_species: #Augustus gene prediction model
fgenesh_par_file: #Fgenesh parameter file
model_gff: #gene models from an external gff3 file (annotation pass-through)
pred_gff: #ab-initio predictions from an external gff3 file

#——-Other Annotation Type Options (features maker doesn’t recognize)
other_gff: #features to pass-through to final output from an extenal gff3 file

#——-External Application Specific Options
alt_peptide:C #amino acid used to replace non standard amino acids in blast databases
cpus:2 #max number of cpus to use in BLAST and RepeatMasker

#——-Maker Specific Options
evaluate:0 #run Evaluator on all annotations, 1 = yes, 0 = no
max_dna_len:100000 #length for dividing up contigs into chunks (larger values increase memory usage)
min_contig:1 #all contigs from the input genome file below this size will be skipped
min_protein:0 #all gene annotations must produce a protein of at least this many amino acids in length
softmask:1 #use soft-masked rather than hard-masked seg filtering for wublast
split_hit:10000 #length for the splitting of hits (expected max intron size for evidence alignments)
pred_flank:200 #length of sequence surrounding EST and protein evidence used to extend gene predictions
single_exon:0 #consider single exon EST evidence when generating annotations, 1 = yes, 0 = no
single_length:250 #min length required for single exon ESTs if ‘single_exon is enabled’
keep_preds:0 #Add non-overlapping ab-inito gene prediction to final annotation set, 1 = yes, 0 = no
map_forward:0 #try to map names and attributes forward from gff3 annotations, 1 = yes, 0 = no
retry:1 #number of times to retry a contig if there is a failure for some reason
clean_try:0 #removeall data from previous run before retrying, 1 = yes, 0 = no
clean_up:0 #removes theVoid directory with individual analysis files, 1 = yes, 0 = no
TMP: #specify a directory other than the system default temporary directory for temporary files

#——-EVALUATOR Control Options
side_thre:5
eva_window_size:70
eva_split_hit:1
eva_hspmax:100
eva_gspmax:100
enable_fathom:0

Con los parámetros y programas usados Maker solo realiza anotaciones de regiones codificantes para proteínas. Se usaron 31801 ESTs del género Puccinia3 como fuente de evidencia de ESTs y como fuente de evidencia proteica se utilizó la bases de datos Uniref1004.
Se diseño un pequeño script statmaker.sh (programado en bash) que filtró las secuencias para obtener solo aquellas con alguna anotación relacionada con proteínas. Para visualizar los contigs y sus anotaciones se empleó la aplicación Apollo.

Se seleccionarón las secuencias anotadas de mayor longitud para visualizarlas con la aplicación Apollo3.

RESULTADOS

De los contigs utilizados 564 presentaron algun tipo de información, 393 presentaron anotación de proteínas (Blastx) y 550 presentaron repeticiones. En el sitio FTP del grupo s encuentran los listados de contigs anotados5. Las proteinas anotadas solo aparecen con el número de acceso, más no que elñ nombre se ésta revisando si es un problema de configuración de Maker. En la Figura 1 se muestra una salida de Apollo con el contig 360 y su proteína correspondiente.

Como perspectivas la ejecución del pipeline realizada servirá para entrenar el predictor de genes SNAP siguiendo la metodología recomendada por los autores de MAKER. Además, se revisará si es posible realizar la anotación con nombres de proteínas y datos del organismo. Por último, se requiere compararlo con otros anotadores como Blast2Go.

apolo.png

Figura 1. Visualización del contig360 en Apollo con su correspondiente proteína hallada por blastx.

REFERENCIAS

1. Brandi L. Cantarel, Ian Korf, Sofia M.C. Robb, Genis Parra, Eric Ross, Barry Moore, Carson Holt, Alejandro Sánchez Alvarado, and Mark Yandell. MAKER: an easy-to-use annotation pipeline designed for emerging model organism genomes. Genome Res. 2008 January; 18(1): 188–196. Disponible en: http://www.yandell-lab.org/software/maker.html

2. SE Lewis, SMJ Searle, N Harris, M Gibson, V Iyer, J Richter, C Wiel, L Bayraktaroglu, E Birney, MA Crosby, JS Kaminker, BB Matthews, SE Prochnik,, CD Smith, JL Tupy, GM Rubin, S Misra, CJ Mungall and ME Clamp. Apollo: a sequence annotation editor. Genome Biology, 3, 2002. Disponible en: http://www.ensembl.org/apollo

3. Database of Puccinia graminis tritici ESTs: http://www.broadinstitute.org/annotation/genome/puccinia_group/MultiDownloads.html

4. ftp://ftp.ebi.ac.uk/pub/databases/uniprot/uniref/uniref100/

5. ftp://bioinformatics.cenicafe.org