Ensamblado del genoma

  • En general, salvo excepciones, siguiendo la tendencia hacia un core basado en short reads, los últimos 20 genomas de plantas fueron ensamblados utilizando la plataforma SOAPdenovo.
  • En algunos casos, como en Naranja, previo al assembly se procesaron las reads mediante la plataforma QUAKE que utiliza la frecuencia de k-mers, así como el valor de la calidad de pares de bases para corregir, recortar o eliminar lecturas erróneas. En el caso de Capsicum se removieron las raw reads con homología a los 1045 genomas de bacterias disponibles con CLC antes de proceder al ensamblado.
  • Eventualmente, de acuerdo a disponibilidad de HPC, se puede pre-combinar las overlapping PE reads con PEARCOPread, o SeqPrep.
  • El módulo gap-filler de SOAP (o el Scaffolder OPERA, o el serial scaffolding SSPACE) para integración de scaffolds a través de las bibliotecas short, medium, y long jump es esencial en el proceso y sube el N50 de los contigs iniciales entre ~2 y ~4 órdenes de magnitud.
  • Es necesario explorar (o desarrollar) alternativas de visualización de datasets genómicas como el Genomics Viewer del Broad Institute.
Más en esta categoría: