Estimación del tamaño del genoma

  • Luego de un umbral de cobertura, aa frecuencia de K-mers (17-mers o 19-mers) sigue teóricamente una distribución de Poisson, lo que permite utilizarla como un método eficiente de medición de tamaño genómico. Para esto se utiliza la formula Genoma = (N× (L-K+1)-B)/D donde N es el número total de reads, L es la longitud media de las reads, y K es la longitud K-mer. B es el número total de K-mers de baja frecuencia (<= 1). D es la profundidad total, estimada a partir de la distribución del K-mer. El conteo de k-mer puede realizarse con Jellyfish.
  • La estrategia anterior se complementará con el uso de Bowtie+Samtools+scripting, para estimar el tamaño en base a contigs de gran cobertura y porcentaje de reads mapeados.
Más en esta categoría: