Uso de secuenciación portátil para el diagnóstico de plagas y enfermedades Alejandra Gil-Ordóñez Ana María Leiva Wilmer Cuéllar Laboratorio de Virología y Protección de Cultivos Programa de Yuca, Área de Investigación en Cultivos para la Nutrición y la Salud Chachapoyas, Perú. Febrero 9, 2024. a.gil@cgiar.org Diseño experimental y requerimientos Consideraciones finalesIntroducción Objeto de estudio: microbiota vegetal 2 Métodos de diagnóstico Diseño experimental y requerimientos Consideraciones finalesIntroducción 3 4 Métodos de secuenciación 1era generación Sanger 2da generación Illumina (short reads) 3ra generación Oxford Nanopore, PacBio (long reads) Next generation sequencing (NGS) Secuenciación masiva Diseño experimental y requerimientos Consideraciones finalesIntroducción 5 Únicos dispositivos portátiles para la secuenciación de ADN y ARN en tiempo real Cada flow cell puede producir hasta 50 Gb de datos. Esto significa poder secuenciar más de 250 veces 96 virus de ~30 kb (SARS-CoV-2). Lecturas de cortas a extralargas (>4 Mb) Oxford Nanopore Diseño experimental y requerimientos Consideraciones finalesIntroducción 6 • Tecnología basada en nanoporos por los que circula corriente iónica constante • Con la ayuda de una proteína motora, el ADN bicatenario (o híbrido ARN-ADN) se desenrolla y cada porción monocatenaria pasa a través del nanoporo impulsada por el gradiente energético Oxford Nanopore Diseño experimental y requerimientos Consideraciones finalesIntroducción 7 • En este proceso, cada nucleótido produce un cambio de voltaje característico que el equipo detecta y utiliza para determinar la identidad del nucleótido a ~450 bases por segundo • El ruido en la consistencia de la señal es corregido con el algoritmo de llamado de bases Consideraciones finales Proceso en el que se asigna una base nucleotídica según el cambio de voltaje registrado Diseño experimental y requerimientosIntroducción Llamado de base 8 Consideraciones finales • MinKNOW incluye el algoritmo de llamado de base rápido (fast basecalling). Sin embargo, es preferible realizar el llamado de bases con el algoritmo de mayor precisión (high accuracy basecalling, HAC). La especificación técnica requerida para realizar este proceso se describe en los requerimientos computacionales Diseño experimental y requerimientosIntroducción Proceso en el que se asigna una base nucleotídica según el cambio de voltaje registrado Llamado de base 9 Diseño experimental Diseño experimental y requerimientos Consideraciones finalesIntroducción 10 Pre-seq: Equipos Pre-seq: Computador Pre-seq: Software Pre-seq: Consideraciones sobre la calidad de ADN/ARN Pre-seq: Preparación de la librería In-seq: Consideraciones en la carga de la librería, el tiempo de secuenciación y el análisis simultáneo Post-seq: Análisis de datos Requerimientos Diseño experimental y requerimientos Consideraciones finalesIntroducción 11 Equipo Descripción Foto Costo (USD) El MinION Mk1B es un secuenciador de ADN/ARN portátil del tamaño de una grapa que se usa como un accesorio de computadora portátil. La compañía lo ofrece en el Basic Pack $1,000.00/ $1,400.00 El MinION Mk1C es un secuenciador portátil independiente de computadora portátil que cuenta con su propia pantalla. La compañía lo ofrece en el Basic Starter Pack $4,900.00/ $6,900.00 Diseño experimental y requerimientos Consideraciones finalesIntroducción 12 Componente Especificación requerida Producción de datos Sistema operativo Windows 10 o Linux (Ubuntu 20.04) Memoria/RAM 16 GB RAM o más CPU Intel i7 con al menos 4 núcleos/8 subprocesos Almacenamiento SSD interna de 1 TB o superior Puerto USB3.0 Software MinKNOWN Llamado de base GPU NVIDIA GPU RTX 2060 SUPER o superior, con al menos 8 GB de GPU memoria. Los ejemplos ampliamente disponibles incluyen RTX 2060 SUPER, RTX 2070, RTX 3060, RTX 3070. GPU basadas en amperios (la serie 3000, la serie A etc.) se recomiendan especialmente para un rendimiento óptimo. Si está trabajando con un tipo de GPU diferente a los modelos enumerados anterior, asegúrese de que tiene una capacidad de cómputo CUDA> 6.1 (para para obtener más información sobre las GPU habilitadas para CUDA, consulte el sitio web de NVIDIA). Computador Diseño experimental y requerimientos Consideraciones finalesIntroducción 13 Software MinKNOW Guppy EPI2ME (opcional) • Adquisición de datos • Análisis y retroalimentación en tiempo real • Llamadas de base locales • Salida de archivos en .fast5 o .fastq Contiene los algoritmos de llamado de base ONT Análisis con pipelines simplificados en la instalación y el uso de herramientas y recursos bioinformáticos para las aplicaciones de secuencias Oxford Nanopore Diseño experimental y requerimientos Consideraciones finalesIntroducción 14 Consideraciones sobre la calidad de ADN/ARN N50 es la longitud de contig más corta que debe incluirse para cubrir el 50% del genoma: La mitad de la secuencia del genoma está cubierta por contigs mayores o iguales al tamaño de contig N50. Diseño experimental y requerimientos Consideraciones finalesIntroducción 15 Preparación de librería Diferencias dependiendo de la química de secuenciación Diseño experimental y requerimientos Consideraciones finalesIntroducción 16 ADNdc (ADNc, ADNg) PCR (opcional) Reparación de extremos (end prep) Ligación de barcodes Ligación de adaptadores Carga 9 6 m u es tr as e n 3 h o ra s Preparación de librería Reparación de extremos (end prep), donde se agrega una cola dA en los extremos 3’ del ADNdc Ligación de barcodes con cola dT en los extremos con cola dA Ligación de adaptadores motores Diseño experimental y requerimientos Consideraciones finalesIntroducción 17 Verificar el número de poros disponibles (malo si <800) El tiempo determina la profundidad de secuenciación: se puede detener cuando sea necesario Solo un porcentaje de las bases es llamado cuando se detiene la ejecución El llamado de bases se deberá realizar en guppy después de recuperar archivos sin formato: muy larga en CPU clásica. Así que ejecute la GPU de clúster ¡1 día contra 1 mes! Consideraciones en la carga de la librería, el tiempo de secuenciación y el análisis simultáneo Diseño experimental y requerimientos Consideraciones finalesIntroducción 18 19 Análisis de datos Complejidad variable Diseño experimental y requerimientos Consideraciones finalesIntroducción 19 20 Análisis de datos Complejidad variable Diseño experimental y requerimientos Consideraciones finalesIntroducción 20 Windows Subsystem for Linux (WSL) - MobaXterm Sublime Text 21 Función Software Llamado de bases Guppy (https://github.com/nanoporetech/rerio) Control de calidad pycoQC (https://github.com/a-slide/pycoQC) Clasificación taxonómica Kraken2 (https://github.com/DerrickWood/kraken2) base de datos recomendad: PlusPFP (https://benlangmead.github.io/aws- indexes/k2) Mapeo o alineamiento minimap2 (https://github.com/lh3/minimap2) samtools (https://github.com/samtools) qualimap (https://github.com/EagleGenomics-cookbooks/QualiMap) Pulido de secuencia (sequence polishing) pilon (https://github.com/broadinstitute/pilon) medaka (https://github.com/nanoporetech/medaka) Anotación funcional prokka (https://github.com/tseemann/prokka) Ensamblaje de genomas artic guppyplex y artic medaka (https://github.com/artic-network) quast (https://github.com/ablab/quast) Varios Geneious, MEGAX, IGV. Análisis de datos https://long-read-tools.org/index.html Diseño experimental y requerimientos Consideraciones finalesIntroducción 21 https://github.com/DerrickWood/kraken2 https://github.com/samtools https://github.com/artic-network 22 Análisis de datos Entorno para programar y ejecutar líneas de código en el navegador Ventajas: • No requiere configuración • Acceso a GPUs sin coste adicional • Permite compartir contenido fácilmente Diseño experimental y requerimientos Consideraciones finalesIntroducción Identificación taxonómica Identificación taxonómica y funcional Ensamblaje y anotación de genomas bacterianos Nanoforms Evaluación de genomas 22 23 Análisis de datos Llamado de bases (necesario) Control de calidad (recomendado) Análisis primario (identificación taxonómica, ensamblaje, alineamiento) Análisis secundario (análisis filogenético, índices de diversidad) Análisis completo Diseño experimental y requerimientos Consideraciones finalesIntroducción 23 Mayor requerimiento de recursos computacionales (RAM, GPUs) 24 Llamado de bases: Asignar bases nucleotídicas a los cambios de corriente Control de calidad: número de lecturas, número de bases, horas de corrida, etc. Análisis primario: Identificación taxonómica basada en la identidad nucleotídica contra bases de datos disponibles (PlusPFP, nr). Diseño experimental y requerimientos Consideraciones finalesIntroducción 24 Llamado de bases: Asignar bases nucleotídicas a los cambios de corriente Control de calidad: número de lecturas, número de bases, horas de corrida, etc. Análisis primario Generar secuencia consenso en función de la similitud de secuencia y longitud Análisis primario Alineamiento de los fastq contra el genoma ensamblado de novo con Minimap2, uso de SAMtools para convertir el archivo alineado a binario y cálculo de la profundidad de alineamiento con Qualimap Diseño experimental y requerimientos Consideraciones finalesIntroducción 25 Análisis secundario Alineamiento múltiple de las secuencias consenso con Geneious Análisis secundario (¿terciario?) Emplear metadatos para reconstruir filogenia a partir de secuencias consenso con Nextstrain Diseño experimental y requerimientos Consideraciones finalesIntroducción 26 Diseño experimental y requerimientos Consideraciones finalesIntroducción Llamado de bases: Asignar bases nucleotídicas a los cambios de corriente Control de calidad: número de lecturas, número de bases, horas de corrida, etc. Análisis primario Alineamiento de secuencias nucleotídicas contra base de datos viral del NCBI Análisis secundario Visualizar matriz de resultados en con paquetes gráficos de RStudio (ggplot2) 27 Karthikeyan, S., Rodriguez-R, L. M., Heritier-Robbins, P., Kim, M., Overholt, W. A., Gaby, J. C., ... & Konstantinidis, K. T. (2019). “Candidatus Macondimonas diazotrophica”, a novel gammaproteobacterial genus dominating crude-oil-contaminated coastal sediments. The ISME Journal, 13(8), 2129-2134. Diseño experimental y requerimientos Consideraciones finalesIntroducción Bases de datos públicas 28 Equipos: ~$1000-4900 USD (directo), ~1400- 6900 USD (compra a proveedor nacional) Computador: ~$1400 USD Librería y secuenciación: ~8 USD (directo), ~30 USD (compra a proveedor nacional) Análisis* y almacenamiento de datos: ~$130 USD Costos Diseño experimental y requerimientos Consideraciones finalesIntroducción 29 Componente Referencia Costo unitario (USD) (08/2023) Reactivos Native Barcoding Expantion EXP-NBD196 (ONT) EXP-NBD196 $1,200.00 Sequencing Auxiliary Vials (ONT) EXP-AUX001 $99.00 Adapter Mix II Expansion (ONT) EXP-AMII001 $199.00 Quick T4 DNA Ligase (NEB) E6056S $328.00 NEBNext Quick Ligation Reaction Buffer (NEB) E6056S - AMPure XP beads (Agencourt) A63880 $482.00 Working Solution dsDNA BR Assey (Qubit) Q33262 $127.00 Flow Cell Primming Kit (ONT) EXP-FLP002 $35.00 Short Fragment Buffer Expansion Kit (ONT) EXP-SFB001 $30.00 Ultra II Ligation Master Mix (NEB) E7595S $369.00 Ligation Enhancer (NEB) E7595S - Ultra II End Prep Enzyme Mix (NEB) E7546S $250.00 Ultra II End Prep Reaction Buffer (NEB) E7546S - Flow cell R9 o R10 (ONT) FLO-MIN106D o FLO-MIN114 $900.00 Blunt/TA Ligase Master Mix (NEB) M0367S $103.00 Consumibles especiales DNA LoBind colorless Tubes, 1.5 mL, PCR clean (250/PCK) (Thermo Fisher Scientific) 22431021 $29.25 Axygen PCR Tubes with 0.5 mL Flat Cap (1000/PCK) (Axygen) PCR05C $32.29 Equipos 1.5 mL Microcentrifuge Magnetic Stand 6 tube MSR06 (opcional) $198.00 Qubit 4 Fluorometer Q33238 ~$4000.00 Total $8,381.54 Costos Diseño experimental y requerimientos Consideraciones finalesIntroducción Tabla 1. Inversión inicial por compra directa. 30 Costos Diseño experimental y requerimientos Consideraciones finalesIntroducción Componente Referencia Costo unitario (USD) (08/2023) Reactivos Native Barcoding Expantion EXP-NBD196 (ONT) EXP-NBD196 $2,438.96 Sequencing Auxiliary Vials (ONT) EXP-AUX001 $139.02 Adapter Mix II Expansion (ONT) EXP-AMII001 $404.46 Quick T4 DNA Ligase (NEB) E6056S $460.58 NEBNext Quick Ligation Reaction Buffer (NEB) E6056S - AMPure XP beads (Agencourt) A63880 $1,163.62 Working Solution dsDNA BR Assey (Qubit) Q33262 $160.08 Flow Cell Primming Kit (ONT) EXP-FLP002 $365.84 Short Fragment Buffer Expansion Kit (ONT) EXP-SFB001 $60.97 Ultra II Ligation Master Mix (NEB) E7595S - Ligation Enhancer (NEB) E7595S $518.15 Ultra II End Prep Enzyme Mix (NEB) E7546S - Ultra II End Prep Reaction Buffer (NEB) E7546S $351.05 Flow cell R9 o R10 (ONT) FLO-MIN106D o FLO-MIN114 $1,829.22 Blunt/TA Ligase Master Mix (NEB) M0367S $144.63 Consumibles especiales DNA LoBind colorless Tubes, 1.5 mL, PCR clean (250/PCK) (Thermo Fisher Scientific) 22431021 $41.07 Axygen PCR Tubes with 0.5 mL Flat Cap (1000/PCK) (Axygen) PCR05C $45.34 Equipos 1.5 mL Microcentrifuge Magnetic Stand 6 tube MSR06 (opcional) $278.03 Qubit 4 Fluorometer Q33238 ~$5,616.80 Total $14,017.84 Tabla 2. Inversión inicial por proveedor colombiano. IVA=19%. 31 Diseño experimental y requerimientos Consideraciones finalesIntroducción Desventajas Ventajas Costo-beneficio 32 Thanks! 33 Para esta presentación, algunas figuras y diapositivas provinieron de publicaciones, páginas web y presentaciones. Default Section Slide 1: Uso de secuenciación portátil para el diagnóstico de plagas y enfermedades Slide 2 Slide 3 Slide 4 Slide 5 Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13 Slide 14 Slide 15 Slide 16 Slide 17 Slide 18 Slide 19 Slide 20 Slide 21 Slide 22 Slide 23 Slide 24 Slide 25 Slide 26 Slide 27 Slide 28 Slide 29 Slide 30 Slide 31 Slide 32 Slide 33