Nuevo formato de archivo que ayuda a los investigadores a reducir el tiempo de análisis de ADN

La Universidad de Nueva Gales del Sur y el Instituto Garvan de Investigación Médica han desarrollado un nuevo formato de archivo informático para acelerar el análisis de secuenciación de nanoporos y mejorar los tratamientos especializados para pacientes con cáncer y otras enfermedades.

Publicado en Naturaleza Biotecnologíala investigación dijo que el formato SLOW5 recientemente desarrollado puede procesar la secuenciación compleja de nanoporos de ADN «más de 30 veces más rápido» que el formato de archivo anterior llamado, irónicamente, FAST5.

La secuenciación de nanoporos se utiliza para identificar una variedad de enfermedades y ayudar a los profesionales médicos a analizar muestras de ADN en detalle para que puedan proporcionar tratamientos personalizados para pacientes con cáncer.

Los datos producidos a partir de este proceso se registraron de forma rutinaria en formatos de archivo FAST5, que produjeron archivos grandes de alrededor de 1,3 terabytes, equivalentes a aproximadamente 650 horas de video de alta definición. Debido a su gran tamaño, las computadoras tardarían dos semanas en procesar los archivos FAST5, dijeron los investigadores.

Sin embargo, el autor principal e ingeniero de sistemas informáticos de genómica del Instituto Garvan, Hasindu Gamaarachchi, dijo que el procesamiento de datos para el genoma humano con SLOW5 se reduce a medio día.

Explica que, a diferencia de FAST5, el formato SLOW5 permite la computación paralela en la que varios procesadores pueden ejecutar simultáneamente múltiples análisis más pequeños desglosados ​​a partir de conjuntos de datos más grandes, complejos y completos.

«Puede pensar en esto como tratar de cavar un hoyo muy grande con 10 personas, pero solo hay una pala que tienen que compartir. Así es como solía ser con FAST5», dijo.

«Pero con SLOW5 todos tienen su propia pala, y todos pueden cavar al mismo tiempo y hacer el trabajo mucho más rápido.

«El formato FAST5 es lento porque no se puede acceder a los datos en paralelo. Se basa en el formato de datos jerárquicos que se diseñó en la década de 1990 para funcionar en máquinas que en ese momento solo tenían un procesador, en lugar de las modernas que incluyen múltiples procesadores

«El formato de datos jerárquicos también es genérico, mientras que el SLOW5 está especialmente diseñado. Entonces, en términos de la analogía de la excavación, es como si también estuviéramos proporcionando una pala que está especialmente diseñada para el tipo de suelo. Y debido a que el nuevo SLOW5 se puede accedido en paralelo por múltiples procesadores al mismo tiempo, el tiempo de procesamiento se ha reducido en un factor de 30».

Cobertura relacionada

Deja un comentario