💡 Resumen (TL;DR):
- Basecamp Research y PacBio construirán la mayor base de datos genómica del mundo.
- Recopilarán más de 100,000 muestras de 100 millones de especies en menos de dos años.
- El objetivo es expandir la diversidad genética para entrenar modelos de IA médicos más precisos.
Basecamp Research seleccionó el sistema Revio de PacBio para crear el Trillion Gene Atlas, una iniciativa global que busca secuenciar genes a una escala sin precedentes para mejorar el diseño de fármacos mediante inteligencia artificial. Presentado simultáneamente en el festival SXSW y la conferencia NVIDIA GTC, el proyecto generará aproximadamente 100,000 muestras metagenómicas de 31 países, apoyándose en la infraestructura de hardware de NVIDIA, Anthropic y Ultima Genomics.
La meta del proyecto es comprimir más de dos décadas de recopilación biológica en menos de dos años. Su enfoque central es multiplicar por 100 la diversidad genética evolutiva documentada hasta hoy, extrayendo datos de más de 100 millones de especies.
“Los modelos de IA biológica actuales se entrenan en una porción estrecha de la vida en la Tierra”, declaró Glen Gowers, cofundador y CEO de Basecamp Research. “El Trillion Gene Atlas expande el universo genético conocido en órdenes de magnitud más allá de lo que hay en las bases de datos públicas”.
Actualmente, el 80 por ciento de los foundation models basados en secuencias operan sobre bases de datos públicas con menos de 250 millones de secuencias. Como respuesta a esta limitante, Basecamp lanzó en enero sus propios modelos EDEN, entrenados con más de 10 mil millones de genes provenientes de un millón de especies recién descubiertas.

Precisión genómica con hardware especializado
Para alcanzar esta escala, la iniciativa utilizará la tecnología HiFi de PacBio, la cual combina alta precisión con lecturas largas. En la metagenómica, estas características técnicas son indispensables para:
* Conservar el contexto genómico completo en ecosistemas microbiológicos.
* Ensamblar variantes estructurales y elementos móviles con exactitud.
* Diferenciar funciones entre cepas estrechamente relacionadas.
“La secuenciación PacBio HiFi ofrece lecturas largas altamente precisas que preservan el contexto genómico completo y permiten una resolución a nivel de subespecies e incluso de cepas en muestras complejas”, explicó Christian Henry, presidente y CEO de PacBio.
El sistema integrará además la química comercial SPRQ-Nx, un avance que permite reutilizar las celdas SMRT para hacer financieramente viable la secuenciación de alto rendimiento.
Basecamp Research invirtió seis años en tejer esta red de colaboradores en cinco continentes, utilizando equipos de secuenciación de ADN portátiles y aplicando acuerdos de acceso equitativo regulados. Como parte del despliegue masivo del Atlas, el laboratorio confirmó asociaciones estratégicas en Chile y Argentina, además de operaciones expandidas en la Antártida.