💡 Resumen (TL;DR):
- AWS y Cerebras Systems integrarán chips Trainium y sistemas CS-3 en la nube de Amazon.
- La arquitectura promete multiplicar por cinco la capacidad de tokens frente a soluciones de GPU.
- La alianza ataca los cuellos de botella en herramientas de código en tiempo real para desarrolladores.
Amazon Web Services (AWS) y Cerebras Systems anunciaron una colaboración para desplegar sistemas Cerebras CS-3 en los centros de datos de Amazon. Esta integración funcionará junto a los chips personalizados Trainium para ofrecer la inferencia de inteligencia artificial más rápida en la nube, un servicio que estará disponible en Amazon Bedrock durante los próximos meses.
El núcleo del acuerdo es la desagregación de inferencia, una técnica que divide las cargas de trabajo de IA en dos fases gestionadas por procesadores distintos. En este modelo, AWS Trainium procesa la etapa de “prellenado” (los prompts del usuario), que requiere un poder de cómputo intensivo.
Posteriormente, los datos se transfieren mediante la red de alta velocidad Elastic Fabric Adapter de Amazon hacia el equipo Cerebras CS-3. Este hardware asume la fase de “decodificación”, generando tokens a velocidades que ambas compañías afirman son miles de veces superiores a las alternativas basadas en GPU. El resultado es un aumento de cinco veces en la capacidad de tokens de alta velocidad ocupando el mismo espacio físico.
“La inferencia es donde la IA ofrece un valor real a los clientes, pero la velocidad sigue siendo un cuello de botella crítico para cargas de trabajo exigentes como la asistencia de código en tiempo real y las aplicaciones interactivas”, explicó David Brown, vicepresidente de Computación y Servicios de Machine Learning en AWS. “Al dividir la carga de trabajo de inferencia entre Trainium y CS-3, y conectarlos con el Elastic Fabric Adapter de Amazon, cada sistema hace lo que mejor sabe hacer”.
El hardware masivo detrás de la alianza
A finales de este año, AWS planea ofrecer grandes modelos de lenguaje (LLM) de código abierto y sus propios modelos Nova ejecutándose en hardware de Cerebras.
- Los procesadores Wafer-Scale Engine de Cerebras tienen el tamaño de un plato, albergan 900,000 núcleos de IA y 4 billones de transistores.
- La startup, con sede en Sunnyvale, cerró una ronda Serie H por 1,000 millones de dólares en febrero, logrando una valoración superior a los 22,000 millones de dólares.
- En enero, Cerebras firmó un acuerdo de más de 10,000 millones de dólares para proveer 750 megavatios de capacidad de cómputo a OpenAI por los próximos tres años.
La industria tecnológica experimenta un cambio estructural a medida que las cargas de IA pasan del entrenamiento inicial a la ejecución o inferencia. Actualmente, las herramientas basadas en agentes de código requieren generar aproximadamente 15 veces más tokens por consulta que un chat estándar, lo que exige una velocidad de salida mucho más agresiva.
Andrew Feldman, cofundador y CEO de Cerebras, indicó que la asociación “proporcionará la inferencia más rápida a una clientela mundial” operando directamente dentro de los entornos AWS que las empresas ya utilizan. El gigante de la nube mantendrá soporte tanto para la nueva configuración desagregada como para configuraciones tradicionales, permitiendo a sus usuarios enrutar las cargas de trabajo hacia el hardware que mejor soporte sus modelos.