Maia 200: El acelerador de IA diseñado para la inferencia

Redacción27/01/2026

4 minutos de lectura

Microsoft dio a conocer Maia 200, un acelerador de inferencia de inteligencia artificial (IA) para optimizar la generación de tokens y mejorar la relación rendimiento‑costo en cargas de trabajo de modelos de gran tamaño. El dispositivo se integra a la infraestructura de Azure y será utilizado en distintos servicios, incluidos modelos de OpenAI y aplicaciones internas de generación de datos sintéticos y aprendizaje por refuerzo. El despliegue inicial se realiza en centros de datos de Estados Unidos, con planes de expansión a otras regiones.

Scott Guthrie, vicepresidente ejecutivo, Cloud + IA, explicó que Maia 200 es un acelerador de inferencia fabricado con proceso de 3 nanómetros de TSMC, equipado con núcleos tensoriales nativos FP8 y FP4, 216 GB de memoria HBM3e con ancho de banda de 7 TB/s, 272 MB de SRAM integrada y motores especializados para movimiento de datos. Agregó que el dispositivo ofrece un rendimiento FP4 superior al de la tercera generación de Amazon Trainium y un rendimiento FP8 por encima del TPU de séptima generación de Google, además de un rendimiento por dólar 30% mayor frente al hardware más reciente utilizado actualmente por Microsoft.

El acelerador se utilizará en distintos servicios, incluidos modelos GPT‑5.2 de OpenAI dentro de Microsoft Foundry y 365 Copilot. También será empleado por el equipo de Microsoft Superintelligence para generación de datos sintéticos y procesos de aprendizaje por refuerzo. El despliegue inicial se realiza en la región US Central, con expansión a otras regiones posteriormente. Para facilitar el desarrollo, se presentó el SDK de Maia, con integración a PyTorch, compilador Triton, bibliotecas optimizadas de kernel y acceso a programación de bajo nivel.

Maia 200 se integra con Azure, y se present el SDK de Maia con un conjunto de herramientas para construir y optimizar modelos para Maia 200, incluida la integración con PyTorch, un compilador Triton y una biblioteca optimizada del kernel, así como acceso al lenguaje de programación de bajo nivel de Maia. “Esto ofrece a los desarrolladores un control detallado cuando es necesario, al tiempo que facilita portabilidad de modelos a través de aceleradores de hardware heterogéneos”, comentó Scott Guthrie.

Diseñado para la inferencia de IA

Cada chip Maia 200 integra más de 140 mil millones de transistores y está optimizado para modelos que utilizan computación de baja precisión. Entrega más de 10 petaFLOPS en FP4 y más de 5 petaFLOPS en FP8, con un consumo energético de hasta 750 W por sistema en chip. Este diseño busca soportar modelos actuales de gran tamaño y ofrecer margen para modelos futuros.

El rendimiento no depende únicamente de la capacidad de cómputo, por lo que Maia 200 incorpora un subsistema de memoria orientado a datos de precisión reducida, con motores DMA especializados, SRAM en chip y una red interna optimizada para alto ancho de banda. Este enfoque busca mantener un suministro constante de datos hacia los núcleos de procesamiento y mejorar el rendimiento de generación de tokens.

Sistemas de IA optimizados

A nivel de sistemas, Maia 200 utiliza una red de escalamiento de dos niveles basada en Ethernet estándar, con una capa de transporte personalizada y una tarjeta de red integrada. Cada acelerador ofrece hasta 2.8 TB/s de ancho de banda bidireccional dedicado para escalamiento y soporta operaciones colectivas en clústeres de hasta 6,144 aceleradores.

Dentro de cada bandeja, cuatro aceleradores están conectados mediante enlaces directos no conmutados, lo que permite comunicación local de alto ancho de banda. Los mismos protocolos se utilizan tanto dentro como entre racks mediante el protocolo AI‑AI, lo que facilita la escalabilidad entre nodos y clústeres con menor complejidad de red. El objetivo es reducir consumo energético, costos operativos y capacidad ociosa en la infraestructura de Azure, detalló el directivo.

Anunciante

Un enfoque de desarrollo nativo en la nube

Microsoft mencionó que el desarrollo de Maia 200 se apoyó en un entorno de simulación previo al silicio, que permitió modelar patrones de cómputo y comunicación de modelos de lenguaje con alta fidelidad. Este enfoque ayudó a optimizar de manera conjunta el silicio, la red y el software del sistema antes de contar con los primeros chips físicos.

El diseño también consideró desde el inicio la integración en centros de datos, incluyendo la validación temprana de la red backend y de la unidad de refrigeración líquida de segunda generación. La integración con el plano de control de Azure permite gestión, telemetría y diagnóstico a nivel de chip y rack. Como resultado, los primeros modelos comenzaron a ejecutarse en Maia 200 a pocos días de recibir el primer silicio, reduciendo a menos de la mitad el tiempo entre fabricación y despliegue frente a programas comparables.

Registro para la vista previa del SDK de Maia

El programa de aceleradores Maia está planteado como una iniciativa multigeneracional. Mientras se despliega Maia 200, Microsoft indicó que ya se trabaja en futuras generaciones con el objetivo de mejorar de forma continua el rendimiento y la eficiencia para cargas de trabajo de IA.

El SDK de Maia 200 se ofrece en vista previa para desarrolladores, startups y académicos, e incluye compilador Triton, soporte para PyTorch, programación de bajo nivel en NPL, así como simulador y calculadora de costos. Estas herramientas buscan la optimización temprana de modelos y flujos de trabajo dentro del ciclo de desarrollo. Registro para la vista previa aquí.

[email protected]

WhatsApp eSemanal 55 7360 5651