MiniMax M2.5 ha sacudido el mercado de la inteligencia artificial en febrero de 2026. Este modelo chino de código abierto iguala a Claude Opus 4.6 en coding (80,2% en SWE-Bench Verified frente al 80,8% de Opus) y lo supera en uso de herramientas, pero cuesta 20 veces menos. Con 230.000 millones de parámetros totales y solo 10.000 millones activos gracias a su arquitectura Mixture of Experts, MiniMax ha demostrado que la inteligencia artificial de frontera ya no tiene por qué ser cara. En este artículo analizamos sus especificaciones, benchmarks, precios y cómo puedes empezar a usarlo hoy mismo.
¿Qué es MiniMax y quién está detrás?
MiniMax Group es una empresa de inteligencia artificial con sede en Shanghái, China, fundada en diciembre de 2021 por investigadores procedentes de SenseTime, una de las mayores compañías de visión por computadora del mundo. Su CEO, Yan Junjie, ha liderado el desarrollo de modelos multimodales y aplicaciones para consumidores como Talkie (personajes de IA) y Hailuo AI (generación de vídeo).
En enero de 2026, MiniMax debutó en la Bolsa de Valores de Hong Kong con una IPO que recaudó aproximadamente 620 millones de dólares (HK$4.800 millones). Jensen Huang, CEO de NVIDIA, ha mencionado públicamente a MiniMax como una de las empresas chinas de IA más prometedoras. Y con el lanzamiento de M2.5 en febrero de 2026, la empresa ha dado un golpe en la mesa que el sector no puede ignorar.
Especificaciones técnicas del M2.5
M2.5 utiliza una arquitectura Mixture of Experts (MoE), la misma filosofía que usan modelos como Mixtral o Switch Transformer. En lugar de activar todos los parámetros en cada inferencia, el modelo selecciona dinámicamente qué "expertos" activar para cada token. Esto permite un rendimiento de frontera con un coste computacional drásticamente inferior.
| Especificación | MiniMax M2.5 | M2.5 Lightning |
|---|---|---|
| Parámetros totales | 230B | 230B |
| Parámetros activos | 10B | 10B |
| Arquitectura | Mixture of Experts (MoE) | Mixture of Experts (MoE) |
| Ventana de contexto | 205K tokens | 205K tokens |
| Velocidad de generación | ~50 tokens/s | ~100 tokens/s |
| Tipo de entrada | Texto | Texto |
| Soporte herramientas | Sí (function calling) | Sí (function calling) |
| Código abierto | Sí (open weights) | Sí (open weights) |
| Tamaño en disco (bf16) | ~457 GB | ~457 GB |
| Tamaño GGUF (Q3) | ~101 GB | ~101 GB |
La ventana de contexto de 205K tokens es competitiva, aunque queda por debajo de los 200K de Claude Opus 4.6 en la práctica (ambos están en el mismo rango). MiniMax ha anunciado que expandirá el contexto hasta 512K tokens a mediados de 2026, con la posibilidad de usar cacheo para contextos de hasta 1 millón de tokens con un ahorro del 90% en costes.
Benchmarks: M2.5 vs Claude Opus vs GPT-5
Los números de M2.5 han provocado un terremoto en la industria. En los benchmarks más relevantes para desarrollo de software y uso agéntico, M2.5 no solo compite con los modelos de frontera: en algunos casos los supera.
| Benchmark | MiniMax M2.5 | Claude Opus 4.6 | GPT-5.3 |
|---|---|---|---|
| SWE-Bench Verified | 80,2% | 80,8% | ~75% |
| Multi-SWE-Bench | 51,3% | 50,3% | ~47% |
| BFCL Multi-Turn (tool calling) | 76,8% | 63,3% | ~68% |
| BrowseComp | 76,3% | ~70% | ~72% |
| Artificial Analysis Index | 42 | 62 | 58 |
SWE-Bench Verified: el estándar de oro del coding
SWE-Bench Verified es el benchmark más respetado de la industria para evaluar la capacidad de un modelo de resolver problemas reales de ingeniería de software. M2.5 obtiene un 80,2%, a solo 0,6 puntos porcentuales del 80,8% de Claude Opus 4.6. La diferencia es estadísticamente marginal.
Multi-SWE-Bench: proyectos multi-archivo
Donde M2.5 realmente destaca es en Multi-SWE-Bench, que evalúa la capacidad de resolver problemas que abarcan múltiples archivos y repositorios. Con un 51,3% frente al 50,3% de Opus, M2.5 demuestra una comprensión superior de proyectos complejos con muchas dependencias.
BFCL Multi-Turn: la joya de la corona
El benchmark BFCL (Berkeley Function Calling Leaderboard) mide la capacidad de un modelo para usar herramientas externas en conversaciones de múltiples turnos. Aquí M2.5 arrasa con un 76,8%, superando a Claude Opus 4.6 (63,3%) por más de 13 puntos. Esto lo convierte en el modelo ideal para agentes de IA que necesitan coordinar múltiples herramientas.
Si quieres ver cómo se comparan otros modelos frontier, consulta nuestra comparativa GPT-5 vs Claude Opus vs Gemini 3.
Precios: la revolución del coste por token
Si los benchmarks son impresionantes, los precios son directamente disruptivos. M2.5 es el primer modelo de frontera donde el coste deja de ser un factor limitante.
| Modelo | Input (por 1M tokens) | Output (por 1M tokens) | Coste por tarea (media) |
|---|---|---|---|
| MiniMax M2.5 | $0,30 | $1,20 | ~$0,15 |
| Claude Opus 4.6 | $15,00 | $75,00 | ~$3,00 |
| GPT-5.3 | $2,50 | $10,00 | ~$0,75 |
| Gemini 3 Pro | $1,25 | $5,00 | ~$0,50 |
¿Por qué es tan barato?
La clave está en la arquitectura MoE. Aunque el modelo tiene 230.000 millones de parámetros en total, solo activa 10.000 millones por inferencia. Esto reduce drásticamente los requisitos de GPU y, por tanto, el coste por token. Además, al ser un modelo de pesos abiertos (open weights), la comunidad puede optimizarlo, cuantizarlo y desplegarlo en infraestructura propia, eliminando por completo los costes de API.
La mediana del mercado para modelos comparables es de $0,60/1M tokens de entrada y $2,20/1M tokens de salida. M2.5 está un 50% por debajo de esa mediana incluso en la API oficial de MiniMax.
Casos de uso donde M2.5 brilla
Desarrollo de software y vibe coding
Con su rendimiento casi idéntico a Opus en SWE-Bench y su precio 20x inferior, M2.5 es una opción obvia para vibe coding y desarrollo asistido por IA. Puedes iterar rápidamente sin preocuparte por el coste de cada petición. Herramientas como Cursor AI ya soportan M2.5 como modelo backend.
Agentes autónomos y flujos agénticos
El benchmark BFCL Multi-Turn (76,8%) confirma que M2.5 es actualmente el mejor modelo del mundo en uso de herramientas multi-turno. Para agentes de IA que necesitan navegar la web, ejecutar código, consultar APIs y coordinar múltiples herramientas en secuencia, M2.5 ofrece la mejor combinación de capacidad y coste.
Procesamiento masivo de datos
Empresas que necesitan procesar grandes volúmenes de texto (análisis de documentos legales, clasificación de soporte técnico, extracción de datos) pueden usar M2.5 a una fracción del coste de competidores occidentales, manteniendo una calidad comparable.
Startups y proyectos con presupuesto limitado
Para startups que no pueden permitirse facturas de miles de dólares mensuales en APIs de IA, M2.5 abre la puerta a capacidades de frontera. Especialmente combinado con el despliegue local vía Ollama, donde el coste de API es literalmente cero.
Cómo usar MiniMax M2.5: API, Ollama y local
Opción 1: API oficial de MiniMax
La forma más sencilla. Regístrate en platform.minimax.io, obtén tu API key y úsala con cualquier cliente compatible con OpenAI (el formato de la API es compatible). Precios: $0,30/1M input, $1,20/1M output.
Opción 2: Proveedores terceros
M2.5 está disponible en Together AI, NVIDIA NIM y otros proveedores de inferencia. Los precios pueden variar, pero generalmente se mantienen en el rango de MiniMax o ligeramente por encima.
Opción 3: Ollama (local o cloud)
M2.5 está disponible en Ollama tanto en modo cloud como para ejecución local. Para usarlo en la nube:
ollama run minimax-m2.5:cloud
Para ejecución local, necesitarás hardware potente. La versión cuantizada a 3 bits (GGUF Q3_K_XL) ocupa 101 GB y puede ejecutarse en un Mac con 128 GB de memoria unificada a ~20 tokens/s. No es viable en hardware de consumo estándar, pero sí en estaciones de trabajo profesionales.
Si te interesa ejecutar modelos de IA en local, consulta nuestra guía completa de Ollama para IA local.
ollama launch.
Opción 4: Hugging Face
Los pesos del modelo están disponibles en huggingface.co/MiniMaxAI/MiniMax-M2.5 bajo licencia open weights. Puedes descargarlo, hacer fine-tuning y desplegarlo en tu propia infraestructura sin coste de licencia.
Limitaciones y cuándo elegir otra opción
M2.5 no es perfecto. Hay escenarios donde otros modelos siguen siendo la mejor elección:
- Razonamiento general complejo: En el índice de inteligencia general de Artificial Analysis, M2.5 obtiene 42 puntos frente a los 62 de Claude Opus 4.6. Para tareas que requieren razonamiento profundo y matizado (análisis filosófico, redacción creativa de alta calidad, decisiones estratégicas complejas), Opus sigue siendo superior.
- Multimodalidad: M2.5 es un modelo de solo texto. No procesa imágenes, audio ni vídeo como entrada. Si necesitas análisis de imágenes o documentos escaneados, necesitarás GPT-5, Gemini 3 o Claude Opus.
- Ejecución local: Con 101 GB en su versión cuantizada más pequeña, M2.5 no es viable para la mayoría de usuarios domésticos. Necesitas mínimo 128 GB de RAM unificada o un clúster de GPUs.
- Soporte y garantías empresariales: Anthropic, OpenAI y Google ofrecen SLAs, soporte dedicado y cumplimiento normativo (SOC 2, HIPAA, etc.). MiniMax, aunque cotiza en bolsa, tiene un ecosistema de soporte empresarial menos maduro en mercados occidentales.
- Soberanía de datos: Para empresas con requisitos regulatorios estrictos sobre dónde se procesan los datos, usar la API de una empresa china puede generar complicaciones. El despliegue local con pesos abiertos mitiga este problema.
Impacto en el mercado de la IA
M2.5 confirma una tendencia que comenzó con DeepSeek R1 a principios de 2025: los modelos chinos de código abierto están cerrando la brecha con los modelos cerrados occidentales a una velocidad vertiginosa. Y no solo en calidad, sino especialmente en coste.
La presión sobre los precios
Cuando un modelo open weights ofrece el 99,3% del rendimiento de Opus en coding a un 5% de su precio, la presión sobre Anthropic, OpenAI y Google para reducir precios es enorme. Ya hemos visto bajadas de precio en GPT-5.3 y Gemini 3 Pro en las últimas semanas, y es razonable esperar que esta tendencia se acelere.
El auge del open weights
M2.5 se une a una generación de modelos de pesos abiertos (DeepSeek, Qwen, Llama) que están democratizando el acceso a la IA de frontera. Para desarrolladores y empresas, esto significa más opciones, menos dependencia de un solo proveedor y la posibilidad de desplegar modelos en infraestructura propia sin costes de licencia.
Si quieres explorar más herramientas de IA accesibles, te recomendamos nuestra guía de las mejores herramientas de IA gratis en 2026.
¿Qué significa para los desarrolladores?
En la práctica, M2.5 amplía el menú de opciones de forma significativa. Un equipo puede usar Claude Opus para las tareas más críticas que requieren máximo razonamiento, GPT-5 para multimodalidad, y M2.5 para el grueso de las tareas de coding y agentes donde el rendimiento es equivalente pero el coste es una fracción. La estrategia multi-modelo ya no es un lujo: es la decisión inteligente.
Preguntas frecuentes
¿MiniMax M2.5 es realmente tan bueno como Claude Opus para programar?
En benchmarks de coding, sí. M2.5 obtiene un 80,2% en SWE-Bench Verified frente al 80,8% de Claude Opus 4.6, una diferencia de solo 0,6 puntos. En proyectos multi-archivo (Multi-SWE-Bench), M2.5 incluso supera a Opus con un 51,3% frente a 50,3%. Sin embargo, en razonamiento general y tareas creativas, Opus sigue siendo claramente superior.
¿Puedo ejecutar MiniMax M2.5 en mi ordenador?
Depende de tu hardware. La versión cuantizada a 3 bits ocupa 101 GB y necesita un Mac con 128 GB de memoria unificada o un sistema con múltiples GPUs profesionales. No es viable en un PC gaming estándar. La alternativa más práctica es usar la API oficial ($0,30/1M input) o Ollama en modo cloud.
¿Es seguro usar una IA china para proyectos empresariales?
Si usas la API oficial, los datos se procesan en China. Para proyectos con requisitos de privacidad, puedes desplegar el modelo en tu propia infraestructura usando los pesos abiertos de Hugging Face o usar proveedores occidentales como Together AI o NVIDIA NIM que alojan M2.5 en servidores de EE.UU. y Europa.
¿Cuál es la diferencia entre M2.5 y M2.5 Lightning?
Ambos comparten la misma arquitectura de 230B parámetros (10B activos). La diferencia principal es la velocidad: M2.5 estándar genera a ~50 tokens/s, mientras que Lightning alcanza ~100 tokens/s. Lightning es ideal para aplicaciones en tiempo real y chatbots donde la latencia importa.
¿MiniMax M2.5 reemplazará a Claude o GPT?
No los reemplaza, pero los complementa. M2.5 es la mejor opción cuando el coste es prioritario y la tarea es coding, tool calling o procesamiento masivo. Para razonamiento general complejo, creatividad o análisis multimodal (imágenes, vídeo), Claude Opus y GPT-5 siguen siendo superiores. La estrategia óptima es usar múltiples modelos según la tarea.
Comentarios
Inicia sesion para dejar un comentario
Acceder