MiniMax M2.5 modelo de inteligencia artificial chino comparado con Claude Opus y GPT-5
Volver al blog
IA 6 Marzo 2026 10 min lectura 16 visitas

MiniMax M2.5: La IA China 20x Más Barata que Claude Opus que Está Revolucionando el Mercado

Arkaia Corporation
Arkaia Corporation Editor

MiniMax M2.5 ha sacudido el mercado de la inteligencia artificial en febrero de 2026. Este modelo chino de código abierto iguala a Claude Opus 4.6 en coding (80,2% en SWE-Bench Verified frente al 80,8% de Opus) y lo supera en uso de herramientas, pero cuesta 20 veces menos. Con 230.000 millones de parámetros totales y solo 10.000 millones activos gracias a su arquitectura Mixture of Experts, MiniMax ha demostrado que la inteligencia artificial de frontera ya no tiene por qué ser cara. En este artículo analizamos sus especificaciones, benchmarks, precios y cómo puedes empezar a usarlo hoy mismo.

¿Qué es MiniMax y quién está detrás?

MiniMax Group es una empresa de inteligencia artificial con sede en Shanghái, China, fundada en diciembre de 2021 por investigadores procedentes de SenseTime, una de las mayores compañías de visión por computadora del mundo. Su CEO, Yan Junjie, ha liderado el desarrollo de modelos multimodales y aplicaciones para consumidores como Talkie (personajes de IA) y Hailuo AI (generación de vídeo).

En enero de 2026, MiniMax debutó en la Bolsa de Valores de Hong Kong con una IPO que recaudó aproximadamente 620 millones de dólares (HK$4.800 millones). Jensen Huang, CEO de NVIDIA, ha mencionado públicamente a MiniMax como una de las empresas chinas de IA más prometedoras. Y con el lanzamiento de M2.5 en febrero de 2026, la empresa ha dado un golpe en la mesa que el sector no puede ignorar.

MiniMax, empresa china de inteligencia artificial con sede en Shanghái
MiniMax: la startup china de IA que cotiza en Hong Kong y desafía a los gigantes occidentales

Especificaciones técnicas del M2.5

M2.5 utiliza una arquitectura Mixture of Experts (MoE), la misma filosofía que usan modelos como Mixtral o Switch Transformer. En lugar de activar todos los parámetros en cada inferencia, el modelo selecciona dinámicamente qué "expertos" activar para cada token. Esto permite un rendimiento de frontera con un coste computacional drásticamente inferior.

Especificación MiniMax M2.5 M2.5 Lightning
Parámetros totales 230B 230B
Parámetros activos 10B 10B
Arquitectura Mixture of Experts (MoE) Mixture of Experts (MoE)
Ventana de contexto 205K tokens 205K tokens
Velocidad de generación ~50 tokens/s ~100 tokens/s
Tipo de entrada Texto Texto
Soporte herramientas Sí (function calling) Sí (function calling)
Código abierto Sí (open weights) Sí (open weights)
Tamaño en disco (bf16) ~457 GB ~457 GB
Tamaño GGUF (Q3) ~101 GB ~101 GB
Dato clave: La variante Lightning duplica la velocidad de generación (100 tokens/s frente a 50) sin sacrificar calidad en los benchmarks principales. Ideal para aplicaciones en tiempo real y flujos de trabajo agénticos.

La ventana de contexto de 205K tokens es competitiva, aunque queda por debajo de los 200K de Claude Opus 4.6 en la práctica (ambos están en el mismo rango). MiniMax ha anunciado que expandirá el contexto hasta 512K tokens a mediados de 2026, con la posibilidad de usar cacheo para contextos de hasta 1 millón de tokens con un ahorro del 90% en costes.

Benchmarks: M2.5 vs Claude Opus vs GPT-5

Los números de M2.5 han provocado un terremoto en la industria. En los benchmarks más relevantes para desarrollo de software y uso agéntico, M2.5 no solo compite con los modelos de frontera: en algunos casos los supera.

Benchmark MiniMax M2.5 Claude Opus 4.6 GPT-5.3
SWE-Bench Verified 80,2% 80,8% ~75%
Multi-SWE-Bench 51,3% 50,3% ~47%
BFCL Multi-Turn (tool calling) 76,8% 63,3% ~68%
BrowseComp 76,3% ~70% ~72%
Artificial Analysis Index 42 62 58
Benchmarks de MiniMax M2.5 comparados con Claude Opus y GPT-5
Comparativa de benchmarks: M2.5 iguala a Opus en coding y lo supera en tool calling

SWE-Bench Verified: el estándar de oro del coding

SWE-Bench Verified es el benchmark más respetado de la industria para evaluar la capacidad de un modelo de resolver problemas reales de ingeniería de software. M2.5 obtiene un 80,2%, a solo 0,6 puntos porcentuales del 80,8% de Claude Opus 4.6. La diferencia es estadísticamente marginal.

Multi-SWE-Bench: proyectos multi-archivo

Donde M2.5 realmente destaca es en Multi-SWE-Bench, que evalúa la capacidad de resolver problemas que abarcan múltiples archivos y repositorios. Con un 51,3% frente al 50,3% de Opus, M2.5 demuestra una comprensión superior de proyectos complejos con muchas dependencias.

BFCL Multi-Turn: la joya de la corona

El benchmark BFCL (Berkeley Function Calling Leaderboard) mide la capacidad de un modelo para usar herramientas externas en conversaciones de múltiples turnos. Aquí M2.5 arrasa con un 76,8%, superando a Claude Opus 4.6 (63,3%) por más de 13 puntos. Esto lo convierte en el modelo ideal para agentes de IA que necesitan coordinar múltiples herramientas.

Validación interna: Según MiniMax, el 80% del código nuevo dentro de la propia empresa se genera con M2.5, y el modelo maneja el 30% de las tareas diarias. No es solo un benchmark: lo usan en producción.

Si quieres ver cómo se comparan otros modelos frontier, consulta nuestra comparativa GPT-5 vs Claude Opus vs Gemini 3.

Precios: la revolución del coste por token

Si los benchmarks son impresionantes, los precios son directamente disruptivos. M2.5 es el primer modelo de frontera donde el coste deja de ser un factor limitante.

Modelo Input (por 1M tokens) Output (por 1M tokens) Coste por tarea (media)
MiniMax M2.5 $0,30 $1,20 ~$0,15
Claude Opus 4.6 $15,00 $75,00 ~$3,00
GPT-5.3 $2,50 $10,00 ~$0,75
Gemini 3 Pro $1,25 $5,00 ~$0,50
Perspectiva real: Por el precio de una sola tarea en Claude Opus 4.6 (~$3,00), puedes ejecutar 20 tareas equivalentes en MiniMax M2.5 (~$0,15 cada una). Para equipos que procesan miles de peticiones diarias, la diferencia es de decenas de miles de dólares al mes.

¿Por qué es tan barato?

La clave está en la arquitectura MoE. Aunque el modelo tiene 230.000 millones de parámetros en total, solo activa 10.000 millones por inferencia. Esto reduce drásticamente los requisitos de GPU y, por tanto, el coste por token. Además, al ser un modelo de pesos abiertos (open weights), la comunidad puede optimizarlo, cuantizarlo y desplegarlo en infraestructura propia, eliminando por completo los costes de API.

La mediana del mercado para modelos comparables es de $0,60/1M tokens de entrada y $2,20/1M tokens de salida. M2.5 está un 50% por debajo de esa mediana incluso en la API oficial de MiniMax.

Casos de uso donde M2.5 brilla

Desarrollo de software y vibe coding

Con su rendimiento casi idéntico a Opus en SWE-Bench y su precio 20x inferior, M2.5 es una opción obvia para vibe coding y desarrollo asistido por IA. Puedes iterar rápidamente sin preocuparte por el coste de cada petición. Herramientas como Cursor AI ya soportan M2.5 como modelo backend.

Agentes autónomos y flujos agénticos

El benchmark BFCL Multi-Turn (76,8%) confirma que M2.5 es actualmente el mejor modelo del mundo en uso de herramientas multi-turno. Para agentes de IA que necesitan navegar la web, ejecutar código, consultar APIs y coordinar múltiples herramientas en secuencia, M2.5 ofrece la mejor combinación de capacidad y coste.

Procesamiento masivo de datos

Empresas que necesitan procesar grandes volúmenes de texto (análisis de documentos legales, clasificación de soporte técnico, extracción de datos) pueden usar M2.5 a una fracción del coste de competidores occidentales, manteniendo una calidad comparable.

Startups y proyectos con presupuesto limitado

Para startups que no pueden permitirse facturas de miles de dólares mensuales en APIs de IA, M2.5 abre la puerta a capacidades de frontera. Especialmente combinado con el despliegue local vía Ollama, donde el coste de API es literalmente cero.

MiniMax M2.5 usado para desarrollo de software y agentes de IA
M2.5 destaca especialmente en coding, agentes autónomos y procesamiento masivo de datos

Cómo usar MiniMax M2.5: API, Ollama y local

Opción 1: API oficial de MiniMax

La forma más sencilla. Regístrate en platform.minimax.io, obtén tu API key y úsala con cualquier cliente compatible con OpenAI (el formato de la API es compatible). Precios: $0,30/1M input, $1,20/1M output.

Opción 2: Proveedores terceros

M2.5 está disponible en Together AI, NVIDIA NIM y otros proveedores de inferencia. Los precios pueden variar, pero generalmente se mantienen en el rango de MiniMax o ligeramente por encima.

Opción 3: Ollama (local o cloud)

M2.5 está disponible en Ollama tanto en modo cloud como para ejecución local. Para usarlo en la nube:

ollama run minimax-m2.5:cloud

Para ejecución local, necesitarás hardware potente. La versión cuantizada a 3 bits (GGUF Q3_K_XL) ocupa 101 GB y puede ejecutarse en un Mac con 128 GB de memoria unificada a ~20 tokens/s. No es viable en hardware de consumo estándar, pero sí en estaciones de trabajo profesionales.

Si te interesa ejecutar modelos de IA en local, consulta nuestra guía completa de Ollama para IA local.

Ollama + Claude Code / Cursor: Ollama se ha asociado con MiniMax para ofrecer uso gratuito temporal de M2.5 en la nube. Puedes usarlo directamente con OpenCode, Claude Code, Codex y Cursor a través de ollama launch.

Opción 4: Hugging Face

Los pesos del modelo están disponibles en huggingface.co/MiniMaxAI/MiniMax-M2.5 bajo licencia open weights. Puedes descargarlo, hacer fine-tuning y desplegarlo en tu propia infraestructura sin coste de licencia.

Limitaciones y cuándo elegir otra opción

M2.5 no es perfecto. Hay escenarios donde otros modelos siguen siendo la mejor elección:

  • Razonamiento general complejo: En el índice de inteligencia general de Artificial Analysis, M2.5 obtiene 42 puntos frente a los 62 de Claude Opus 4.6. Para tareas que requieren razonamiento profundo y matizado (análisis filosófico, redacción creativa de alta calidad, decisiones estratégicas complejas), Opus sigue siendo superior.
  • Multimodalidad: M2.5 es un modelo de solo texto. No procesa imágenes, audio ni vídeo como entrada. Si necesitas análisis de imágenes o documentos escaneados, necesitarás GPT-5, Gemini 3 o Claude Opus.
  • Ejecución local: Con 101 GB en su versión cuantizada más pequeña, M2.5 no es viable para la mayoría de usuarios domésticos. Necesitas mínimo 128 GB de RAM unificada o un clúster de GPUs.
  • Soporte y garantías empresariales: Anthropic, OpenAI y Google ofrecen SLAs, soporte dedicado y cumplimiento normativo (SOC 2, HIPAA, etc.). MiniMax, aunque cotiza en bolsa, tiene un ecosistema de soporte empresarial menos maduro en mercados occidentales.
  • Soberanía de datos: Para empresas con requisitos regulatorios estrictos sobre dónde se procesan los datos, usar la API de una empresa china puede generar complicaciones. El despliegue local con pesos abiertos mitiga este problema.
Importante sobre soberanía de datos: Si usas la API oficial de MiniMax, tus datos se procesan en servidores en China. Para máxima privacidad, despliega el modelo en tu propia infraestructura usando los pesos abiertos de Hugging Face o a través de proveedores como Together AI (servidores en EE.UU./Europa).

Impacto en el mercado de la IA

M2.5 confirma una tendencia que comenzó con DeepSeek R1 a principios de 2025: los modelos chinos de código abierto están cerrando la brecha con los modelos cerrados occidentales a una velocidad vertiginosa. Y no solo en calidad, sino especialmente en coste.

La presión sobre los precios

Cuando un modelo open weights ofrece el 99,3% del rendimiento de Opus en coding a un 5% de su precio, la presión sobre Anthropic, OpenAI y Google para reducir precios es enorme. Ya hemos visto bajadas de precio en GPT-5.3 y Gemini 3 Pro en las últimas semanas, y es razonable esperar que esta tendencia se acelere.

El auge del open weights

M2.5 se une a una generación de modelos de pesos abiertos (DeepSeek, Qwen, Llama) que están democratizando el acceso a la IA de frontera. Para desarrolladores y empresas, esto significa más opciones, menos dependencia de un solo proveedor y la posibilidad de desplegar modelos en infraestructura propia sin costes de licencia.

Si quieres explorar más herramientas de IA accesibles, te recomendamos nuestra guía de las mejores herramientas de IA gratis en 2026.

Impacto de MiniMax M2.5 en el mercado de inteligencia artificial y modelos open source
Los modelos chinos open weights como M2.5 están redefiniendo el equilibrio de precios en la industria de la IA

¿Qué significa para los desarrolladores?

En la práctica, M2.5 amplía el menú de opciones de forma significativa. Un equipo puede usar Claude Opus para las tareas más críticas que requieren máximo razonamiento, GPT-5 para multimodalidad, y M2.5 para el grueso de las tareas de coding y agentes donde el rendimiento es equivalente pero el coste es una fracción. La estrategia multi-modelo ya no es un lujo: es la decisión inteligente.

Preguntas frecuentes

¿MiniMax M2.5 es realmente tan bueno como Claude Opus para programar?

En benchmarks de coding, sí. M2.5 obtiene un 80,2% en SWE-Bench Verified frente al 80,8% de Claude Opus 4.6, una diferencia de solo 0,6 puntos. En proyectos multi-archivo (Multi-SWE-Bench), M2.5 incluso supera a Opus con un 51,3% frente a 50,3%. Sin embargo, en razonamiento general y tareas creativas, Opus sigue siendo claramente superior.

¿Puedo ejecutar MiniMax M2.5 en mi ordenador?

Depende de tu hardware. La versión cuantizada a 3 bits ocupa 101 GB y necesita un Mac con 128 GB de memoria unificada o un sistema con múltiples GPUs profesionales. No es viable en un PC gaming estándar. La alternativa más práctica es usar la API oficial ($0,30/1M input) o Ollama en modo cloud.

¿Es seguro usar una IA china para proyectos empresariales?

Si usas la API oficial, los datos se procesan en China. Para proyectos con requisitos de privacidad, puedes desplegar el modelo en tu propia infraestructura usando los pesos abiertos de Hugging Face o usar proveedores occidentales como Together AI o NVIDIA NIM que alojan M2.5 en servidores de EE.UU. y Europa.

¿Cuál es la diferencia entre M2.5 y M2.5 Lightning?

Ambos comparten la misma arquitectura de 230B parámetros (10B activos). La diferencia principal es la velocidad: M2.5 estándar genera a ~50 tokens/s, mientras que Lightning alcanza ~100 tokens/s. Lightning es ideal para aplicaciones en tiempo real y chatbots donde la latencia importa.

¿MiniMax M2.5 reemplazará a Claude o GPT?

No los reemplaza, pero los complementa. M2.5 es la mejor opción cuando el coste es prioritario y la tarea es coding, tool calling o procesamiento masivo. Para razonamiento general complejo, creatividad o análisis multimodal (imágenes, vídeo), Claude Opus y GPT-5 siguen siendo superiores. La estrategia óptima es usar múltiples modelos según la tarea.

Compartir:

Comentarios

Cargando comentarios...