El 5 de marzo de 2026, OpenAI lanzó GPT-5.4, su modelo frontier más avanzado hasta la fecha. Por primera vez, un modelo de OpenAI puede controlar tu ordenador de forma nativa: mover el ratón, pulsar el teclado, navegar por la web y automatizar flujos de trabajo complejos entre aplicaciones. Además, llega con una ventana de contexto de hasta 1 millón de tokens, un modo Thinking con planificación visible, y dos semanas después, las variantes GPT-5.4 mini y nano para tareas de alto volumen a bajo coste. En esta guía completa analizamos todas las novedades, benchmarks, precios, variantes y cómo GPT-5.4 se compara con Claude Opus 4.6 y Gemini 3.1 Pro.
¿Qué es GPT-5.4?
GPT-5.4 es el modelo de inteligencia artificial más capaz y eficiente de OpenAI, diseñado para combinar lo mejor del razonamiento avanzado, la programación y los flujos de trabajo agénticos. Es la evolución directa de GPT-5.3-Codex, pero va mucho más allá: incorpora capacidades de computer use nativo, una ventana de contexto ampliada a 1 millón de tokens y mejoras significativas en precisión factual.
Según las cifras oficiales de OpenAI, GPT-5.4 es un 33% menos propenso a cometer errores en afirmaciones individuales comparado con GPT-5.2, y sus respuestas completas tienen un 18% menos de probabilidades de contener errores. Esto lo convierte en el modelo más fiable de la familia GPT hasta la fecha.
Contexto: GPT-5.4 llega apenas un mes después de que Google lanzara Gemini 3.1 Pro y Anthropic actualizara Claude Opus 4.6. La carrera de los modelos frontier en 2026 está más reñida que nunca. Si quieres ver la evolución desde principios de año, consulta nuestra comparativa anterior de GPT-5 vs Claude Opus vs Gemini 3.
Computer use: controla tu ordenador con IA
Sin duda, la novedad más revolucionaria de GPT-5.4 es su capacidad de computer use nativo. Es el primer modelo de propósito general de OpenAI que puede interactuar directamente con el escritorio de un ordenador: interpretar capturas de pantalla, controlar el ratón y el teclado, escribir código para automatizar tareas del navegador y ejecutar flujos de trabajo complejos entre múltiples aplicaciones.
¿Cómo funciona el computer use?
GPT-5.4 recibe capturas de pantalla del entorno de trabajo y, en respuesta, emite comandos de ratón y teclado para llevar a cabo las acciones necesarias. Puede navegar por la web, operar hojas de cálculo, rellenar formularios, gestionar presentaciones y ejecutar cualquier tarea que normalmente requeriría interacción humana con un ordenador.
En el benchmark OSWorld-Verified, GPT-5.4 alcanza un 75,0% de éxito, superando por primera vez el rendimiento humano experto (72,4%). Es un hito histórico: nunca antes un modelo de IA había superado a los humanos en tareas de navegación de escritorio. En WebArena-Verified obtiene un 67,3%, y en Online-Mind2Web llega al 92,8% usando únicamente capturas de pantalla.
Importante: El computer use de GPT-5.4 funciona dentro de entornos controlados (sandboxes) en Codex y a través de la API. No tiene acceso directo a tu ordenador personal a menos que configures explícitamente un entorno para ello. OpenAI ha implementado múltiples capas de seguridad para evitar usos malintencionados.
Ventana de contexto de 1 millón de tokens
GPT-5.4 amplía drásticamente la capacidad de procesamiento de información de OpenAI. Su ventana de contexto estándar es de 272.000 tokens, pero puede configurarse para alcanzar hasta 1.050.000 tokens (1M+), la mayor ventana de contexto ofrecida por OpenAI hasta la fecha.
Para activar el contexto extendido de 1M, los desarrolladores deben configurar explícitamente los parámetros model_context_window y model_auto_compact_token_limit en la API. Sin estos parámetros, el modelo opera con la ventana estándar de 272K.
Hay que tener en cuenta que los prompts con más de 272K tokens de entrada tienen un coste adicional: el precio de input se multiplica por 2x y el de output por 1,5x para toda la sesión. Aun así, para tareas que requieren procesar documentos extensos, codebases completas o mantener conversaciones largas, esta capacidad es transformadora.
¿Cómo se compara con la competencia?
Gemini 3.1 Pro ofrece 1M de tokens de forma nativa y en producción, mientras que Claude Opus 4.6 también soporta hasta 1M con contexto extendido. La diferencia clave está en la calidad de recuperación: en el benchmark MRCR v2, Claude Opus 4.6 lidera con un 76% a 1M tokens, Gemini obtiene un 71,3%, pero GPT-5.4 se queda en un 18,5%. Si necesitas procesar contextos largos y recuperar información precisa, este es un punto débil de GPT-5.4 que conviene tener en cuenta. Para una comparativa detallada, revisa nuestro análisis de Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.4.
GPT-5.4 Thinking: razonamiento visible
GPT-5.4 Thinking es la variante de razonamiento avanzado disponible en ChatGPT. Sigue la tradición de los modelos o-series de OpenAI, pero con una innovación clave: ahora puede mostrar un plan inicial de su razonamiento antes de completar la respuesta, permitiéndote ajustar el rumbo mientras trabaja.
Esto significa que puedes ver hacia dónde se dirige el modelo y corregirlo a mitad de camino, sin necesidad de esperar a una respuesta completa para luego rehacerla. Es un cambio significativo en la interacción con modelos de razonamiento, que hasta ahora eran una "caja negra" durante el proceso de pensamiento.
Eficiencia en tokens de razonamiento
GPT-5.4 es el modelo de razonamiento más eficiente en tokens de OpenAI, utilizando significativamente menos tokens para resolver problemas que GPT-5.2. Esto se traduce directamente en costes más bajos y respuestas más rápidas, incluso cuando el modelo está realizando cadenas de pensamiento complejas.
Además, según el análisis de seguridad (system card), la capacidad de GPT-5.4 Thinking para controlar su cadena de pensamiento es baja, lo que es una propiedad positiva para la seguridad: el modelo no puede ocultar fácilmente su razonamiento, lo que hace que la monitorización de la cadena de pensamiento siga siendo una herramienta de seguridad efectiva.
Variantes: Standard, Pro, Mini y Nano
La familia GPT-5.4 se compone de cuatro variantes principales, cada una diseñada para un caso de uso diferente:
GPT-5.4 Standard
El modelo principal, disponible desde el 5 de marzo en la API y ChatGPT. Combina razonamiento avanzado, programación, computer use y la ventana de contexto de hasta 1M de tokens. Es la opción equilibrada para la mayoría de tareas profesionales.
GPT-5.4 Pro
La variante de máximo rendimiento, con puntuaciones superiores en benchmarks como ARC-AGI-2 (donde alcanza un 83,3%). Disponible a través de la API Pro con precios significativamente más altos: $30/1M tokens de entrada y $180/1M tokens de salida. Orientada a empresas y tareas donde la calidad máxima justifica el coste.
GPT-5.4 Mini
Lanzada el 17 de marzo de 2026, GPT-5.4 mini es el modelo pequeño más capaz de OpenAI. Mejora significativamente sobre GPT-5 mini en programación, razonamiento, comprensión multimodal y uso de herramientas, mientras funciona más del doble de rápido. En SWE-Bench Pro alcanza un 54,4% (frente al 45,7% de GPT-5 mini) y en OSWorld-Verified un impresionante 72,1%, casi igualando al modelo principal (75,0%).
GPT-5.4 Nano
La variante más pequeña y económica, también lanzada el 17 de marzo. Diseñada para tareas donde la velocidad y el coste son prioritarios: clasificación, extracción de datos, ranking y subagentes de código que manejan tareas simples. Con un 52,4% en SWE-Bench Pro y un 39,0% en OSWorld, sigue siendo un salto enorme respecto a modelos nano anteriores.
Ambos modelos pequeños soportan una ventana de contexto de 400.000 tokens y están disponibles a través de la API de OpenAI. GPT-5.4 mini también está disponible en Codex y se ha integrado como modelo gratuito en ChatGPT.
| Variante | Lanzamiento | Contexto | SWE-Bench Pro | OSWorld | Input/1M | Output/1M |
|---|---|---|---|---|---|---|
| GPT-5.4 | 5 marzo | 272K-1M | 57,7% | 75,0% | $2,50 | $15,00 |
| GPT-5.4 Pro | 5 marzo | 272K-1M | — | — | $30,00 | $180,00 |
| GPT-5.4 Mini | 17 marzo | 400K | 54,4% | 72,1% | $0,75 | $4,50 |
| GPT-5.4 Nano | 17 marzo | 400K | 52,4% | 39,0% | $0,20 | $1,25 |
Benchmarks y rendimiento
GPT-5.4 marca récords en varias categorías clave. Estos son los resultados más destacados según las evaluaciones oficiales e independientes:
| Benchmark | GPT-5.4 | GPT-5.2 (anterior) | Qué mide |
|---|---|---|---|
| OSWorld-Verified | 75,0% | 47,3% | Computer use / navegación escritorio |
| WebArena-Verified | 67,3% | 65,4% | Navegación web autónoma |
| Online-Mind2Web | 92,8% | 70,9% | Interacción web por capturas |
| GDPval-AA | 83,0% | — | Trabajo profesional |
| SWE-Bench Pro | 57,7% | 55,6% | Resolución de bugs en código |
| SWE-Bench Verified | 80,0% | — | Resolución de bugs verificados |
| BigLaw Bench | 91,0% | — | Razonamiento legal |
| ARC-AGI-2 | 73,3% | 52,9% | Razonamiento abstracto |
| GPQA Diamond | 92,0% | — | Ciencia nivel doctorado |
Lo más destacado: El salto en OSWorld-Verified del 47,3% (GPT-5.2) al 75,0% (GPT-5.4) es espectacular y refleja el enfoque de OpenAI en capacidades agénticas. En Online-Mind2Web, la mejora del 70,9% al 92,8% confirma que GPT-5.4 es actualmente el modelo más avanzado del mundo en interacción autónoma con interfaces gráficas.
GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro
Marzo de 2026 es el mes más competitivo en la historia de la IA. Tres modelos frontier compiten por el liderazgo, cada uno con fortalezas diferentes. Veamos cómo se posiciona GPT-5.4 frente a sus rivales directos:
| Aspecto | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| Computer use (OSWorld) | 75,0% | 72,7% | 68,2% |
| Código (SWE-Bench Verified) | 80,0% | 80,8% | 80,6% |
| Razonamiento (ARC-AGI-2) | 73,3% | 68,8% | 77,1% |
| Ciencia (GPQA Diamond) | 92,0% | 77,3% | 94,3% |
| Trabajo profesional (GDPval) | 83,0% | 81,2% | 79,8% |
| Contexto largo (MRCR v2 a 1M) | 18,5% | 76,0% | 71,3% |
| Input API (estándar) | $2,50/1M | $5,00/1M | $2,00/1M |
| Output API (estándar) | $15,00/1M | $25,00/1M | $12,00/1M |
| Output máximo | 128K tokens | 128K tokens | 65K tokens |
¿Dónde gana GPT-5.4?
Computer use y agentes: GPT-5.4 es líder indiscutible en tareas de control de ordenador, superando tanto a Claude Opus 4.6 como a Gemini 3.1 Pro. Si necesitas IA que "haga cosas" en el mundo real (automatizar tareas de escritorio, navegar por la web, gestionar documentos), GPT-5.4 es la mejor opción.
Trabajo profesional: Con un 83% en GDPval y un 91% en BigLaw Bench, GPT-5.4 destaca en tareas de conocimiento profesional: redacción legal, análisis de documentos empresariales y flujos de trabajo complejos.
¿Dónde se queda atrás?
Contexto largo: El 18,5% en MRCR v2 a 1M de tokens es preocupante. Aunque GPT-5.4 admite hasta 1M de tokens, la calidad de recuperación de información en contextos tan largos es muy inferior a Claude Opus 4.6 (76%) y Gemini 3.1 Pro (71,3%).
Razonamiento abstracto y ciencia: Gemini 3.1 Pro mantiene la ventaja en ARC-AGI-2 (77,1% vs 73,3%) y GPQA Diamond (94,3% vs 92,0%). Para investigación científica o resolución de problemas lógicos novedosos, Gemini sigue siendo superior.
¿Quieres profundizar? Consulta nuestra comparativa completa entre los tres modelos con más de 12 benchmarks analizados, tablas de precios detalladas y recomendaciones por caso de uso.
Precios API
Los precios de la familia GPT-5.4 cubren un amplio rango, desde los $0,20/1M tokens de nano hasta los $180/1M de la variante Pro:
| Modelo | Input/1M tokens | Output/1M tokens | Contexto | Caso de uso ideal |
|---|---|---|---|---|
| GPT-5.4 Nano | $0,20 | $1,25 | 400K | Clasificación, extracción, subagentes |
| GPT-5.4 Mini | $0,75 | $4,50 | 400K | Coding, agentes ligeros, alto volumen |
| GPT-5.4 | $2,50 | $15,00 | 272K-1M | Profesional, computer use, razonamiento |
| GPT-5.4 Pro | $30,00 | $180,00 | 272K-1M | Máximo rendimiento, enterprise |
Coste adicional por contexto largo: Cuando se usan más de 272K tokens de entrada con GPT-5.4 o GPT-5.4 Pro, los precios de input se multiplican por 2x y los de output por 1,5x para toda la sesión. Es importante tener esto en cuenta al planificar el presupuesto.
Comparado con la competencia, GPT-5.4 estándar ($2,50/$15) se sitúa entre Gemini 3.1 Pro ($2/$12, el más barato) y Claude Opus 4.6 ($5/$25, el más caro). Las variantes mini y nano compiten directamente con Claude Haiku y Gemini Flash en el segmento de modelos pequeños y económicos. Si buscas herramientas de IA accesibles, consulta nuestra guía de mejores herramientas de IA gratis en 2026.
OpenAI también mantiene el contexto de la ronda de financiación récord de 110.000 millones de dólares, lo que le da margen para competir agresivamente en precios a lo largo de 2026.
¿Cómo usar GPT-5.4?
GPT-5.4 está disponible a través de múltiples canales:
ChatGPT
GPT-5.4 Thinking está disponible en ChatGPT para suscriptores de Plus, Pro y Team. GPT-5.4 mini también se ha integrado como modelo gratuito en ChatGPT, lo que permite a cualquier usuario acceder a la familia GPT-5.4 sin coste alguno.
API de OpenAI
Todos los modelos de la familia (Standard, Pro, Mini y Nano) están disponibles a través de la API. El computer use funciona mediante el envío de capturas de pantalla y la recepción de comandos de interacción. Para activar la ventana de contexto de 1M tokens, es necesario configurar los parámetros model_context_window y model_auto_compact_token_limit.
Codex
GPT-5.4 y GPT-5.4 mini están integrados en Codex, la herramienta de OpenAI para desarrollo de software. Combinado con las capacidades de computer use, Codex permite crear agentes que trabajan de forma autónoma durante horas, ejecutando tareas de desarrollo, testing y despliegue.
Para programadores
Si eres desarrollador, GPT-5.4 es una opción sólida para vibe coding y desarrollo asistido por IA. También puedes combinarlo con herramientas como Cursor AI para maximizar la productividad.
Conclusión
GPT-5.4 marca un antes y un después en la estrategia de OpenAI. Con el computer use nativo, la compañía ha dado un salto decisivo hacia la IA que no solo piensa, sino que actúa. El rendimiento en OSWorld (75%, superando a humanos) y Online-Mind2Web (92,8%) demuestra que la automatización de tareas de escritorio mediante IA ya es una realidad práctica.
Sin embargo, no es perfecto en todo. La calidad de recuperación en contextos largos (18,5% en MRCR v2) y la diferencia con Gemini 3.1 Pro en razonamiento abstracto muestran que aún hay margen de mejora. La familia completa con Mini y Nano, además, ofrece opciones para cada presupuesto y caso de uso.
La conclusión es clara: en marzo de 2026, la estrategia más inteligente no es elegir un solo modelo, sino combinar GPT-5.4 para computer use y trabajo profesional, Claude Opus 4.6 para programación compleja y contextos largos, y Gemini 3.1 Pro para razonamiento científico y mejor relación calidad-precio. La era de los modelos frontier complementarios ha llegado definitivamente.
Preguntas frecuentes
¿Cuándo se lanzó GPT-5.4?
GPT-5.4 Standard y GPT-5.4 Pro se lanzaron el 5 de marzo de 2026. Las variantes GPT-5.4 mini y GPT-5.4 nano se lanzaron el 17 de marzo de 2026.
¿GPT-5.4 puede controlar mi ordenador?
Sí, GPT-5.4 es el primer modelo de propósito general de OpenAI con computer use nativo. Puede interpretar capturas de pantalla, controlar el ratón y teclado, navegar por la web y ejecutar flujos de trabajo entre aplicaciones. En OSWorld-Verified alcanza un 75%, superando el rendimiento humano experto (72,4%).
¿Cuánto cuesta GPT-5.4 en la API?
GPT-5.4 estándar cuesta $2,50 por millón de tokens de entrada y $15 por millón de salida. GPT-5.4 mini cuesta $0,75/$4,50 y GPT-5.4 nano $0,20/$1,25. La variante Pro cuesta $30/$180 por millón de tokens.
¿GPT-5.4 es mejor que Claude Opus 4.6?
Depende de la tarea. GPT-5.4 supera a Claude Opus 4.6 en computer use (75% vs 72,7% en OSWorld) y trabajo profesional (83% vs 81,2% en GDPval). Sin embargo, Claude Opus 4.6 es superior en programación (80,8% vs 80,0% en SWE-Bench) y sobre todo en recuperación de contexto largo (76% vs 18,5% en MRCR v2).
¿Cuál es la ventana de contexto de GPT-5.4?
La ventana estándar es de 272.000 tokens, ampliable hasta 1.050.000 tokens (1M+) mediante configuración explícita en la API. Las variantes mini y nano tienen una ventana de 400.000 tokens.
¿Puedo usar GPT-5.4 gratis?
GPT-5.4 mini está disponible de forma gratuita en ChatGPT. Para acceder a GPT-5.4 Thinking completo, necesitas una suscripción a ChatGPT Plus ($20/mes), Pro ($200/mes) o Team. El acceso a la API requiere una cuenta de desarrollador con créditos.
¿GPT-5.4 mini merece la pena frente al modelo completo?
GPT-5.4 mini ofrece una relación calidad-precio excepcional. En SWE-Bench Pro alcanza un 54,4% (frente al 57,7% del modelo completo) y en OSWorld un 72,1% (frente al 75,0%), pero a un 70% menos de coste. Para la mayoría de flujos de trabajo, mini es más que suficiente.
Comentarios
Inicia sesion para dejar un comentario
Acceder