Meta ha lanzado Llama 4, su familia de modelos de IA más ambiciosa hasta la fecha: arquitectura Mixture of Experts, multimodalidad nativa, hasta 10 millones de tokens de contexto y la primera versión open-weight capaz de competir con GPT-5 y Claude Opus. Pero también viene con una polémica enorme: manipulación confirmada de benchmarks. En esta guía te explicamos todo sobre Scout, Maverick y Behemoth, cómo usarlos, y por qué la UE se ha quedado fuera.
Las tres variantes: Scout, Maverick y Behemoth
Llama 4 no es un solo modelo, sino una familia de tres, cada uno diseñado para un caso de uso diferente:
| Característica | Scout | Maverick | Behemoth |
|---|---|---|---|
| Parámetros activos | 17B | 17B | 288B |
| Parámetros totales | 109B | 400B | ~2 billones |
| Expertos MoE | 16 | 128 | 16 |
| Contexto | 10M tokens | 1M tokens | No publicado |
| Estado | ✅ Disponible | ✅ Disponible | ❌ No lanzado |
Scout es el modelo ligero con la ventana de contexto más grande del mercado: 10 millones de tokens. Puede ejecutarse en una sola GPU H100. Maverick es el modelo flagship, con 128 expertos y el mejor rendimiento multimodal. Behemoth, con casi 2 billones de parámetros, fue diseñado como "modelo profesor" para mejorar a los otros dos mediante codestilación, pero Meta pospuso su lanzamiento indefinidamente.
Arquitectura: las 4 innovaciones clave
1. Mixture of Experts (MoE)
Es la primera familia Llama con arquitectura MoE. En lugar de activar todos los parámetros para cada token (como hace un modelo denso), solo se activa una fracción: 17B de los 109B totales en Scout, o 17B de 400B en Maverick. Esto significa mejor calidad con menor coste de inferencia.
2. Early Fusion (multimodalidad nativa)
A diferencia de modelos que "pegan" un módulo de visión después del entrenamiento, Llama 4 integra texto, imágenes y vídeo desde el inicio del entrenamiento. Los tokens visuales y textuales comparten el mismo backbone unificado, lo que permite una comprensión multimodal mucho más profunda.
3. iRoPE (Interleaved Rotary Position Embeddings)
La innovación que permite los 10 millones de tokens de contexto en Scout. Funciona alternando:
- 3 capas RoPE: Atención local con posiciones relativas
- 1 capa NoPE: Atención global sin información posicional
Este patrón intercalado reduce la complejidad cuadrática de la atención, permitiendo escalar a contextos enormes sin que el rendimiento se desplome.
4. Entrenamiento en FP8
Llama 4 se entrenó con más de 30 billones de tokens (el doble que Llama 3), utilizando precisión FP8 sin sacrificar calidad. Esto permitió alcanzar 390 TFLOPs por GPU durante el preentrenamiento.
Benchmarks y rendimiento real
Las cifras reportadas por Meta en el lanzamiento (abril 2025) fueron impresionantes. Sin embargo, como veremos en la sección de controversias, hay que tomarlas con cautela:
| Benchmark | Scout (109B) | Maverick (400B) |
|---|---|---|
| MMLU Pro | 74.3 | 80.5 |
| GPQA Diamond | 57.2 | 69.8 |
| LiveCodeBench | 32.8 | 43.4 |
| MBPP (código) | 67.8 | 77.6 |
| MATH | 50.3 | 61.2 |
| Multilingual MMLU | - | 84.6 |
| MMMU (imagen) | - | 73.4 |
¿Dónde están a día de hoy? (abril 2026)
Un año después del lanzamiento, Llama 4 ya no está en la cima de los rankings generales. Los modelos más recientes lo superan:
- Claude Opus 4.6: Líder en código (SWE-bench: 80,8%)
- Gemini 3.1 Pro: Líder en razonamiento científico (GPQA Diamond: 94,3%)
- GPT-5.4: Líder en inteligencia general
Sin embargo, Scout y Maverick siguen siendo los mejores modelos open-weight de su generación, lo que los hace especialmente valiosos para quienes necesitan ejecutar IA localmente o fine-tunear modelos propios.
Si te interesa cómo se comparan los principales modelos de IA, consulta nuestra comparativa Gemini 3.1 Pro vs Claude Opus vs GPT-5.
Cómo usar Llama 4
Plataformas de Meta (sin instalación)
- Meta AI (meta.ai): Asistente web con Llama 4
- WhatsApp, Messenger, Instagram: Disponible en más de 40 países
Para desarrolladores
- Hugging Face: Descarga de pesos en formato GGUF y SafeTensors
- Ollama:
ollama run llama4(requiere v0.20.0+) - vLLM: Soporte nativo para inferencia optimizada
- Unsloth: Para fine-tuning eficiente
- APIs cloud: AWS, Azure, GCP, Oracle, Cloudflare Workers AI
Si quieres ejecutar modelos de IA en tu propio hardware, nuestra guía de Ollama para IA local te explica el proceso paso a paso.
Licencia: open-weight, no open source
Es un punto que genera confusión constante: Llama 4 es open-weight (pesos públicos), pero no open source según la Open Source Initiative (OSI). La diferencia importa:
- ✅ Puedes descargar y usar los pesos del modelo
- ✅ Incluye código de inferencia, entrenamiento y fine-tuning
- ❌ Tiene una Acceptable Use Policy con restricciones
- ❌ Excluye a usuarios de la Unión Europea
Para más contexto sobre la regulación europea, consulta nuestro artículo sobre la regulación IA en Europa y el EU AI Act.
Mejoras respecto a Llama 3
| Aspecto | Llama 3 | Llama 4 |
|---|---|---|
| Arquitectura | Densa | Mixture of Experts |
| Multimodalidad | Añadida después | Nativa (early fusion) |
| Contexto máximo | 128K tokens | 10M tokens (Scout) |
| Datos de entrenamiento | ~15T tokens | >30T tokens |
| Precisión | BF16/FP16 | FP8 |
| Position Embeddings | RoPE estándar | iRoPE (intercalado) |
| Eficiencia | Todos los params activos | Solo fracción activa |
Requisitos de hardware para ejecución local
Si quieres ejecutar Llama 4 en tu propio equipo, necesitarás bastante potencia. Aquí están los requisitos según el nivel de cuantización:
Llama 4 Scout (109B)
- FP16 (máxima calidad): ~218 GB de VRAM
- Q8: ~109 GB de VRAM
- Q4_K_M: ~61 GB de VRAM
- 1.78-bit (agresivo): Cabe en GPU de 24 GB (~20 tokens/seg)
- Mac M4 Ultra 192 GB: Cómodo en Q4+ vía memoria unificada
Llama 4 Maverick (400B)
- FP16: ~800 GB de VRAM
- Q4: ~200-224 GB de VRAM
- 1.78-bit: ~100 GB (2 GPUs de 48 GB, ~40 tokens/seg)
Llama 4 Behemoth (~2T)
- FP16: ~3,6 TB de VRAM. Solo ejecutable en clústeres de servidores
El escándalo de los benchmarks
La mayor mancha de Llama 4. Lo que empezó como sospechas se confirmó meses después como manipulación real:
Cronología
- 5 abril 2025: Meta lanza Llama 4. Maverick aparece en el puesto 2 de LMArena
- 7-8 abril 2025: Investigadores descubren que Meta envió una versión "experimental" diferente al modelo público. Maverick cae del puesto 2 al 32 en LMArena
- Abril 2025: Ahmad Al-Dahle (VP GenAI de Meta) niega las acusaciones
- Mayo 2025: Meta pospone el lanzamiento de Behemoth
- Enero 2026: Yann LeCun (saliente como jefe de IA de Meta) confirma la manipulación en una entrevista con Financial Times
Lo que confirmó LeCun
En sus propias palabras: "Los resultados fueron maquillados un poco". Según su testimonio:
- Usaron diferentes versiones del modelo para diferentes benchmarks
- El liderazgo sugirió mezclar test sets de benchmarks en la fase de post-entrenamiento
- Mark Zuckerberg "se enfadó mucho y perdió la confianza en todos los involucrados"
- Zuckerberg "marginó a toda la organización de GenAI"
LeCun abandonó Meta tras más de una década para fundar Advanced Machine Intelligence Labs. El escándalo dañó la credibilidad de los benchmarks en toda la industria.
Conclusión
Llama 4 es un modelo técnicamente brillante empañado por una polémica evitable. La arquitectura MoE, los 10 millones de tokens de contexto y la multimodalidad nativa son avances reales e importantes. Para desarrolladores y empresas que necesitan modelos open-weight potentes, sigue siendo la mejor opción disponible.
Pero la manipulación de benchmarks confirmada por el propio LeCun, la exclusión de la UE y la cancelación indefinida de Behemoth dejan un sabor agridulce. Meta tiene la tecnología; ahora necesita recuperar la confianza.
Si buscas alternativas, no te pierdas nuestra guía sobre las mejores herramientas de IA gratis en 2026.
Preguntas Frecuentes
¿Llama 4 es open source?
No exactamente. Es open-weight: los pesos están disponibles públicamente, pero la licencia tiene restricciones (incluida la exclusión de la UE). La Open Source Initiative no lo considera open source.
¿Puedo usar Llama 4 en España?
La licencia oficial excluye a usuarios de la Unión Europea. Puedes acceder a través de Meta AI o APIs de terceros, pero la descarga directa de pesos técnicamente no está permitida para residentes de la UE.
¿Qué GPU necesito para ejecutar Llama 4 Scout?
En cuantización agresiva (1.78-bit), cabe en una GPU de 24 GB como una RTX 4090. Para calidad Q4_K_M necesitarás ~61 GB de VRAM. En FP16, ~218 GB.
¿Qué pasó con Llama 4 Behemoth?
Meta pospuso su lanzamiento indefinidamente tras el escándalo de benchmarks. A abril de 2026, no hay fecha confirmada de publicación.
¿Llama 4 es mejor que GPT-5 o Claude Opus?
No en términos absolutos. A abril de 2026, Claude Opus 4.6 lidera en código, Gemini 3.1 Pro en ciencia y GPT-5.4 en inteligencia general. Pero Llama 4 es el mejor modelo open-weight, lo que lo hace ideal para ejecución local y fine-tuning.
Comentarios
Inicia sesion para dejar un comentario
Acceder