Llama 4 de Meta representación visual de las tres variantes del modelo de IA
Volver al blog
IA 7 Abril 2026 14 min lectura 7 visitas

Llama 4 de Meta: Guía Completa del Modelo de IA Open-Weight más Ambicioso (2026)

Arkaia Corporation
Arkaia Corporation Editor

Meta ha lanzado Llama 4, su familia de modelos de IA más ambiciosa hasta la fecha: arquitectura Mixture of Experts, multimodalidad nativa, hasta 10 millones de tokens de contexto y la primera versión open-weight capaz de competir con GPT-5 y Claude Opus. Pero también viene con una polémica enorme: manipulación confirmada de benchmarks. En esta guía te explicamos todo sobre Scout, Maverick y Behemoth, cómo usarlos, y por qué la UE se ha quedado fuera.

Las tres variantes: Scout, Maverick y Behemoth

Llama 4 no es un solo modelo, sino una familia de tres, cada uno diseñado para un caso de uso diferente:

CaracterísticaScoutMaverickBehemoth
Parámetros activos17B17B288B
Parámetros totales109B400B~2 billones
Expertos MoE1612816
Contexto10M tokens1M tokensNo publicado
Estado✅ Disponible✅ Disponible❌ No lanzado

Scout es el modelo ligero con la ventana de contexto más grande del mercado: 10 millones de tokens. Puede ejecutarse en una sola GPU H100. Maverick es el modelo flagship, con 128 expertos y el mejor rendimiento multimodal. Behemoth, con casi 2 billones de parámetros, fue diseñado como "modelo profesor" para mejorar a los otros dos mediante codestilación, pero Meta pospuso su lanzamiento indefinidamente.

Llama 4 de Meta con las tres variantes Scout Maverick y Behemoth
La familia Llama 4 incluye tres variantes: Scout, Maverick y el inédito Behemoth

Arquitectura: las 4 innovaciones clave

1. Mixture of Experts (MoE)

Es la primera familia Llama con arquitectura MoE. En lugar de activar todos los parámetros para cada token (como hace un modelo denso), solo se activa una fracción: 17B de los 109B totales en Scout, o 17B de 400B en Maverick. Esto significa mejor calidad con menor coste de inferencia.

⚠️ Importante: Aunque solo se activan 17B parámetros por token, todos los parámetros deben cargarse en VRAM. Scout necesita ~218 GB en FP16, no 34 GB como podría parecer.

2. Early Fusion (multimodalidad nativa)

A diferencia de modelos que "pegan" un módulo de visión después del entrenamiento, Llama 4 integra texto, imágenes y vídeo desde el inicio del entrenamiento. Los tokens visuales y textuales comparten el mismo backbone unificado, lo que permite una comprensión multimodal mucho más profunda.

3. iRoPE (Interleaved Rotary Position Embeddings)

La innovación que permite los 10 millones de tokens de contexto en Scout. Funciona alternando:

  • 3 capas RoPE: Atención local con posiciones relativas
  • 1 capa NoPE: Atención global sin información posicional

Este patrón intercalado reduce la complejidad cuadrática de la atención, permitiendo escalar a contextos enormes sin que el rendimiento se desplome.

4. Entrenamiento en FP8

Llama 4 se entrenó con más de 30 billones de tokens (el doble que Llama 3), utilizando precisión FP8 sin sacrificar calidad. Esto permitió alcanzar 390 TFLOPs por GPU durante el preentrenamiento.

Diagrama de arquitectura Mixture of Experts de Llama 4
La arquitectura MoE activa solo una fracción de los parámetros por token, mejorando la eficiencia

Benchmarks y rendimiento real

Las cifras reportadas por Meta en el lanzamiento (abril 2025) fueron impresionantes. Sin embargo, como veremos en la sección de controversias, hay que tomarlas con cautela:

BenchmarkScout (109B)Maverick (400B)
MMLU Pro74.380.5
GPQA Diamond57.269.8
LiveCodeBench32.843.4
MBPP (código)67.877.6
MATH50.361.2
Multilingual MMLU-84.6
MMMU (imagen)-73.4

¿Dónde están a día de hoy? (abril 2026)

Un año después del lanzamiento, Llama 4 ya no está en la cima de los rankings generales. Los modelos más recientes lo superan:

  • Claude Opus 4.6: Líder en código (SWE-bench: 80,8%)
  • Gemini 3.1 Pro: Líder en razonamiento científico (GPQA Diamond: 94,3%)
  • GPT-5.4: Líder en inteligencia general

Sin embargo, Scout y Maverick siguen siendo los mejores modelos open-weight de su generación, lo que los hace especialmente valiosos para quienes necesitan ejecutar IA localmente o fine-tunear modelos propios.

Si te interesa cómo se comparan los principales modelos de IA, consulta nuestra comparativa Gemini 3.1 Pro vs Claude Opus vs GPT-5.

Cómo usar Llama 4

Plataformas de Meta (sin instalación)

  • Meta AI (meta.ai): Asistente web con Llama 4
  • WhatsApp, Messenger, Instagram: Disponible en más de 40 países

Para desarrolladores

  • Hugging Face: Descarga de pesos en formato GGUF y SafeTensors
  • Ollama: ollama run llama4 (requiere v0.20.0+)
  • vLLM: Soporte nativo para inferencia optimizada
  • Unsloth: Para fine-tuning eficiente
  • APIs cloud: AWS, Azure, GCP, Oracle, Cloudflare Workers AI

Si quieres ejecutar modelos de IA en tu propio hardware, nuestra guía de Ollama para IA local te explica el proceso paso a paso.

Diferentes plataformas para usar Llama 4 incluyendo Ollama y Hugging Face
Llama 4 está disponible en múltiples plataformas, desde Meta AI hasta ejecución local con Ollama

Licencia: open-weight, no open source

Es un punto que genera confusión constante: Llama 4 es open-weight (pesos públicos), pero no open source según la Open Source Initiative (OSI). La diferencia importa:

  • ✅ Puedes descargar y usar los pesos del modelo
  • ✅ Incluye código de inferencia, entrenamiento y fine-tuning
  • ❌ Tiene una Acceptable Use Policy con restricciones
  • Excluye a usuarios de la Unión Europea
⚠️ Restricción geográfica: La licencia de Llama 4 excluye explícitamente a individuos y empresas con sede en la UE. Si estás en España u otro país europeo, técnicamente no puedes usar Llama 4 de forma directa bajo esta licencia. Esto se debe probablemente a conflictos con el EU AI Act.

Para más contexto sobre la regulación europea, consulta nuestro artículo sobre la regulación IA en Europa y el EU AI Act.

Mejoras respecto a Llama 3

AspectoLlama 3Llama 4
ArquitecturaDensaMixture of Experts
MultimodalidadAñadida despuésNativa (early fusion)
Contexto máximo128K tokens10M tokens (Scout)
Datos de entrenamiento~15T tokens>30T tokens
PrecisiónBF16/FP16FP8
Position EmbeddingsRoPE estándariRoPE (intercalado)
EficienciaTodos los params activosSolo fracción activa

Requisitos de hardware para ejecución local

Si quieres ejecutar Llama 4 en tu propio equipo, necesitarás bastante potencia. Aquí están los requisitos según el nivel de cuantización:

Llama 4 Scout (109B)

  • FP16 (máxima calidad): ~218 GB de VRAM
  • Q8: ~109 GB de VRAM
  • Q4_K_M: ~61 GB de VRAM
  • 1.78-bit (agresivo): Cabe en GPU de 24 GB (~20 tokens/seg)
  • Mac M4 Ultra 192 GB: Cómodo en Q4+ vía memoria unificada

Llama 4 Maverick (400B)

  • FP16: ~800 GB de VRAM
  • Q4: ~200-224 GB de VRAM
  • 1.78-bit: ~100 GB (2 GPUs de 48 GB, ~40 tokens/seg)

Llama 4 Behemoth (~2T)

  • FP16: ~3,6 TB de VRAM. Solo ejecutable en clústeres de servidores
GPU y hardware necesario para ejecutar Llama 4 localmente
Ejecutar Llama 4 localmente requiere hardware potente, especialmente para Maverick y Behemoth

El escándalo de los benchmarks

La mayor mancha de Llama 4. Lo que empezó como sospechas se confirmó meses después como manipulación real:

Cronología

  • 5 abril 2025: Meta lanza Llama 4. Maverick aparece en el puesto 2 de LMArena
  • 7-8 abril 2025: Investigadores descubren que Meta envió una versión "experimental" diferente al modelo público. Maverick cae del puesto 2 al 32 en LMArena
  • Abril 2025: Ahmad Al-Dahle (VP GenAI de Meta) niega las acusaciones
  • Mayo 2025: Meta pospone el lanzamiento de Behemoth
  • Enero 2026: Yann LeCun (saliente como jefe de IA de Meta) confirma la manipulación en una entrevista con Financial Times

Lo que confirmó LeCun

En sus propias palabras: "Los resultados fueron maquillados un poco". Según su testimonio:

  • Usaron diferentes versiones del modelo para diferentes benchmarks
  • El liderazgo sugirió mezclar test sets de benchmarks en la fase de post-entrenamiento
  • Mark Zuckerberg "se enfadó mucho y perdió la confianza en todos los involucrados"
  • Zuckerberg "marginó a toda la organización de GenAI"

LeCun abandonó Meta tras más de una década para fundar Advanced Machine Intelligence Labs. El escándalo dañó la credibilidad de los benchmarks en toda la industria.

💡 Contexto: A pesar del escándalo, Llama 4 sigue siendo técnicamente competente. El problema no fue el modelo en sí, sino la forma en que Meta presentó sus resultados. Los benchmarks independientes muestran un rendimiento sólido, aunque inferior a lo que Meta afirmó inicialmente.

Conclusión

Llama 4 es un modelo técnicamente brillante empañado por una polémica evitable. La arquitectura MoE, los 10 millones de tokens de contexto y la multimodalidad nativa son avances reales e importantes. Para desarrolladores y empresas que necesitan modelos open-weight potentes, sigue siendo la mejor opción disponible.

Pero la manipulación de benchmarks confirmada por el propio LeCun, la exclusión de la UE y la cancelación indefinida de Behemoth dejan un sabor agridulce. Meta tiene la tecnología; ahora necesita recuperar la confianza.

Si buscas alternativas, no te pierdas nuestra guía sobre las mejores herramientas de IA gratis en 2026.

Preguntas Frecuentes

¿Llama 4 es open source?

No exactamente. Es open-weight: los pesos están disponibles públicamente, pero la licencia tiene restricciones (incluida la exclusión de la UE). La Open Source Initiative no lo considera open source.

¿Puedo usar Llama 4 en España?

La licencia oficial excluye a usuarios de la Unión Europea. Puedes acceder a través de Meta AI o APIs de terceros, pero la descarga directa de pesos técnicamente no está permitida para residentes de la UE.

¿Qué GPU necesito para ejecutar Llama 4 Scout?

En cuantización agresiva (1.78-bit), cabe en una GPU de 24 GB como una RTX 4090. Para calidad Q4_K_M necesitarás ~61 GB de VRAM. En FP16, ~218 GB.

¿Qué pasó con Llama 4 Behemoth?

Meta pospuso su lanzamiento indefinidamente tras el escándalo de benchmarks. A abril de 2026, no hay fecha confirmada de publicación.

¿Llama 4 es mejor que GPT-5 o Claude Opus?

No en términos absolutos. A abril de 2026, Claude Opus 4.6 lidera en código, Gemini 3.1 Pro en ciencia y GPT-5.4 en inteligencia general. Pero Llama 4 es el mejor modelo open-weight, lo que lo hace ideal para ejecución local y fine-tuning.

Compartir:

Comentarios

Cargando comentarios...