Claude Mythos: La Filtración del Modelo de IA más Potente de Anthropic y sus Implicaciones

El 26 de marzo de 2026, la revista Fortune publicó una de las filtraciones más impactantes en la historia reciente de la inteligencia artificial: documentos internos de Anthropic revelaron la existencia de Claude Mythos, un nuevo modelo de IA con nombre en clave "Capybara" que representa un nivel superior a Claude Opus 4.6. La filtración se produjo por un error de configuración en el CMS de Anthropic que dejó aproximadamente 3.000 archivos accesibles públicamente sin autenticación. La ironía es devastadora: la empresa que lleva semanas advirtiendo a gobiernos sobre los riesgos de ciberseguridad de la IA sufrió su propia brecha de seguridad. Días después, el 31 de marzo, el código fuente de Claude Code también se filtró. En este artículo analizamos todo lo que sabemos sobre Mythos, sus capacidades en ciberseguridad y el impacto en los mercados.

Representación visual de Claude Mythos, el modelo de IA filtrado de Anthropic con estética futurista oscura — Claude Mythos: el modelo de IA secreto de Anthropic que salió a la luz por un error de configuración

¿Qué es Claude Mythos?

Según los documentos filtrados, Claude Mythos (nombre en clave interno: "Capybara") es el próximo gran modelo de inteligencia artificial de Anthropic. No se trata de una actualización incremental de Opus 4.6, sino de un nivel completamente nuevo en la jerarquía de modelos de la compañía: un tier por encima de Opus.

Los archivos internos describen a Mythos como un "cambio de paso" (step change) en capacidades, calificándolo como "el modelo más capaz que hemos construido hasta la fecha". Esto es significativo considerando que Opus 4.6 ya descubrió 22 vulnerabilidades zero-day en Firefox y lidera los benchmarks de programación.

Lo que hace especialmente preocupante esta filtración no es solo que un modelo tan avanzado exista, sino que los propios documentos internos de Anthropic reconozcan explícitamente los riesgos que Mythos plantea, particularmente en el ámbito de la ciberseguridad ofensiva.

La filtración: cómo ocurrió

La brecha de seguridad fue sorprendentemente simple. Un error de configuración en el sistema de gestión de contenidos (CMS) de Anthropic dejó un almacén de datos públicamente accesible y buscable sin ningún tipo de autenticación. Aproximadamente 3.000 archivos internos quedaron expuestos, incluyendo documentación técnica, evaluaciones de benchmarks, comunicaciones internas sobre riesgos y planes de despliegue.

Ilustración de una brecha de datos con archivos expuestos y un candado abierto sobre fondo digital — Un error de configuración en el CMS dejó ~3.000 archivos internos de Anthropic accesibles sin autenticación

La revista Fortune fue la primera en reportar la historia el 26 de marzo de 2026, tras descubrir los archivos expuestos y verificar su autenticidad. No se sabe exactamente cuánto tiempo estuvieron los datos accesibles antes de que se detectara el problema, pero la magnitud del contenido expuesto sugiere que no fue un incidente menor.

Solo cinco días después, el 31 de marzo, la situación empeoró cuando el código fuente de Claude Code —la herramienta de línea de comandos de Anthropic para programación con IA— también se filtró por una vía aparentemente relacionada. Esto amplió significativamente el alcance de la brecha, exponiendo no solo documentación estratégica sino también propiedad intelectual técnica.

Capacidades y benchmarks de Mythos

Los documentos filtrados revelan que Claude Mythos obtiene puntuaciones dramáticamente superiores a Claude Opus 4.6 en múltiples áreas clave:

Codificación: Mejoras significativas en generación, refactorización y debugging de código complejo
Razonamiento académico: Puntuaciones marcadamente más altas en benchmarks de razonamiento científico y matemático
Ciberseguridad: Capacidades ofensivas y defensivas que superan con creces cualquier modelo anterior
Tareas agénticas: Mayor autonomía y fiabilidad en flujos de trabajo de larga duración

Gráfico comparativo de benchmarks entre Claude Mythos y Claude Opus 4.6 mostrando mejoras significativas — Los benchmarks filtrados muestran que Mythos supera ampliamente a Opus 4.6 en codificación, razonamiento y ciberseguridad

Aunque las cifras exactas de los benchmarks aún están siendo verificadas por la comunidad de investigadores, el consenso entre los analistas que han revisado los documentos es que Mythos representa un salto generacional, no una mejora incremental. El propio lenguaje interno de Anthropic —"step change"— refuerza esta interpretación.

Si recordamos que Opus 4.6 ya obtuvo un 80,8% en SWE-Bench y un 65,4% en Terminal-Bench 2.0 (la puntuación más alta jamás registrada), las implicaciones de un modelo que lo supere "dramáticamente" son difíciles de procesar.

Implicaciones en ciberseguridad

⚠ Alerta de seguridad: Los documentos filtrados indican que Claude Mythos es capaz de descubrir y explotar vulnerabilidades de software más rápido que los defensores humanos. Anthropic lo describe internamente como el modelo que "está actualmente muy por delante de cualquier otro modelo de IA en capacidades cibernéticas" y que "presagia una ola inminente de modelos capaces de explotar vulnerabilidades". Estas capacidades plantean riesgos sin precedentes para la seguridad informática global.

Esta es, sin duda, la parte más alarmante de la filtración. Los documentos internos son extraordinariamente explícitos sobre las capacidades de Mythos en el ámbito de la ciberseguridad:

Descubrimiento de vulnerabilidades: Mythos puede encontrar vulnerabilidades en código a una velocidad y escala que supera a los equipos humanos de seguridad
Explotación automatizada: No solo detecta fallos, sino que puede generar exploits funcionales de forma autónoma
Velocidad vs defensores: El modelo puede descubrir y explotar vulnerabilidades más rápido de lo que los defensores humanos pueden parchearlas
Ventaja asimétrica: Anthropic reconoce internamente que Mythos crea una asimetría ofensiva donde el ataque es significativamente más eficiente que la defensa

Representación de inteligencia artificial analizando código con vulnerabilidades destacadas en rojo — Mythos puede descubrir y explotar vulnerabilidades de software más rápido que los defensores humanos

Para ponerlo en contexto, recordemos que Opus 4.6 ya encontró 22 vulnerabilidades zero-day en Firefox en solo dos semanas, escribiendo exploits funcionales para algunas de ellas. Si Mythos supera "dramáticamente" esas capacidades, estamos ante una herramienta que podría alterar fundamentalmente el equilibrio entre ataque y defensa en ciberseguridad.

Este tema conecta directamente con las tensiones que Anthropic ya tenía con el gobierno de Estados Unidos. Como analizamos en nuestro artículo sobre Anthropic vs el Pentágono, la relación entre la empresa y las instituciones gubernamentales es compleja y está marcada por debates sobre el uso militar de la IA.

La respuesta de Anthropic

Según los documentos filtrados, Anthropic ya estaba tomando medidas antes de que la filtración se hiciera pública:

Advertencias gubernamentales: La empresa estaba advirtiendo privadamente a altos funcionarios del gobierno sobre los riesgos que plantea Mythos en ciberseguridad
Acceso restringido: El plan era restringir el acceso temprano a Mythos únicamente a organizaciones enfocadas en ciberdefensa, priorizando el uso defensivo sobre el ofensivo
Despliegue controlado: A diferencia de lanzamientos anteriores, Anthropic planeaba un despliegue extremadamente controlado y gradual

Es importante señalar que estas precauciones demuestran que Anthropic es consciente de la magnitud de lo que ha creado. No estamos ante una empresa que ignora los riesgos: los documentos internos son una muestra de evaluación responsable. El problema es que esa responsabilidad se vio socavada por un error de seguridad básico.

Después de la publicación de Fortune, Anthropic emitió un comunicado reconociendo el incidente y confirmando que el error de configuración había sido corregido. Sin embargo, la empresa no ha confirmado ni negado detalles específicos sobre las capacidades de Mythos, limitándose a señalar que los documentos filtrados representan "versiones de trabajo internas" que no reflejan necesariamente el estado final del modelo.

Impacto en los mercados financieros

La filtración tuvo repercusiones inmediatas en los mercados:

Gráficos bursátiles mostrando caídas en acciones tecnológicas y criptomonedas tras la filtración — La filtración provocó ventas masivas en acciones tecnológicas y caídas en el mercado de criptomonedas

Acciones tecnológicas: Se produjo una venta masiva de acciones tech en las horas posteriores a la publicación de Fortune, con especial presión sobre empresas de ciberseguridad
Criptomonedas: El mercado cripto también experimentó caídas significativas, probablemente por el temor a que modelos de IA avanzados pudieran comprometer sistemas de seguridad criptográfica
Valoración de Anthropic: Aunque Anthropic es una empresa privada, fuentes cercanas reportan que la filtración ha complicado conversaciones de financiación en curso
Competidores: Las acciones de empresas rivales como Microsoft (inversor en OpenAI) y Alphabet (Google DeepMind) también se vieron afectadas, sugiriendo que el mercado interpreta las capacidades de Mythos como un riesgo sistémico, no solo un problema de Anthropic

Los analistas de Wall Street señalan que la reacción del mercado no fue solo por las capacidades del modelo, sino por las implicaciones regulatorias. Si un modelo de IA puede realmente explotar vulnerabilidades más rápido que los humanos, es probable que los gobiernos aceleren la regulación del sector, lo que podría afectar la rentabilidad de toda la industria.

La doble ironía de la situación

No se puede analizar esta historia sin abordar la ironía —casi poética— de la situación. Anthropic, la empresa que:

Lleva semanas advirtiendo a gobiernos sobre los riesgos de ciberseguridad de la IA
Ha construido un modelo que presuntamente supera a los defensores humanos en encontrar vulnerabilidades
Se posiciona como la empresa de IA más centrada en seguridad del sector

...sufrió una brecha de seguridad causada por un error de configuración básico en su CMS. No fue un ataque sofisticado. No fue una vulnerabilidad zero-day. Fue un almacén de datos sin autenticación, públicamente buscable.

Y la ironía se duplica cuando, solo cinco días después de la filtración inicial, el código fuente de Claude Code también quedó expuesto. Esto plantea preguntas incómodas: si Anthropic no puede proteger su propia propiedad intelectual, ¿cómo puede garantizar que un modelo como Mythos se desplegará de forma segura?

Es justo reconocer que los errores de seguridad pueden ocurrirle a cualquier empresa, y que la seguridad perfecta no existe. Pero el contraste entre las advertencias sobre capacidades cibernéticas de Mythos y la realidad de la brecha es difícil de ignorar. Como señaló un investigador de seguridad en X/Twitter: "Anthropic construyó una IA que puede hackear mejor que los humanos, y luego se dejó hackear por un error de configuración".

Proyectos como OpenClaw y la creciente comunidad de agentes de IA open source también se ven afectados por estas filtraciones, ya que alimentan el debate sobre si los modelos más potentes deberían ser de código abierto o mantenerse bajo acceso restringido.

Preguntas frecuentes

¿Qué es exactamente Claude Mythos?

Claude Mythos (nombre en clave "Capybara") es un modelo de IA de Anthropic que, según documentos internos filtrados, representa un nivel superior a Claude Opus 4.6. Los archivos lo describen como un "cambio de paso" en capacidades, especialmente en codificación, razonamiento académico y ciberseguridad. Anthropic lo califica internamente como "el modelo más capaz que hemos construido hasta la fecha".

¿Cómo se filtraron los documentos de Anthropic?

Un error de configuración en el CMS de Anthropic dejó un almacén de datos públicamente accesible sin autenticación. Aproximadamente 3.000 archivos internos quedaron expuestos y eran buscables por cualquiera. La revista Fortune descubrió y reportó la brecha el 26 de marzo de 2026. El 31 de marzo, el código fuente de Claude Code también se filtró.

¿Por qué las capacidades de ciberseguridad de Mythos son tan preocupantes?

Según los documentos filtrados, Mythos puede descubrir y explotar vulnerabilidades de software más rápido que los defensores humanos. Anthropic lo describe como el modelo "actualmente muy por delante de cualquier otro en capacidades cibernéticas" y afirma que "presagia una ola inminente de modelos capaces de explotar vulnerabilidades". Esto rompe el equilibrio entre ataque y defensa en seguridad informática.

¿Cuándo estará disponible Claude Mythos?

Anthropic no ha confirmado oficialmente una fecha de lanzamiento. Según los documentos filtrados, la empresa planeaba un despliegue extremadamente controlado, restringiendo el acceso inicial a organizaciones de ciberdefensa. Dado el impacto de la filtración, es posible que los planes de lanzamiento se modifiquen significativamente.

¿Cómo afectó la filtración a los mercados?

La publicación de Fortune provocó una venta masiva de acciones tecnológicas y caídas en el mercado de criptomonedas. La reacción refleja tanto el temor a las capacidades de ciberseguridad de Mythos como la preocupación por una posible aceleración de la regulación gubernamental del sector de IA.

Etiquetas: Claude Mythos Anthropic filtración ciberseguridad inteligencia artificial LLM Claude Code mercados financieros seguridad informática regulación IA

Comentarios

Cargando comentarios...