La Inteligencia Artificial que se consideró demasiado peligrosa para el mundo
El modelo sorprendió por su capacidad para detectar fallas de seguridad y abrió un debate global sobre los riesgos de la inteligencia artificial.
Anthropic tomó una decisión sin precedentes en la historia reciente de la inteligencia artificial.
Archivo.En un mundo donde las grandes compañías de tecnología compiten a diario por lanzar la próxima gran herramienta de inteligencia artificial, Anthropic hizo algo que nadie esperaba: crear la Inteligencia Artificial más avanzada de la historia y guardarla bajo llave. No por falta de recursos ni de ambición, sino por temor a lo que podría hacer en manos equivocadas.
Para aquellos que aún no han escuchado de él, nos referimos a Claude Mythos. Fue desarrollado en secreto a lo largo de los primeros meses de 2026 y, cuando sus propios creadores midieron sus capacidades, quedaron asombrados. Durante las pruebas internas, Mythos demostró poder encontrar y explotar fallas de seguridad en software con una eficacia que supera a prácticamente cualquier equipo de hackers humanos. No solo eso: lo hace de manera autónoma, encadenando múltiples vulnerabilidades en un ataque coordinado, sin necesidad de instrucciones adicionales.
Te puede interesar
Cada vez más perezosos: Google Meet tomará notas con IA en las reuniones
El “accidente” que lo reveló todo
La historia de Mythos comenzó a hacerse pública de la manera menos esperada. A fines de marzo de 2026, un error humano dentro de Anthropic dejó accesible en un borrador de blog no publicado que describía el modelo —entonces conocido internamente como 'Capybara'— con elogios que la propia compañía nunca había hecho en público: 'por lejos el modelo de IA más poderoso que hemos construido'. La filtración fue suficiente para sacudir los mercados financieros. Las acciones de las principales empresas de ciberseguridad del mundo —CrowdStrike, Palo Alto Networks, SentinelOne— cayeron entre un 5% y un 11% en pocas horas. El mercado entendió de inmediato la implicancia: si una IA podía detectar y explotar vulnerabilidades de seguridad mejor que los humanos, el negocio de las empresas que venden software de protección contra ataques informáticos podría verse profundamente afectado. El 7 de abril, Anthropic optó por informar: confirmó la existencia del modelo, reveló su nombre definitivo —Claude Mythos— y anunció, simultáneamente, que no lo pondría a disposición del público.
¿Qué es Mythos y qué lo hace diferente?
Es importante aclarar qué es y qué no es Claude Mythos. No se trata de un software diseñado específicamente para atacar sistemas informáticos. Es, en sus fundamentos, un modelo de inteligencia artificial de propósito general —similar a ChatGPT o a los modelos que hoy millones de personas usan para redactar correos, analizar documentos o escribir código. La diferencia es que, durante las pruebas, Mythos exhibió una capacidad emergente e inesperada: encontrar brechas o fallas en la seguridad de los sistemas con una eficacia sin precedentes. Para ponerlo en perspectiva: en una prueba estándar, Mythos desarrolló 181 exploits funcionales —es decir, formas concretas de vulnerar un determinado sistema— mientras que el modelo anterior de Anthropic apenas encontró.
Pero el número no es lo más inquietante. Lo que preocupa al mercado de la ciberseguridad es su autonomía: Mythos no solo identifica una falla aislada, sino que puede encadenar múltiples vulnerabilidades para diseñar un ataque complejo de punta a punta, ejecutarlo y adaptarlo según los obstáculos que encuentre en el camino. Logan Graham, jefe del área de ciberofensiva de Anthropic, describió esta capacidad como 'un salto cualitativo, no una mejora incremental'. Un episodio ocurrido durante las pruebas internas ilustra este punto mejor que cualquier estadística. Mythos fue colocado dentro de un entorno digital aislado —técnicamente llamado 'sandbox'— diseñado para que ningún sistema pueda comunicarse con el exterior. Sin que nadie se lo indicara, el modelo encontró la manera de escapar de ese entorno, accedió a Internet por sus propios medios y envió un correo electrónico al investigador que lo supervisaba. Ese investigador, en ese momento, estaba en un parque comiendo un sándwich. El mensaje fue, en esencia, un aviso de que la tarea había sido completada con éxito.
La alianza para contener lo que no se puede ignorar
Frente a estas evidencias, Anthropic tomó una decisión sin precedentes en la historia reciente de la inteligencia artificial: publicó la documentación técnica completa del modelo —sus capacidades, sus limitaciones, sus riesgos— pero no el modelo en sí. Es la primera vez en casi siete años que una compañía líder en la industria hace algo así. En paralelo, anunció la creación del Proyecto Glasswing: un consorcio integrado por más de 40 organizaciones de primer nivel mundial que tendrán acceso controlado a Mythos exclusivamente para fines defensivos. La lista de participantes se lee como un directorio de los actores más poderosos de la tecnología, las finanzas y la infraestructura digital global sobre la cual millones de compañías a nivel mundial operan: AWS, Apple, Microsoft, Google, JPMorgan Chase, Cisco, CrowdStrike, NVIDIA, Palo Alto Networks, Broadcom y la Linux Foundation, entre otros. En el contexto de este mismo proyecto, Anthropic comprometió hasta 100 millones de dólares en créditos de acceso al sistema y otros 4 millones de dólares en donaciones directas a proyectos de seguridad de software de código abierto.
La lógica del proyecto es simple: si Mythos puede encontrar miles de vulnerabilidades en los sistemas que todos usamos, es mejor que quienes las descubran sean organizaciones comprometidas con corregirlas y no con explotarlas. Los hallazgos no quedarán reservados para los socios: serán compartidos con toda la industria, para que los fabricantes de software puedan publicar parches que beneficien a cualquier usuario.
Una nueva era de amenazas que no distingue fronteras
La revelación de Mythos no solo generó titulares: encendió una alarma real en los círculos de seguridad y regulación financiera de los países más desarrollados. Los reguladores del Banco de Inglaterra, la Reserva Federal de los Estados Unidos y sus equivalentes de Canadá, convocaron con urgencia a los CEOs de los principales bancos para actualizaciones sobre evaluación de riesgo. El mensaje implícito era claro: una falla en los sistemas de actores financieros sistémicos podría tener consecuencias macroeconómicas en cadena.
El temor de fondo es la proliferación. Hoy, el acceso a Mythos está controlado y restringido a organizaciones comprometidas con el uso responsable. Pero la historia de la tecnología enseña que lo que hoy es exclusivo, mañana es masivo. Anthropic lo admite: estima que capacidades similares a las de Mythos estarán disponibles en el mercado abierto —incluyendo gobiernos hostiles y grupos cibercriminales— en un plazo de entre seis y dieciocho meses. OpenAI ya reconoció públicamente estar desarrollando un modelo con características comparables.
No se trata de un escenario hipotético. En 2025, Anthropic documentó lo que los investigadores identificaron como el primer ciberataque de gran escala ejecutado de manera predominante por inteligencia artificial: un grupo vinculado al Estado chino utilizó agentes de IA para infiltrar de forma autónoma aproximadamente 30 objetivos en distintos países. Mythos no es el punto de llegada de esa tendencia. Es, más bien, el anuncio de lo que viene.
El debate que Mythos dejó abierto
La decisión de Anthropic no fue recibida de manera unánime. Mientras que algunos celebraron la prudencia de la compañía y la han calificado de ‘ejemplo a seguir’ para la industria, otros en cambio señalaron que publicar la documentación técnica completa del modelo —aunque no el modelo en sí— podría proporcionar a actores maliciosos una hoja de ruta lo suficientemente detallada como para intentar replicar estas capacidades.
Lo que sí parece estar claro, es que el mundo digital que existía antes del 7 de abril de 2026 y el que existe después son fundamentalmente diferentes. No porque algo haya cambiado en los sistemas que todos usamos —las mismas computadoras, los mismos teléfonos, las mismas aplicaciones— sino porque ahora se sabe, con evidencia concreta, que esos sistemas son más vulnerables de lo que se creía, y que hay herramientas capaces de demostrarlo a una velocidad y escala que ningún equipo humano puede igualar.
* Gaspar Poca, Director en BTR Consulting.




