IA: los chatbots pueden ser vulnerados con poesía para saltar sus medidas de seguridad
Un informe muestra que ciertos modelos de IA pueden ser engañados con estructuras poéticas y expone fallas en los sistemas de seguridad actuales.
Los chatbots estaría expuestos si los prompt tienen un estilo poético.
Imagen generada con IAEl estudio sobre la IA publicado por Icaro Lab reveló que algunos chatbots pueden ser vulnerados si se usan pedidos formulados como poesía. Los investigadores verificaron que esta técnica permite obtener respuestas que deberían estar bloqueadas, incluso en temas extremadamente sensibles y regulados.
La poesía como método para evadir restricciones en modelos de IA
Según el reporte, la estructura poética actúa como “un operador de jailbreak de propósito general” capaz de confundir a los modelos y hacer que ignoren filtros que, en teoría, deberían impedir la generación de contenido peligroso. El trabajo mostró una tasa de éxito del 62 % al intentar obtener información prohibida, algo que dejó sorprendidos incluso a los propios investigadores.
Entre los temas que lograron activar mediante este recurso aparecen pedidos relacionados con la fabricación de armas nucleares, material de abuso sexual infantil y métodos de autolesión. El estudio evaluó modelos populares como los desarrollados por OpenAI, Google Gemini, DeepSeek, MistralAI y Anthropic.
Los resultados fueron dispares: según los autores, Google Gemini, DeepSeek y MistralAI respondieron con mayor frecuencia frente a los intentos de evasión, mientras que los GPT-5 de OpenAI y los Claude Haiku 4.5 de Anthropic fueron los que mostraron mayor resistencia.
Las advertencias detrás del experimento y el debate sobre seguridad
En la parte metodológica, la organización decidió no publicar los poemas exactos usados durante las pruebas. El equipo explicó que difundir esos textos implicaría un riesgo, ya que cualquier persona podría reproducirlos sin dificultad. En su lugar, el estudio incluyó una versión suavizada que solo sirve para ilustrar el enfoque general. Sin embargo, desde MDZ Tecnología nos inclinamos en que la clave está en pedirle que actúe como un poeta al chatbot y así encubrir el pedido.
Los investigadores contaron que la técnica es “probablemente más simple de lo que muchos creen” y que justamente por eso prefirieron no compartir los ejemplos reales. La preocupación principal del equipo es que estos hallazgos sean usados para manipular modelos de IA en contextos peligrosos, ya sea en redes sociales, foros o sistemas automatizados que dependen de respuestas seguras.
El informe, además, reabre el debate sobre cómo entrenar modelos de lenguaje para que sean más robustos ante pedidos maliciosos. También suma presión a las empresas de tecnología para mejorar sus filtros y realizar evaluaciones externas más estrictas. Aunque la industria avanza rápido, el trabajo de Icaro Lab muestra que todavía hay margen para fallas inesperadas.
La discusión ahora pasa por encontrar mecanismos que permitan balancear creatividad y seguridad sin generar nuevos puntos débiles. Para los investigadores, la clave está en continuar testeando estos sistemas con métodos poco convencionales, incluso si parecen tan inofensivos como un poema.