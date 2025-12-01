El estudio sobre la IA publicado por Icaro Lab reveló que algunos chatbots pueden ser vulnerados si se usan pedidos formulados como poesía . Los investigadores verificaron que esta técnica permite obtener respuestas que deberían estar bloqueadas, incluso en temas extremadamente sensibles y regulados.

Según el reporte, la estructura poética actúa como “un operador de jailbreak de propósito general” capaz de confundir a los modelos y hacer que ignoren filtros que, en teoría, deberían impedir la generación de contenido peligroso. El trabajo mostró una tasa de éxito del 62 % al intentar obtener información prohibida, algo que dejó sorprendidos incluso a los propios investigadores.

Entre los temas que lograron activar mediante este recurso aparecen pedidos relacionados con la fabricación de armas nucleares, material de abuso sexual infantil y métodos de autolesión. El estudio evaluó modelos populares como los desarrollados por OpenAI, Google Gemini, DeepSeek, MistralAI y Anthropic.

Los resultados fueron dispares: según los autores, Google Gemini, DeepSeek y MistralAI respondieron con mayor frecuencia frente a los intentos de evasión, mientras que los GPT-5 de OpenAI y los Claude Haiku 4.5 de Anthropic fueron los que mostraron mayor resistencia.

"Hay diferencias claras entre los modelos, pero ninguno es totalmente inmune", señalaron los especialistas en el paper.

Las advertencias detrás del experimento y el debate sobre seguridad

En la parte metodológica, la organización decidió no publicar los poemas exactos usados durante las pruebas. El equipo explicó que difundir esos textos implicaría un riesgo, ya que cualquier persona podría reproducirlos sin dificultad. En su lugar, el estudio incluyó una versión suavizada que solo sirve para ilustrar el enfoque general. Sin embargo, desde MDZ Tecnología nos inclinamos en que la clave está en pedirle que actúe como un poeta al chatbot y así encubrir el pedido.

Los investigadores contaron que la técnica es “probablemente más simple de lo que muchos creen” y que justamente por eso prefirieron no compartir los ejemplos reales. La preocupación principal del equipo es que estos hallazgos sean usados para manipular modelos de IA en contextos peligrosos, ya sea en redes sociales, foros o sistemas automatizados que dependen de respuestas seguras.

image

El informe, además, reabre el debate sobre cómo entrenar modelos de lenguaje para que sean más robustos ante pedidos maliciosos. También suma presión a las empresas de tecnología para mejorar sus filtros y realizar evaluaciones externas más estrictas. Aunque la industria avanza rápido, el trabajo de Icaro Lab muestra que todavía hay margen para fallas inesperadas.

La discusión ahora pasa por encontrar mecanismos que permitan balancear creatividad y seguridad sin generar nuevos puntos débiles. Para los investigadores, la clave está en continuar testeando estos sistemas con métodos poco convencionales, incluso si parecen tan inofensivos como un poema.