Una investigación de la startup de ciberseguridad, Gambit Security, descubrió que un hacker utilizó a Claude, el chatbot de inteligencia artificial (IA) de Anthropic, para robar información confidencial a agencias gubernamentales de México.
De acuerdo con Bloomberg, el atacante le dio instrucciones a la herramienta para que actuara como un hacker experto, detectara vulnerabilidades en los sistemas y desarrollara mecanismos para automatizar el robo de datos.
Según reportó la investigación, la actividad maliciosa comenzó en diciembre y se mantuvo durante más o menos un mes. En ese período se habrían sustraído cerca de 150 gigabytes de información.
Entre los datos robados, figuraban documentos de 195 millones de contribuyentes, padrones electorales, credenciales de empleados públicos y también documentos del registro civil.
Un hacker convenció a Claude
Claude inicialmente advirtió al usuario sobre sus intenciones maliciosas, pero el hacker eludió sus barreras de seguridad mediante un proceso conocido como “jailbreak”.
Este método se usa para desbloquear restricciones o “liberar” a la IA de sus limitaciones, con el fin de obtener acceso completo a su sistema operativo e instalar configuraciones no autorizadas por Anthropic.
Tras esto, el atacante logró que la herramienta ejecutara miles de comandos en redes informáticas oficiales y generara informes detallados con planes de ataque y objetivos específicos.
El hacker también utilizó ChatGPT para complementar información, como estrategias para desplazarse dentro de sistemas informáticos, identificar credenciales necesarias y estimar la probabilidad de detección.
En el caso de OpenAI, la empresa informó al medio citado que detectaron esta actividad y prohibieron las cuentas del usuario.
Por el momento, Gambit no atribuyó el ataque a ningún grupo de hackers específico y señaló que tampoco existen indicios de participación de un gobierno extranjero.
Los investigadores teorizan que el objetivo principal del hacker era obtener un gran número de identidades de empleados públicos, aunque no está claro para qué quería esa información.
Según Bloomberg, un representante de Anthropic aclaró que la compañía investigó lo reportado por Gambit e interrumpió la actividad maliciosa, baneando las cuentas involucradas.
También comentaron que uno de sus últimos modelos, Claude Opus 4.6, ya cuenta con mecanismos que pueden detectar el uso indebido de esta IA.
Este caso refleja lo que ya han estado advirtiendo expertos, que las herramientas de IA cada vez más sofisticadas pueden ser aprovechadas por los ciberdelincuentes.