Un modelo de inteligencia artificial de alto riesgo de Anthropic, conocido como Claude Mythos, fue accedido de manera no autorizada por un grupo de usuarios vinculados a un canal de Discord, según reportó Bloomberg. Este sistema, diseñado para identificar fallas críticas en software, fue compartido a través de capturas de pantalla y un video que evidencian su uso fuera de los controles establecidos.
Claude Mythos forma parte de un programa restringido llamado Project Glasswing, al que solo tienen acceso empresas como Apple, Google, Amazon Web Services, Nvidia, Microsoft y el gobierno del Reino Unido a través del Instituto de

El acceso indebido fue realizado por individuos que afirmaron tener como objetivo experimentar con el modelo, no causar daño. Sin embargo, la filtración pone en evidencia las fallas en los mecanismos de control de acceso a tecnologías de IA avanzadas, incluso cuando están supuestamente protegidas por entornos cerrados y supervisados.
Este incidento plantea preocupaciones sobre la replicación de técnicas de explotación si la información se difunde ampliamente. También presiona a reguladores y empresas a reforzar protocolos de auditoría y responsabilidad en el desarrollo de modelos de IA con capacidades potencialmente peligrosas.

Anthropic no ha emitido una respuesta pública sobre el incidente, y se desconoce si se tomarán medidas adicionales para limitar futuros accesos no autorizados. El caso subraya la vulnerabilidad incluso en sistemas considerados seguros y la necesidad de una gobernanza más estricta en la investigación de IA.
Etiquetas: Tecnología, IA, Anthropic, Ciberseguridad, Claude Mythos, Tecnología · OpenAI, ChatGPT y Anthropic, Tecnología · OpenAI, ChatGPT y Anthropic
