Anthropic ha presentado dos nuevos modelos de inteligencia artificial, Claude Fable 5 y Claude Mythos 5, que superan en capacidad al modelo Mythos Preview mostrado en abril a un grupo selecto de socios tecnológicos. La empresa se preocupa por el potencial uso indebido de estas capacidades para desarrollar herramientas de hackeo, por lo que inicialmente limitó su lanzamiento. Actualmente, Claude Mythos 5 se distribuye solo a socios industriales limitados, y Anthropic colabora con el gobierno estadounidense en su implementación.

Claude Fable 5, accesible al público, utiliza el mismo modelo que Mythos 5 pero incluye restricciones para evitar respuestas en temas de ciberseguridad, biología y química, redirigiendo estas consultas al modelo Claude Opus 4.8. Además, si se sospecha que un usuario está intentando destilar el modelo, las solicitudes se redirigen de la misma manera. Diane Penn, directora de gestión de productos de Anthropic, menciona que la empresa ha trabajado en la gestión de las capacidades de detección de vulnerabilidades de software de Mythos, mejorando la estrategia con pruebas y comentarios de usuarios.

Penn señala que el mecanismo de protección de Fable 5 está diseñado para ser cauteloso, lo que puede resultar en algunas consultas inofensivas siendo redirigidas a un modelo menos avanzado. A largo plazo, Anthropic busca mejorar la precisión de sus clasificadores. Además de ofrecer Claude Mythos 5 a socios del Proyecto Glasswing, Anthropic también brinda acceso a investigadores selectos en biología. La empresa ha indicado planes para expandir el acceso a su programa de acceso seguro en el futuro.

Desde el lanzamiento de Mythos en abril, Anthropic ha reconocido que sus competidores, tanto privados como públicos, inevitablemente ofrecerán modelos con capacidades similares. La empresa está consciente de los desafíos que implican las capacidades de Claude Mythos y trabaja en la mejora constante de sus modelos de IA para equilibrar el avance tecnológico con la.
Etiquetas: Tecnología, Integridad, Seguridad, Tecnología · OpenAI, ChatGPT y Anthropic, Tecnología · OpenAI, ChatGPT y Anthropic
