Un investigador de
El experimento consistió en evaluar si diferentes modelos de lenguaje de granja de言語 (LLM) podÃan descubrir y aprovechar una mala configuración entre una aplicación móvil, una API resistente y Firebase. En la prueba, GPT 5.5 logró 7 éxitos en 10 intentos, mientras que DeepSeek V4 Pro obtuvo 3 de 10, y varios modelos no lograron ninguna resolución.

La prueba no fue cientÃfica, pero sà demostró diferencias en costos, consumo de tokens, autocensura y capacidad de razonamiento agentivo. La discusión sobre inteligencia artificial y ciberseguridad oscila entre la promesa de mejores defensas y el temor de que los modelos automatizados aceleren ataques reales.
El investigador Kasra construyó una aplicación falsa de reseñas de libros con frontend en React Native sobre Expo y un backend en Python. El objetivo era encontrar una bandera oculta en las reseñas privadas de un usuario. La clave del reto no estaba en romper la API principal, sino en detectar una exposición en Firebase.

Según Kasra, la API estaba 'muy segura' en sà misma, pero la aplicación incluÃa un archivo google-services.json con información de Firebase. El camino correcto consistÃa en registrarse directamente como usuario y leer la base de datos de Firestore, en lugar de insistir con la API. Este patrón corresponde a una categorÃa de explotación que se ha visto repetidamente en aplicaciones reales con Firebase y Supabase.
En términos de

Kasra aclaró que no se trató de una evaluación cientÃfica, sino más bien de ver si los LLM podÃan reproducir una clase común de explotación que él ha encontrado en auditorÃas reales. Planeó hacer 10 ejecuciones por modelo objetivo, pero terminó deteniendo el ensayo tras gastar cerca de USD $1.500.
La mayorÃa de los modelos fueron corridos con un arnés basado en pi y una extensión llamada pi-goal-x para obligarlos a seguir intentando. Claude fue evaluado con el modo -p de Claude Code, que no soporta modo plan, aunque el autor señaló que ese sistema no se detenÃa a mitad del proceso. Todos los modelos fueron probados con alto nivel de razonamiento y temperatura 0,7 en los casos compatibles. Cada ejecución tuvo un lÃmite de tiempo de dos horas y un techo de gasto de USD $10.
Etiquetas: TecnologÃa, Seguridad, ChatGPT, Claude, Gemini, Firebase, Prueba de Hackeo, TecnologÃa · OpenAI, ChatGPT y Anthropic
