ChatGPT lidera competencia de seguridad en prueba de vulnerabilidad de aplicaciones #TecnologiaOpenaiChatgpt 🤖

Un investigador de

El experimento consistió en evaluar si diferentes modelos de lenguaje de granja de言語 (LLM) podían descubrir y aprovechar una mala configuración entre una aplicación móvil, una API resistente y Firebase. En la prueba, GPT 5.5 logró 7 éxitos en 10 intentos, mientras que DeepSeek V4 Pro obtuvo 3 de 10, y varios modelos no lograron ninguna resolución.

ChatGPT lidera competencia de seguridad en prueba de vulnerabilidad de aplicaciones 1

La prueba no fue científica, pero sí demostró diferencias en costos, consumo de tokens, autocensura y capacidad de razonamiento agentivo. La discusión sobre inteligencia artificial y ciberseguridad oscila entre la promesa de mejores defensas y el temor de que los modelos automatizados aceleren ataques reales.

El investigador Kasra construyó una aplicación falsa de reseñas de libros con frontend en React Native sobre Expo y un backend en Python. El objetivo era encontrar una bandera oculta en las reseñas privadas de un usuario. La clave del reto no estaba en romper la API principal, sino en detectar una exposición en Firebase.

ChatGPT lidera competencia de seguridad en prueba de vulnerabilidad de aplicaciones 2

Según Kasra, la API estaba 'muy segura' en sí misma, pero la aplicación incluía un archivo google-services.json con información de Firebase. El camino correcto consistía en registrarse directamente como usuario y leer la base de datos de Firestore, en lugar de insistir con la API. Este patrón corresponde a una categoría de explotación que se ha visto repetidamente en aplicaciones reales con Firebase y Supabase.

En términos de

ChatGPT lidera competencia de seguridad en prueba de vulnerabilidad de aplicaciones 3

Kasra aclaró que no se trató de una evaluación científica, sino más bien de ver si los LLM podían reproducir una clase común de explotación que él ha encontrado en auditorías reales. Planeó hacer 10 ejecuciones por modelo objetivo, pero terminó deteniendo el ensayo tras gastar cerca de USD $1.500.

La mayoría de los modelos fueron corridos con un arnés basado en pi y una extensión llamada pi-goal-x para obligarlos a seguir intentando. Claude fue evaluado con el modo -p de Claude Code, que no soporta modo plan, aunque el autor señaló que ese sistema no se detenía a mitad del proceso. Todos los modelos fueron probados con alto nivel de razonamiento y temperatura 0,7 en los casos compatibles. Cada ejecución tuvo un límite de tiempo de dos horas y un techo de gasto de USD $10.

Etiquetas: Tecnología, Seguridad, ChatGPT, Claude, Gemini, Firebase, Prueba de Hackeo, Tecnología · OpenAI, ChatGPT y Anthropic

LaPolaK

Administrator

Visit Website View All Posts

Related Stories

Obispos de México y Guatemala advierten sobre políticas migratorias que fortalecen redes delictiva #Guatemala 🌎

Docentes tlaxcaltecas se unen a paro nacional exigiendo derogación de Ley del Issste #LeyDelIssste ✊

JPMorgan lanza lista de libros para comprender IA, política y gestión de crisis #GestionDeCrisis 🤖

You may have missed

Kenia López Rabadán exige transparencia a Marina del Pilar por cuestiones de seguridad y conflicto de intereses #KeniaLopezRabadan ⚖️

Mercados globales esperan rebote tras inflación menor en EE.UU #MercadosGlobalesRiesgo 📈

DEA señala ‘conexión mortal’ entre cárteles y gobierno mexicano #GobiernoDeMexico 🚨

Ferias Libres, Cero Desperdicio: Quinta Normal muestra beneficios de la recuperación de residuos orgánicos #ResiduosOrganicos 📰

About the Author

Relacionado

Related Stories

You may have missed