Reiner Pope, actual CEO de MatX y quien diseñó las TPU en Google, ofreció una clase técnica que despeja el mito de que más GPUs equivalen a respuestas más rápidas en GPT, Claude o Gemini. Según Pope, la física del hardware impone dos límites: el tiempo de cómputo y el tiempo de memoria. El segundo es el que más duele.
Durante la generación de cada token, el modelo lee del KV cache, la memoria que guarda representaciones previas. Esa operación no es una multiplicación de matrices, sino una lectura masiva de HBM. Si el ancho de banda no crece, la latencia se estanca por más que se pague.

El truco económico está en el batch size: agrupar a cientos de usuarios en un mismo forward pass. Leer los pesos una sola vez y servir muchas secuencias abarata el costo por token hasta mil veces. Un solo usuario, por contraste, paga el precio completo de la lectura de memoria.

Pope advierte que existe un piso de latencia infranqueable: el tiempo mínimo para traer todos los parámetros desde la HBM. Cobrar más al usuario reduce colas, pero no elimina ese tiempo físico. Por eso los “modos rápidos” apenas recortan unos milisegundos y los “modos lentos” apenas bajan la factura.
La charla conecta otros cuellos: la topología de red entre racks, la sparsity y el largo. Cada variable altera cuántos bytes deben moverse y, por tanto, el precio final de la API. No es magia de software; es contabilidad de bits.

Para reguladores y usuarios mexicanos, la lección es clara: la promesa de “más velocidad por más pesos” tiene un techo dado por la física del centro de datos, no por la voluntad de OpenAI, Anthropic o Google.
Etiquetas: OpenAI, ChatGPT, Anthropic, hardware, IA, memoria HBM, batch size, latencia
