El curioso descubrimiento en un centro de datos de la vieja Twitter, y una advertencia para Elon Musk

Un exingeniero de Twitter recuerda con nostalgia un extraño hallazgo en un centro de datos abandonado. También advierte a Elon Musk, pero el dueño de X tiene otras ideas.
Los centros de datos de 2017, eran muy diferentes a los de ahora. El exingeniero de Twitter Tim Zaman lo recuerda con nostalgia, y advierte a Elon Musk sobre el peligro de crear el centro de datos más grande del mundo, su Supercluster de Memphis, con 100.000 GPUs de NVIDIA.
Tim Zaman llegó a Twitter tras la compra por parte de Elon Musk. Unos meses después, en 2022, encontraron en un centro de datos de Twitter un viejo clúster de 700 tarjetas gráficas V100 de NVIDIA, conectadas pero en reposo. Llevaban así, sin uso aparente, desde 2017.
Lo extraño de este clúster es que se trata de tarjetas gráficas con conexión PCI-e, en lugar del más moderno conector NVLink que se usa en los centros de datos. ¿Para qué lo usaba Twitter?
De 700 a 100.000 GPU para entrenar a la IA
Algunos especulan sobre un posible uso para minar criptomonedas, ya que las GPU V100 con conector PCIe, no solían utilizarse para centros de datos profesionales. O quizá, para algún proyecto interno de Twitter.
Lo que nadie sabe, es por qué ese clúster ha estado años encendido, pero sin tareas asignadas.
Tim Zaman trabaja ahora para DeepMind, una de las empresas de IA de Google. Reflexiona en el post en X sobre cómo en pocos años se ha pasado de clúster de 700 GPU, al Supercluster de Elon Musk en Memphis, que tiene 100.000 GPU NVIDIA. Es el más potente del mundo:
En el post, Zaman advierte a Elon Musk de que un clúster tan grande solo puede terminar en fallo: "100.000 GPU en la misma estructura debe de ser un reto épico. A esa escala, la única garantía es el fallo, y se trata de gestionar los fallos con elegancia".
Y continúa: "Me pregunto cuál es el tamaño máximo razonable de un único clúster. Supongo que pronto lo sabremos. Creo que la desagregación en distintos dominios (de fallo) tiene más sentido".
Zaman cree que Musk debería haber dividido su Superclúster en varios, para que un fallo no afecte a todo el centro de datos. Es su comentario a este post de Elon Musk:
"Buen trabajo del equipo de @xAI, el equipo de @X, @Nvidia y las empresas colaboradoras para que el entrenamiento del Supercluster de Memphis comenzara a las 4:20 a.m. hora local. Con 100.000 GPU H100 refrigeradas por líquido en una única estructura RDMA, es el clúster de entrenamiento de IA más potente del mundo".
X va a usar este megacentro de datos para entrenar a su IA Grok 3.0. Se ha quedado muy atrás, y Elon Musk quiere recuperar el terreno perdido lo antes posible.
Hace apenas siete años, un clúster de 700 GPU NVIDIA era suficiente para un centro de datos. Ahora la inteligencia artificial requiere docenas de miles de chips. Incluso más de 100.000 GPU, como el nuevo centro de datos de X.
La simple aritmética dice que, como más GPU tenga un centro de datos, más posibilidades de fallar. Será interesante comprobar lo que ocurre con el flamante clúster gigante de X y Elon Musk.
