¿Cómo entrenó DeepSeek su IA para funcionar en un hardware más pequeño y eficiente?

La IA China que está revolucionando la industria, ha sido creada con una tecnología con mayor eficiencia que el GPT-4 de Sam Altman. Este es el nuevo modelo que han usado.
El avance tecnológico de la inteligencia artificial será la clave del futuro y DeepSeek no está dispuesta a quedarse atrás en la carrera con ChatGPT, Gemini y Copilot.
La IA más famosa de China ha hecho que las acciones de Nvidia y OpenIA bajen de la noche a la mañana y es que su capacidad no se compara con ninguna otra en la actualidad.
Pero, ¿cómo ha sido posible esto? La revolución de la tecnología que ha traído Liang Wenfeng a la industria es algo que no se había visto antes y parece que cambiará el panorama de las IAs a partir de ahora.
Todo esto se ha logrado con un nuevo entrenamiento de modelo que utiliza menos recursos del hardware, siendo más económico e igual de eficiente. El proceso que han llevado a cabo ha pasado por diversas etapas y aquí conocerás algunos de los detalles más relevantes.
Cómo se agregaron las innovaciones técnicas de DeepSeek que compiten con Nvidia

La menor cantidad de ventas que están recibiendo las GPUs de Nvidia ante el éxito de DeepSeek es justamente porque la innovación de la nueva IA China tiene algo que las demás no, un consumo inferior de recursos y mayor sostenibilidad.
De este modo, se ha posicionado como una de las mejores en poco tiempo, compitiendo directamente con las inteligencias artificiales de Estados Unidos.
Liang Wenfeng fundó DeepSeek-AI en 2023. Desde entonces, ha trabajado en desarrollos sumamente importantes para obtener técnicas de optimización de rendimiento y así disminuir el costo del entrenamiento de las IAs.
Sin embargo, lo que de verdad ha marcado un antes y un después en la mencionada compañía es el modelo DeepSeek-V3 con tecnología DualPipe.
Esto permite que se genere una acción de post-entrenamiento donde se pueden integrar los siguientes parámetros:
- Técnicas de baja precisión (FP8): es crucial para el funcionamiento que reduce los costos de entrenamiento y mejora el rendimiento. También es conocida como Punto Flotante de 8 Bits (FP8). Esta se encarga de hacer cálculos en menos tiempo, agrega estabilidad en el manejo de datos y usa técnicas de predicción multitoken.
- Aprendizaje por Refuerzo (RL): un enfoque de toma de decisiones en entorno, recompensas o castigos dependiendo de lo que se necesite. Esto facilita la resolución de problemas complicados con un razonamiento superdesarrollado.
- Ajuste Fino Supervisado (SFT): una función que analiza las características humanas para mejorar la coherencia y precisión. Es decir, para un lenguaje más natural y profundo.
Estas características han sido la clave para generar el nuevo modelo DeepSeek-R1, el cual permite que haya un rendimiento a gran escala en el sistema de la inteligencia artificial gracias a que puede incrementar el ancho de banda y aprovechar de una mejor manera el consumo de la memoria.
Algo que es diferente en comparación con otros modelos, es que DeepSeek es de código abierto y está disponible en GitHub, lo que aporta mucho a su popularidad.
Cada uno de estos puntos han sido fundamentales para lograr todo el éxito que ha alcanzado la compañía de Liang Wenfeng y esto será de gran ayuda para el progresivo avance de la IA.