La capacidad de aprendizaje de los modelos en Deep Learning se ha visto aumentada con el tamaño del mismo, como se ha visto con los modelos grandes del lenguaje (por ejemplo, GPT-4 contiene 1.8 Billones de parámetros). Existe una tendencia de investigación en el área que tiene como objetivo mejorar la eficiencia de los modelos. En esta segunda charla hablaremos sobre el entrenamiento distribuido de modelos en múltiples GPUs. Repasaremos las técnicas más importantes de distribución, los inconvenientes y ventajas de cada una, y los entornos existentes para ello.