La capacidad de aprendizaje de los modelos en Deep Learning se ha visto aumentada con el tamaño del mismo, como se ha visto con los modelos grandes del lenguaje (por ejemplo, GPT-4 contiene 1.8 Billones de parámetros). Existe una tendencia de investigación en el área que tiene como objetivo mejorar la eficiencia de los modelos. En esta primera charla hablaremos sobre la dispersión en Deep Learning, es decir, tensores que contienen mayoritariamente valores nulos. Primero veremos cómo se presenta la dispersión en las redes neuronales y cómo éstas se pueden truncar sin perder capacidad. Mencionaremos también la importancia de cuantizar los parámetros y usar representaciones de menor precisión. Segundo, veremos cómo la dispersión se presenta también en los datos con una gran multidimensionalidad (por ejemplo, volúmenes 3D), y cómo se adapta la operación de convolución para ser eficiente (sparse convolution). Prestaremos especial atención al sparse convolution y cómo éste se implementa en GPUs.