Efficient Deep Learning I: sparsity in networks and data

Miguel A. Martínez del Amor

Datos de la ponencia
Jueves, 25 de abril de 2024
11:00
No presencial
Resumen de la ponencia

La capacidad de aprendizaje de los modelos en Deep Learning se ha visto aumentada con el tamaño del mismo, como se ha visto con los modelos grandes del lenguaje (por ejemplo, GPT-4 contiene 1.8 Billones de parámetros). Existe una tendencia de investigación en el área que tiene como objetivo mejorar la eficiencia de los modelos. En esta primera charla hablaremos sobre la dispersión en Deep Learning, es decir, tensores que contienen mayoritariamente valores nulos. Primero veremos cómo se presenta la dispersión en las redes neuronales y cómo éstas se pueden truncar sin perder capacidad. Mencionaremos también la importancia de cuantizar los parámetros y usar representaciones de menor precisión. Segundo, veremos cómo la dispersión se presenta también en los datos con una gran multidimensionalidad (por ejemplo, volúmenes 3D), y cómo se adapta la operación de convolución para ser eficiente (sparse convolution). Prestaremos especial atención al sparse convolution y cómo éste se implementa en GPUs.