La idea detrás del mecanismo de atención de los Transformers es permitir al sistema utilizar las partes más relevantes de la secuencia de entrada de forma flexible a la hora de constriuir su salida. En esta sesión se explicará dicho mecanismo paso a paso. Se partirá de una descripción general de su funcionamiento y utilidad en el marco de los Transformers, a continuación se mostrará un ejemplo del mecanismo de atención sobre vectores concretos y se terminará explicando cómo a través de la multiplicación de matrices se puede calcular la atención para un input completo de manera paralela.