**Modelos Fundacionales**
La IA está experimentando un cambio de paradigma con el auge de modelos entrenados en grandes datos que pueden adaptarse a una amplia gama de tareas posteriores. Se les ha dado a estos modelos el denominativo general de **modelos fundacionales** para subrayar su carácter críticamente central aunque incompleto.

Esta entrada pretende ser una traducción libre y reducida de [*On the Opportunities and Risks of Foundation Models*](https://arxiv.org/abs/2108.07258), del Center for Research on Foundation Models (CRFM) en el Stanford Institute for Human-Centered Artificial Intelligence (HAI), que ofrece una descripción inicial, pero exhaustiva, de diversas aproximaciones a los modelos fundacionales, desde sus capacidades y principios técnicos hasta sus aplicaciones e impacto social.
Aunque los modelos fundacionales se basan en el [Aprendizaje Profundo (Deep Learning)](http://www.scholarpedia.org/article/Deep_Learning) estándar y el [Aprendizaje por Transferencia (Transfer Learning)](https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w), su escala parece dar lugar a nuevas capacidades emergentes, y su eficacia en tantas tareas incentiva ciertas etapas de homogeneización y estandarización. Esta homogeneización proporciona una potente ventaja, pero exige cautela, ya que los defectos de un modelo base son heredados, y difícilmente subsanables, por todos los modelos derivados.
A pesar del inminente despliegue generalizado de los modelos fundacionales, actualmente carecemos de una comprensión clara de cómo funcionan, cuándo fallan e incluso de qué son capaces debido a sus propiedades emergentes. Para abordar estas cuestiones, gran parte de la investigación crítica sobre los modelos fundacionales requerirá de una profunda colaboración interdisciplinar acorde con su naturaleza esencialmente sociotécnica.
!!!note:Importante
Es importante mencionar que esta entrada está basada en el informe anterior, pero va jalonada y es interpretado por opiniones personales del autor de la entrada.
# Introducción
Recientemente ha surgido un paradigma, resultado del trabajo conjunto de muchos equipos sin colaboración directa, para construir sistemas de inteligencia artificial (IA) basados en una clase general de modelos que denominamos globalmente como **Modelos Fundacionales**.
!!!side:1
Entre los ejemplos actuales se incluyen BERT, la familia GPT, o los modelos Llama y Gemini.
!!!def: Modelos Fundacionales (MF)
Un **modelo fundacional** es cualquier modelo que se entrena con gran cantidad de datos (generalmente utilizando la autosupervisión a escala) y que puede adaptarse (por ejemplo, por técnicas de fine-tuning) a una amplia gama de tareas posteriores [1].
Desde un punto de vista tecnológico, los modelos fundacionales no son nuevos: se basan en redes neuronales profundas y en el aprendizaje autosupervisado, que existen desde hace décadas, aunque se han generalizado y mejorado considerablemente en los últimos años.
La mayoría de ellos disponen de algunos cientos de miles de millones de parámetros y pueden adaptarse mediante instrucciones de lenguaje natural para realizar un trabajo aceptable en una amplia gama de tareas, a pesar de no haber sido entrenados explícitamente para realizar muchas de ellas. Pero, al mismo tiempo, tienen el potencial de acentuar los daños que los modelos ML pueden causar, y sus características son en general poco conocidas. Pese a proporcionar un soporte robusto sobre el que resolver (aunque sea parcialmente) muchas tareas, también crea puntos únicos de fallo.
## Emergencia y Homogeneización
La importancia de los modelos fundacionales puede resumirse en dos palabras: **emergencia** y **homogeneización**.
!!!side:2
Es un término que proviene, y se relaciona profundamente, con los sistemas complejos, pero la relación existente entre el área de los Sistemas Complejos y los Modelos Fundacionales apenas ha sido explorada.
!!!def:Emergencia y Homogeneización
**Emergencia** significa que el comportamiento de un sistema se induce implícitamente en lugar de construirse explícitamente [2].
La **homogeneización** apunta a la consolidación de metodologías comunes para construir sistemas de aprendizaje automático a través de una amplia gama de aplicaciones.
Para apreciar mejor la emergencia y la homogeneización, es necesario reflexionar sobre su auge en la investigación de la IA en los últimos 30 años.
La historia de la IA está plagada de procesos continuos de emergencia y homogeneización:
!!!side:3
En realidad, esta deducción es una inferencia automática que se consigue por medio de la aproximación de una función matemática.
* Con la introducción del aprendizaje automático, la forma en que se realiza una tarea se deduce [3] a partir de ejemplos; con el aprendizaje profundo, emergen las características de alto nivel utilizadas para la predicción; y con los modelos fundacionales, emergen incluso funcionalidades avanzadas como el aprendizaje por contexto.
* Al mismo tiempo, el aprendizaje automático homogeneiza los algoritmos de aprendizaje (por ejemplo, el uso de la regresión logística como modelo comodín en multitud de tareas distintas), el aprendizaje profundo homogeneiza las arquitecturas de los modelos (por ejemplo, las redes neuronales convolucionales), y los modelos fundacionales homogeneizan el propio modelo (por ejemplo, GPT o Llama).

!!!def: Aprendizaje Automático
Hoy en día, la mayoría de los sistemas de IA se basan en aprendizaje automático, donde los modelos predictivos se entrenan a partir de datos históricos y se utilizan para hacer predicciones futuras. El auge del aprendizaje automático dentro de la IA comenzó en la década de 1990 y supuso un cambio radical respecto a la forma en que se construían antes los sistemas de IA: en lugar de especificar cómo resolver una tarea, un algoritmo de aprendizaje la induce basándose en datos, es decir:
A partir de la dinámica del aprendizaje surgía el *cómo*
El aprendizaje automático también supuso un paso hacia la homogeneización: un único algoritmo de aprendizaje genérico, como la regresión logística, podía servir para una amplia gama de aplicaciones.
A pesar de la omnipresencia del aprendizaje automático en la IA, las tareas semánticamente complejas de procesamiento de lenguaje natural (PLN) y de visión por ordenador, como la respuesta a preguntas o el reconocimiento de objetos, en las que los datos de entrada son frases o imágenes, siguen requiriendo que los expertos realicen *ingeniería de características*, es decir, que escriban una lógica específica del dominio, para convertir los datos brutos en características de alto nivel que sean más adecuadas para los métodos populares de aprendizaje automático.
!!!def:Aprendizaje Profundo
Alrededor de 2010, un renacimiento de las redes neuronales profundas bajo el apelativo de aprendizaje profundo comenzó a ganar tracción en el campo del aprendizaje automático. El aprendizaje profundo se vio impulsado por conjuntos de datos más grandes, más capacidad de computación (en particular, la disponibilidad de dispositivos GPU) y una mayor audacia. Las redes neuronales profundas se entrenaban a partir de datos de entrada brutos (por ejemplo, píxeles), y a través del entrenamiento surgían características de nivel superior (un proceso denominado **aprendizaje de la representación**). De este modo, se obtuvieron enormes mejoras de rendimiento en pruebas de referencia estándar (como el trabajo seminal de AlexNet sobre el conjunto de datos ImageNet).
El aprendizaje profundo también reflejó un nuevo cambio hacia la homogeneización: en lugar de tener procesos de ingeniería de características a medida para cada aplicación, la misma arquitectura de red neuronal profunda podía utilizarse para muchas aplicaciones.
!!!side:4
Al igual que el aprendizaje profundo se popularizó en la visión por ordenador, pero existe más allá de ella, entendemos los modelos fundacionales como un paradigma general de la IA, más que específico de la PLN.
!!!def:Modelos Fundacionales
Los modelos fundacionales se han desarrollado con más fuerza en el campo de la PLN, por lo que, inicialmente de momento, nos centraremos en ellos [4].
A finales de 2018, el campo de la PLN estaba a punto de experimentar otro cambio sísmico, marcando el comienzo de la era de los modelos fundacionales.
A nivel técnico, los modelos fundacionales están habilitados por la transferencia del aprendizaje y la escala. La idea de la transferencia de aprendizaje es tomar el *conocimiento* aprendido de una tarea (por ejemplo, el reconocimiento de objetos en imágenes) y aplicarlo a otra tarea (por ejemplo, el reconocimiento de actividades en vídeos). Dentro del aprendizaje profundo, el preentrenamiento es el enfoque dominante para la transferencia de aprendizaje: un modelo se entrena en una tarea sustituta (a menudo sólo como un medio para un fin) y luego se adapta a la tarea de interés a través de un ajuste fino.
La transferencia de aprendizaje es lo que hace posibles los modelos fundacionales, pero la escala es lo que los hace potentes. La escala requiere tres ingredientes:
1. Mejoras en el hardware informático (por ejemplo, el rendimiento y la memoria de las GPU se ha multiplicado por $10$ en los últimos años).
2. El desarrollo de la arquitectura de [modelos *Transformer*](https://arxiv.org/abs/1706.03762) que aprovecha el paralelismo del hardware para entrenar modelos mucho más expresivos que antes.
3. La disponibilidad de muchos más datos de entrenamiento.
!!!side:5
Por ejemplo, el preentrenamiento en ImageNet para la clasificación de imágenes.
No se puede subestimar la importancia de la disponibilidad de datos y la capacidad de aprovecharlos. La transferencia de aprendizaje con conjuntos de datos anotados ha sido una práctica común durante al menos una década [5]. Sin embargo, el elevado coste de la anotación impone un límite práctico a las ventajas del preentrenamiento.
!!!side:6
El aprendizaje autosupervisado fue dominante en los primeros días del aprendizaje profundo, pero durante una década fue ampliamente superado por el aprendizaje supervisado puro a medida que los conjuntos de datos etiquetados se hacían más grandes.
Por otro lado, en el aprendizaje autosupervisado, la tarea de preentrenamiento se deriva automáticamente de datos no anotados [6]. Las tareas autosupervisadas no solo son más escalables, ya que solo dependen de datos sin etiquetar, sino que están diseñadas para obligar al modelo a predecir partes de las entradas, lo que las hace más ricas y potencialmente más útiles que los modelos entrenados en un espacio de etiquetas más limitado.
El aprendizaje autosupervisado pasó de los embeddings de palabras, que asociaban cada palabra con un vector independiente del contexto y constituían la base de una amplia gama de modelos de PLN, al modelado autorregresivo del lenguaje (predecir la siguiente palabra a partir de las palabras anteriores), lo que produjo modelos que representaban palabras en contexto, como GPT y ELMo.
Rápidamente apareció una ola de desarrollos en aprendizaje autosupervisado (BERT, GPT-2, RoBERTa, T5, BART), adoptando la arquitectura Transformer, incorporando codificadores bidireccionales profundos más potentes de oraciones, y escalando a modelos y conjuntos de datos más grandes.
Antes de 2019, el aprendizaje autosupervisado con modelos lingüísticos era esencialmente una subárea en PLN que progresaba en paralelo a otros desarrollos del área. Tras 2019, se ha convertido en la norma.
Esta aceptación de que un único modelo podría ser útil para una gama tan amplia de tareas marca el comienzo de la era de los modelos fundacionales.
Los modelos fundacionales han alcanzado un nivel de homogeneización sin precedentes: casi todos los modelos de PLN más avanzados se han adaptado a partir de uno de los pocos modelos fundacionales, como BERT, RoBERTa, BART, T5, etc. Si bien esta homogeneización produce un aprovechamiento extremadamente alto: cualquier mejora en los modelos fundacionales puede conducir a beneficios inmediatos en toda la PLN; también es una desventaja, ya que todos los sistemas de IA podrían heredar los mismos sesgos problemáticos de unos pocos modelos fundacionales.
También se está empezando a ver una homogeneización a través de las comunidades de investigación en dos direcciones:
1. Ahora se aplican *enfoques similares* de modelado de secuencias basados en Transformer a texto, imágenes, voz, datos tabulares, secuencias de proteínas, moléculas orgánicas y aprendizaje por refuerzo. Estos ejemplos apuntan a un posible futuro en el que dispongamos de un conjunto unificado de herramientas para desarrollar modelos fundacionales en una amplia gama de modalidades.
2. También observamos la homogeneización de los modelos reales entre las comunidades de investigación en forma de *modelos multimodales*, por ejemplo, modelos fundacionales entrenados en datos de lenguaje y visión. Los datos son naturalmente multimodales en algunos dominios, como las imágenes médicas, los datos estructurados o el texto clínico en la atención sanitaria. Por lo tanto, los modelos fundacionales multimodales son una forma natural de fusionar toda la información relevante sobre un dominio y adaptarse a tareas que también abarcan múltiples modos.

Los modelos fundacionales también han dado lugar a sorprendentes emergencias derivadas de la escala. Por ejemplo, GPT-3, con 175.000 millones de parámetros frente a los 1.500 millones de GPT-2, permite el aprendizaje por contexto, en el que el modelo lingüístico puede adaptarse a una tarea posterior simplemente proporcionándole una indicación (una descripción en lenguaje natural de la tarea), una propiedad emergente para la que no se entrenó específicamente ni se previó que surgiera.
La homogeneización y la emergencia interactúan de una forma potencialmente inquietante. La homogeneización podría proporcionar enormes beneficios en muchos ámbitos en los que los datos específicos de la tarea son bastante limitados; por otra parte, todos los modelos adaptados heredan ciegamente cualquier fallo del modelo. Como el poder de los modelos fundacionales procede de sus cualidades emergentes más que de su construcción explícita, los modelos fundacionales existentes son difíciles de entender y tienen modos de fallo inesperados. Como la emergencia genera una incertidumbre sustancial sobre las capacidades y fallos de los modelos fundacionales, la homogeneización agresiva a través de estos modelos es una apuesta arriesgada. Por ello, la reducción de riesgos se ha convertido en un reto central en el futuro desarrollo de los modelos fundacionales desde una perspectiva ética y de seguridad de la IA.
!!!ejemplo:Sobre la denominación
El término **Modelo Fundacional** se introduce en el artículo que sirve de base a esta entrada para llenar un vacío en la descripción del cambio de paradigma que se está presenciando. Algunas razones para esta nueva denominación provienen de:
1. Los términos existentes (por ejemplo, *modelo preentrenado*, *modelo autosupervisado*) captan parcialmente la dimensión técnica de este tipo de modelos, pero no logran captar la importancia del cambio de paradigma de una manera accesible para quienes no se dedican al aprendizaje automático. En concreto, el modelo fundacional designa una clase de modelos que se distinguen por su impacto sociológico y por cómo han conferido un amplio cambio en la investigación y el despliegue de la IA. Por el contrario, las formas de preentrenamiento y autosupervisión que técnicamente prefiguraron los modelos fundacionales no consiguen aclarar el cambio de prácticas que se pueden destacar.
2. Además, aunque muchos de los modelos fundacionales icónicos son modelos lingüísticos, el término *modelo lingüístico* es demasiado limitado. El alcance de los modelos fundacionales va mucho más allá del lenguaje, y no se descarta que en futuras (ya existentes) versiones el papel del lenguaje se complemente con otras modalidades.
3. Podrían considerarse términos como *modelo de propósito general* y *modelo multipropósito*, que captan el importante aspecto de que estos modelos pueden servir para múltiples tareas posteriores, pero ambos no logran captar su carácter inacabado y la necesidad de una etapa de *adaptación* previa a su uso final.
4. Términos como *modelo agnóstico a la tarea* captarían la forma de entrenamiento, pero no logran captar la importante implicación para las aplicaciones posteriores.
Así pues, el nuevo término de **modelos fundacionales** elegido para identificar este tipo de modelos y el paradigma emergente se jsutifican por:
1. La palabra *fundacional* especifica el papel que desempeñan estos modelos: un modelo fundacional es en sí mismo incompleto, pero sirve de base común a partir de la cual se construyen, mediante adaptación, muchos modelos de tareas específicas.
2. El término *fundacional* tambien sirve para connotar la importancia de la estabilidad arquitectónica, la seguridad y la protección: unos fundamentos mal construidos son una receta para el desastre y unos fundamentos bien ejecutados son una base fiable para futuras aplicaciones.
En la actualidad, no hay una comprensión plena de la naturaleza o la calidad de los fundamentos que proporcionan los modelos fundacionales; no podemos caracterizar si los fundamentos son fiables o no. Por tanto, se trata de un problema crítico que debe abordarse por los investigadores, los proveedores de modelos fundacionales, los desarrolladores de aplicaciones que dependen de los modelos fundacionales, los responsables políticos y la sociedad en general.
## Impacto social y ecosistema
Antes de razonar sobre el impacto social de los modelos fundacionales, es importante comprender que forman parte de un ecosistema más amplio que cubre desde la etapa de creación de datos hasta su despliegue final. En ambos extremos, destaca el papel de las personas: en un extremo como fuente última de datos para la formación de un modelo fundacional, en el otro, como receptoras de los beneficios y perjuicios generados por él. Es por ello que tanto la conservación como la adaptación de los datos debería formar parte del desarrollo responsable de cualquier sistema de IA.
Los modelos fundacionales son interesantes desde el punto de vista científico por sus impresionantes prestaciones y capacidades, pero la característica que hace imprescindible su estudio es el hecho de que se están integrando rápidamente en implantaciones de sistemas de IA en el mundo real con consecuencias de gran alcance.
Así pues, es esencial responder a la siguiente pregunta:
!!!alg
¿Cuál es la naturaleza de este impacto social?
Una pregunta nos obliga a analizar la situación desde muchas facetas: la posible exacerbación de desigualdades sociales, el impacto económico debido al aumento de las capacidades, el impacto medioambiental debido al aumento de las demandas de computación, los posibles problemas de amplificación de la desinformación, las ramificaciones legales debidas a las potentes capacidades generativas, las cuestiones éticas derivadas de la homogeneización, y la economía política más amplia en la que se desarrollan y despliegan los modelos fundacionales.
Dada la naturaleza heterogénea de los modelos fundacionales y sus capacidades todavía desconocidas, ¿cómo se pueden anticipar y abordar de forma responsable las consideraciones éticas y sociales que plantean? Solo una cosa parece clara, es más fácil razonar sobre el impacto social de sistemas específicos desplegados para usuarios específicos que sobre el impacto social de los modelos fundacionales, que podrían adaptarse a cualquier cantidad de sistemas posteriores imprevistos.
!!!side:7
Por ejemplo, [Copilot](https://copilot.github.com/) de GitHub basado en el modelo Codex de OpenAI.
!!!side:8
Por ejemplo, la búsqueda de Google mediante BERT.
Antes de intentar responder a estas preguntas, que no es el objetivo de esta entrada, deben sentarse algunas bases. En primer lugar, debe distinguirse entre la *investigación* sobre modelos fundacionales y la *implantación* de modelos fundacionales. La mayor parte de lo que se conoce públicamente es la investigación sobre modelos fundacionales, a través de artículos académicos, demostraciones y avances en tablas de clasificación. Aunque la producción de conocimientos puede desempeñar un papel vital en la configuración del futuro, el impacto social directo se produce a través de la implantación real de estos modelos, que se rige por prácticas de propiedad sobre datos a menudo privados. A veces, el despliegue se realiza a través de nuevos productos [7], pero a menudo se trata de actualizaciones de productos existentes [8]. Los modelos de investigación no suelen someterse a pruebas exhaustivas y pueden presentar modos de fallo desconocidos, por lo que deberían colocarse etiquetas de advertencia en los modelos de investigación que no sean aptos para su despliegue. Por otro lado, los modelos fundacionales desplegados que realmente afectan a la vida de las personas deberían someterse a pruebas y auditorías mucho más rigurosas de las que hoy en día estamos viviendo.
Para comprender mejor la investigación y el despliegue de los modelos fundacionales, es necesario tomar un punto de vista lejano y considerar el ecosistema completo en el que habitan estos modelos fundacionales, desde la creación de datos hasta el despliegue real. Es importante señalar que el modelo fundacional es sólo un componente (aunque cada vez más importante) de un sistema de IA formado por diversas componentes construidas en distintas etapas. Esta visión permite ver que las distintas preguntas sobre los modelos fundacionales deben responderse en realidad con respecto a distintas etapas correctamente identificadas, y no respecto a un producto monolítico.
!!!def:Etapas en la construcción de un Modelo Fundacional
Las diversas etapas que podemos identificar son:

1. **Creación de datos**: La creación de datos es fundamentalmente un proceso centrado en el ser humano, todos los datos son creados por personas y la mayoría de los datos son, al menos implícitamente, sobre personas. A veces los datos son creados por personas para otras personas en forma de correos electrónicos, artículos, fotos, etc., y otras veces son una medición de personas (por ejemplo, datos genómicos) o una medición del entorno en el que viven las personas (por ejemplo, imágenes por satélite). Es importante señalar que todos los datos tienen un propietario y se crean con un propósito (donde ese propósito puede o no incluir la formación de un modelo fundacional).
2. **Tratamiento de datos**: Los datos se organizan en conjuntos. No existe una única distribución natural de datos, y hasta el momento toda tarea con solución (aunque sea aproximada) requiere cierta representación específica, selección y filtrado. Garantizar la pertinencia y calidad de los datos, respetando al mismo tiempo las restricciones legales y éticas, es fundamental, pero difícil.
3. **Entrenamiento**: El entrenamiento de modelos fundacionales sobre estos conjuntos de datos curados es actualmente la pieza central en la investigación de la IA, aunque es sólo una de las muchas etapas.
4. **Adaptación**: En el contexto de la investigación sobre aprendizaje automático, la adaptación consiste en crear un nuevo modelo, basado en el modelo fundacional, que realice alguna tarea (por ejemplo, el resumen de documentos). Para su despliegue, la adaptación consiste en crear un sistema, lo que requiere potencialmente muchos módulos diferentes, reglas personalizadas (por ejemplo, restricciones en el espacio de salida) o clasificadores (por ejemplo, para la clasificación de toxicidad), y la combinación con otras señales complementarias (por ejemplo, las respuestas generadas por un modelo de respuesta a preguntas se podrían validar con documentos relevantes).
5. **Despliegue**: El impacto social directo de un sistema de IA se produce cuando se pone al servicio de las personas. Aunque no querríamos desplegar modelos fundacionales potencialmente dañinos entrenados con datos cuestionables, podría ser útil permitirlos en la investigación para avanzar en la comprensión científica, aunque hay que actuar con cautela. En términos más generales, la práctica habitual en los despliegues a gran escala es realizar liberaciones graduales, en las que el despliegue se realiza a una fracción cada vez mayor de usuarios; esto puede mitigar parcialmente cualquier daño potencial.
!!!side:9
Por ejemplo, una empresa especializada en la creación de modelos fundacionales personalizados para diversos dominios que los desarrolladores de aplicaciones puedan utilizar.
Mientras que las grandes organizaciones pueden ser propietarias de todo el proceso, cada etapa podría ser realizada por una organización diferente [9].
Caracterizar el impacto social potencial de los modelos fundacionales es todo un reto y exige un profundo conocimiento tanto del ecosistema tecnológico como de la sociedad. No se pueden evaluar plenamente los perjuicios de un modelo fundacional sin conocer cómo se desplegará, y no se pueden definir métricas automáticas sin tener en cuenta el rico contexto social e histórico del grupo social que hará uso de él.
## El futuro
Los modelos fundacionales han demostrado un gran potencial, pero aún estamos en sus inicios. A pesar de su implantación en el mundo real, estos modelos son en gran medida prototipos de investigación poco conocidos. Incluso las normas profesionales en torno a los modelos fundacionales están poco desarrolladas. Por ejemplo, no hay acuerdo sobre cuestiones básicas como cuándo es *seguro* publicar modelos o cómo debe reaccionar la comunidad ante una mala práctica metodológica. Como el futuro de los modelos fundacionales está lleno de incertidumbre, cabe preguntarse quién determinará ese futuro.
La tecnología que hay detrás de los modelos fundacionales se basa en décadas de investigación en aprendizaje automático, optimización, PLN, visión por ordenador y otros campos. Estas aportaciones técnicas proceden tanto del mundo académico como de laboratorios de investigación industrial. Sin embargo, la construcción de modelos fundacionales se ha producido casi exclusivamente en la industria: grandes empresas tecnológicas como Google, Facebook, Microsoft o Huawei, o startups como OpenAI... aunque AI2 es una excepción notable.
El ritmo vertiginoso del progreso tecnológico y el atrincheramiento debido a la centralización suscitan fuertes preocupaciones que exigen la atención de humanistas y científicos sociales, además de la de los tecnólogos. No se debe confiar en auditorías post-hoc de las consecuencias éticas y sociales, realizadas sólo después de que se hayan tomado las decisiones de arquitectura técnica y despliegue. En lugar de ello, se deben infundir desde el principio consideraciones sociales y un diseño ético profundo en el desarrollo tecnológico de los modelos fundacionales y su ecosistema circundante.
Las instituciones académicas son únicas en el sentido de que albergan el más amplio conjunto de disciplinas bajo un mismo techo, reuniendo así a matemáticos, informáticos, científicos sociales, economistas, especialistas en ética, juristas, etc. Dada la importancia de la **diversidad disciplinar** a la hora de comprender y resolver problemas que combinan dimensiones técnicas, éticas, jurídicas, sociales y políticas, debería quedar claro que el mundo académico desempeña un papel crucial en el desarrollo de los modelos fundacionales de forma que se promueva su beneficio social y se mitiguen sus perjuicios sociales, así como en la determinación de los contextos en los que deben prohibirse estrictamente las acciones en cada una de las etapas del ecosistema.
La economía política en la que se diseñan, desarrollan y despliegan los modelos fundacionales proporciona una estructura de **incentivos** inevitable para la toma de decisiones en cada etapa. Cómo responden las personas y las instituciones a los incentivos es una lección elemental de economía. Los incentivos comerciales impulsados por el mercado pueden alinearse bien con el beneficio social: hacer que los modelos fundacionales sean más precisos, fiables, seguros y eficientes a la vez que se busca una amplia variedad de posibles casos de uso puede producir una gran utilidad social. Sin embargo, los incentivos comerciales también pueden provocar fallos del mercado y una inversión insuficiente en ámbitos en los que los accionistas no pueden captar el valor de la innovación. Al igual que la industria farmacéutica tiene pocos incentivos para dedicar recursos significativos a la investigación y el desarrollo de tratamientos contra la malaria, porque los pobres no pueden permitirse los medicamentos, la industria tecnológica tiene pocos incentivos para dedicar recursos significativos a tecnologías diseñadas para mejorar la condición de las personas pobres y marginadas, que aportan menos valor a sus fuentes de ingresos. Es más, los incentivos comerciales pueden llevar a las empresas a ignorar externalidades sociales, como el desplazamiento tecnológico de la mano de obra, la salud de un ecosistema informacional necesario para la democracia, el coste medioambiental de los recursos informáticos y la venta de tecnologías a regímenes no democráticos con ánimo de lucro. Por último, hay pocos incentivos para que una empresa determinada cree un ecosistema abierto y descentralizado para desarrollar modelos fundacionales que fomenten una amplia participación.
!!!side:10
Aquí hablamos de las Universidades de verdad, las públicas, y pueden caer fuera muchas entidades que hoy en día reciben este título cuando sus objetivos son provocados y persiguen otros incentivos provenientes del mercado privado.
Por el contrario, la misión investigadora de las universidades [10], arraigada desde hace mucho tiempo, es la producción y difusión de conocimientos y la creación de bienes públicos mundiales. El mundo académico se encuentra en una posición privilegiada para dar forma al desarrollo de modelos fundacionales que garanticen la captación de direcciones con un beneficio social potencialmente importante que, de otro modo, la industria no priorizaría. Por desgracia, el mundo académico no ha podido participar de la forma más plena posible debido a la **pérdida de accesibilidad**.
Uno de los efectos a menudo pasados por alto de la revolución del aprendizaje profundo fue el aumento de la reproducibilidad y la ciencia abierta, se extendió la norma de liberar públicamente código y conjuntos de datos, así como librerías de cómputo (como TensorFlow y PyTorch), facilitando la colaboración. Los modelos fundacionales empiezan a revertir esta tendencia positiva. Algunos modelos (por ejemplo, la familia GPT) no se publican en absoluto (sólo se da acceso a la API a un grupo limitado de personas), y su aparición en prensa es más cercana a un anuncio de publicidad encubierta que a un anuncio científico. Incluso los conjuntos de datos no se publican. Además, aunque los modelos entrenados pueden estar disponibles (por ejemplo, BERT), el entrenamiento real de los modelos fundacionales no está al alcance de la gran mayoría de los investigadores de IA, debido al coste computacional mucho más elevado y a los complejos requisitos de ingeniería que demandan.
Todavía se pueden realizar algunas investigaciones significativas entrenando modelos más pequeños al alcance de un presupuesto académico y, de hecho, la sorprendente regularidad que predicen las leyes de escalado hacen que esta sea una estrategia viable para los casos en los que las diferencias debidas al escalado son cuantitativas (por ejemplo, la precisión aumenta). Sin embargo, debido a la naturaleza emergente de estos modelos fundacionales, algunas funcionalidades como el aprendizaje en contexto sólo se han demostrado en modelos de tamaño suficiente, por lo que se necesita escala incluso para plantear las preguntas correctas.
Aunque es posible estudiar de forma productiva los modelos preexistentes que se han publicado y puede ser útil para potenciar las aplicaciones posteriores o identificar defectos (por ejemplo, el sesgo), esto podría no ser suficiente para diseñar mejores arquitecturas u objetivos de entrenamiento para los modelos fundacionales que puedan solucionar estos defectos (por ejemplo, mitigar el sesgo). Aunque hay esfuerzos comunitarios para construir grandes modelos fundacionales, la brecha entre los modelos privados y los que están abiertos a la comunidad probablemente seguirá siendo grande, y es probable que no haga más que aumentar. Además, hoy en día las empresas emergentes (OpenAI, Anthropic, AI21 Labs, etc.) cuentan con muchos más recursos que el mundo académico y, por tanto, pueden permitirse entrenar los modelos fundacionales más grandes.
!!!side:11
Como el Telescopio Espacial Hubble, el Gran Colisionador de Hadrones, o el conjunto de proyectos centralizados en el CERN.
!!!side:12
Otro enfoque complementario consiste en recurrir a la computación voluntaria, en la que cualquiera de los miles de millones de dispositivos informáticos (nodos) puede conectarse a un servidor central y contribuir al cálculo.
Una forma de cerrar la brecha de recursos es que los gobiernos inviertan en infraestructuras públicas. Inspirándonos en grandes proyectos científicos [11], en los que una inversión pública sustancial hizo posible descubrimientos científicos fundamentales que no habrían sido posibles de otra forma, es posible imaginar una infraestructura computacional similar, de la que se beneficiaría enormemente la investigación académica sobre modelos fundacionales [12].
## Estructura
En las siguientes secciones se presentan brevemente los cuatro aspectos de los modelos fundacionales que se han reconocido como esenciales: capacidades, aplicaciones, tecnología y sociedad.

# Capacidades
Los modelos fundacionales adquieren diversas capacidades que pueden potenciar sus aplicaciones. Aquí discutiremos sobre cinco capacidades potenciales, algunas más desarrolladas que otras: la capacidad de procesar diferentes modalidades (principalmente, lenguaje y visión, aunque encontramos recientemente otras modalidades como el audio), de interactuar con el mundo físico (por medio de la robótica), de realizar razonamientos, y de interactuar con humanos.
## Lenguaje
El lenguaje es la base de la mayoría de las comunicaciones e interacciones humanas. No es solo un medio para que los humanos logren metas compartidas, sino que es fundamental para el pensamiento humano, las relaciones sociales y emocionales, y la identidad personal y social. Además, el lenguaje es crucial para registrar conocimientos y desarrollar inteligencia social. Las lenguas, ya sean habladas o de señas, surgen en todas las sociedades humanas y son increíblemente diversas en la manera en que expresan y estructuran la información que transmiten. Sin embargo, también exhiben una sorprendente concordancia en la riqueza que define a un idioma. Las lenguas son sistemas notablemente complejos pero eficientes, adquiridos de manera consistente por los niños en poco tiempo, y que evolucionan para abarcar las necesidades cambiantes de las comunidades lingüísticas.
Debido a esta centralidad del lenguaje en las actividades humanas, la comprensión y generación del lenguaje es un elemento crítico de la investigación en IA. El procesamiento del lenguaje natural (PLN) es el subcampo de la inteligencia artificial que se ocupa del lenguaje, y junto con los campos relacionados del reconocimiento automático del habla (ASR) y la síntesis de texto a voz (TTS), tiene como objetivo dotar a las computadoras de la capacidad de entender y generar lenguaje humano de manera similar a como lo hacen los seres humanos.
Hasta la fecha, PLN ha sido el campo más profundamente afectado por los modelos fundacionales. La primera generación de estos modelos mostró una impresionante variedad de habilidades lingüísticas, así como una sorprendente capacidad de adaptabilidad a una amplia gama de situaciones lingüísticas. Desde la introducción de los primeros modelos fundacionales, como ELMo y BERT en 2018, el campo del PLN se ha centrado en gran medida en el uso y comprensión de estos modelos. El campo ha pasado a utilizar los modelos fundacionales como herramienta principal, avanzando hacia un aprendizaje del lenguaje más generalizado como enfoque y objetivo central.
Aunque el PLN ha abierto el camino a los modelos fundacionales, existe una clara brecha entre las capacidades lingüísticas que estos modelos adquieren actualmente y las que caracterizan al lenguaje como sistema complejo para la comunicación y el pensamiento humanos. En respuesta a esto, se puede hacer hincapié en toda la gama de variaciones lingüísticas (por ejemplo, diferentes estilos, dialectos, lenguas), lo que supone una oportunidad y un reto desde una aproximación basada en ML, ya que algunas variantes están fuertemente limitadas por la cantidad de datos disponibles. Además, la adquisición del lenguaje infantil es más eficiente desde el punto de vista muestral que el entrenamiento de modelos fundacionales.

A pesar de ello, la capacidad que muestran este tipo de modelos para el procesamiento y generación de lenguaje natural ha sido quizás lo que más ha despertado el interés del público (académico o no), al cubrir de forma muy eficiente una carencia que mostraban las aproximaciones más clásicas.
Los modelos fundacionales han cambiado drásticamente la investigación y la práctica de PLN, dando lugar a muchas nuevas líneas de investigación para la comunidad: comprender la generación como un aspecto fundamental del lenguaje, estudiando cómo utilizar y comprender mejor los modelos fundacionales, entender cómo los modelos fundacionales pueden aumentar las desigualdades en PLN, examinar si los modelos fundacionales pueden abarcar satisfactoriamente la variación y la diversidad lingüísticas, y encontrar formas de aprovechar la dinámica del aprendizaje del lenguaje humano. La mayoría de las tareas complejas en las que se centraba la comunidad investigadora antes de los modelos fundacionales, ahora se resuelven mejor, a un nivel casi humano, utilizando uno de los modelos fundacionales. Sin embargo, siguen existiendo grandes diferencias entre este rendimiento y las necesidades de un despliegue útil y seguro de estos modelos en entornos complejos.
## Visión
Como hemos comentado en la introducción, la visión por ordenador lideró la adopción del aprendizaje profundo en la IA, demostrando que los modelos preentrenados en grandes conjuntos de datos anotados pueden transferirse a numerosos escenarios secundarios.
La visión subyace a uno de los modos primarios a través de los cuales un organismo vivo comprende su entorno. La capacidad de ver permite la recolección constante a largo plazo de señales densas, una habilidad crítica desarrollada a lo largo de una escala de tiempo evolutiva en una variedad de formas de vida. Sin embargo, transferir estas habilidades a las máquinas ha sido sorprendentemente difícil. La visión por computadora tiene un amplio alcance de aplicaciones transformadoras, desde automóviles autónomos hasta herramientas de inteligencia artificial que salvan vidas en medicina. El campo de la visión por computadora se inspira en gran medida en las capacidades de percepción humana, y ha avanzado hacia modelos fundacionales que pueden interpretar y entender el mundo visual. Estos modelos, sin embargo, enfrentan desafíos en términos de capacidades y enfoques clave, como la sistematicidad semántica, la eficiencia computacional y la capacitación y evaluación de modelos. A pesar de estos desafíos, los modelos fundacionales de visión tienen el potencial de impactar significativamente áreas como la salud, las aplicaciones móviles y los agentes interactivos. Sin embargo, es crucial abordar simultáneamente los riesgos asociados con estos avances, incluidos los problemas de sesgo, privacidad y el uso indebido de la información generada por estos modelos.
!!!side:13
Por ejemplo, la comprensión geométrica y física en 3D, el razonamiento de sentido común, etc.
En la actualidad, los modelos fundacionales, preentrenados en datos brutos a escala web en lugar de en conjuntos de datos curados, están en auge en la visión por ordenador. Estos modelos han mostrado resultados prometedores para tareas estándar en este campo, como la clasificación de imágenes y la detección de objetos, y el entrenamiento en datos multimodales y encarnados más allá de las imágenes puede permitir avanzar en otros retos significativos [13].
También se hace preciso analizar algunos de los principales retos en materia de modelado (por ejemplo, la capacidad de escalar eficazmente a vídeo) y evaluación (por ejemplo, la medición de las capacidades de orden superior), junto con las aplicaciones (por ejemplo, la inteligencia ambiental para la atención sanitaria) y las consideraciones sociales (por ejemplo, la vigilancia) que determinarán el impacto de los modelos fundacionales para la visión por computador en el futuro.

## Robótica
Un antiguo objetivo de la investigación robótica es desarrollar robots *generalistas* capaces de realizar innumerables tareas en entornos físicamente diversos. A diferencia del lenguaje y la visión, que han liderado el desarrollo de modelos fundacionales debido a la abundancia de datos brutos con los que entrenarlos y a la disponibilidad de aplicaciones virtuales en las que aplicarlos, la robótica se enfrenta a retos fundamentales al estar anclada al mundo físico.
El principal reto a la hora de desarrollar nuevos tipos de modelos fundacionales para la robótica -diferentes en su naturaleza a sus homólogos de lenguaje y visión- es adquirir suficientes datos de la forma adecuada que propicien el aprendizaje: la abundancia de datos (por ejemplo, vídeos genéricos de humanos, entre otros) que no son específicos de entornos concretos y a través de modalidades (por ejemplo, lenguaje, visión) puede ayudar a salvar esta brecha. Estos nuevos modelos fundacionales de robótica podrían facilitar la especificación y el aprendizaje de tareas, dar paso a nuevas aplicaciones (por ejemplo, una mejor asistencia robótica para las tareas domésticas o sanitarias) y aumentar la importancia de la robustez y la seguridad (por ejemplo, la evaluación formal de la seguridad).
En este proceso se pueden encontrar oportunidades y desafíos tanto en la especificación, que puedan comprender y transformar descripciones de tareas humanas en señales cuantitativas para optimizar el comportamiento del robot, como en su aprendizaje, que puedan hacer que el proceso sea más eficiente y confiable de tareas, o en la adquisición de datos, seguridad y robustez.
A pesar de estos desafíos, debe enfatizarse la importancia de abordar estas cuestiones ahora para desarrollar modelos de robótica seguros y confiables que puedan mejorar diversas facetas de la vida cotidiana.

Los modelos fundacionales robóticos -en todas sus posibles instancias- se han beneficiado y seguirán beneficiándose del trabajo en otros subcampos de la IA, como el lenguaje y la visión. Sin embargo, hay retos interdisciplinares en el horizonte que afectan a otros aspectos de los modelos fundacionales: es necesario innovar en los sistemas para entrenar y desplegar tales modelos para la robótica en tiempo real, en las interfaces para una interacción robusta entre humanos y robots, e incorporar las lecciones aprendidas a medida que se comprenda mejor la seguridad y robustez de tales modelos. Construir un ecosistema fiable y unas prácticas de investigación bien pensadas en torno a los modelos fundacionales en general, y a los modelos fundacionales robóticos en particular, es clave para alcanzar estos objetivos.
## Razonamiento y búsqueda
!!!side:14
Un juego de tablero con un espacio de acciones mucho más grande que el desafío clásico del ajedrez.
El razonamiento y la búsqueda han sido temas centrales a lo largo de la historia de la IA. Las pruebas clásicas de *inteligencia*, desde juegos de estrategia hasta el descubrimiento matemático abstracto, sirvieron como metas inspiradoras que empujaron los límites de la IA mediante la necesidad de idear formas cada vez más inteligentes de buscar soluciones ganadoras. En los primeros días, los métodos simbólicos fueron el enfoque dominante para el razonamiento, pero el esfuerzo de ingeniería involucrado y la necesidad de formalizar heurísticas para abordar espacios de búsqueda intratables rápidamente resultaron engorrosos. Más recientemente, los métodos basados en datos utilizando redes neuronales han mostrado resultados alentadores, como derrotar a los mejores humanos en Go [14], aprovechando las estructuras estadísticas y aprendiendo heurísticas útiles.
!!!side:15
Por ejemplo, tratar de probar que los ángulos ∠B y ∠C son iguales para un triángulo isósceles △ABC con AB = AC.
En cuanto a las tareas de razonamiento actuales, muchos problemas de razonamiento enfrentan espacios de búsqueda no acotados, donde los sistemas deben lidiar con numerosos tipos de alternativas abiertas. Además de la demostración de teoremas [15], muchos problemas del mundo real lidian con espacios de búsqueda no acotados, como la síntesis de programas, el descubrimiento de medicamentos, la síntesis química, el diseño asistido por ordenador, la optimización combinatoria, etc.

Recientemente, ha habido un aumento en el interés por aplicar enfoques basados en el aprendizaje para abordar problemas de razonamiento. Aunque para superar el desafío del espacio de búsqueda no acotado se puede comenzar con un espacio de búsqueda restringido para hacer que el problema fuera tratable, este enfoque sigue sufriendo el problema de los tipos limitados de acciones que el solucionador puede aplicar. Sin embargo, los LLM están ofreciendo una manera genérica de modelar el espacio de salida como una secuencia, lo que los convierte en una opción más favorable, permitiendo la generación de tipos arbitrarios de acciones.
En cuanto al papel de los modelos fundacionales, se argumenta que deberían desempeñar un papel central hacia el razonamiento general como vehículos para capturar las regularidades estadísticas de los espacios de búsqueda ilimitados, permitiendo transferencias positivas entre tareas y escenarios, y explotando la fundamentación del conocimiento en entornos multimodales. En este sentido, podemos destacar tres aspectos:
* **Generatividad**: Debido al espacio de búsqueda ilimitado, resulta intratable enumerar todas las posibilidades. En cambio, con los modelos fundacionales se puede modelizar la distribución de las decisiones óptimas y generar los candidatos adecuados para pasar a la etapa siguiente. En concreto, como los modelos fundacionales ofrecen una forma genérica de modelar el espacio de salida como una secuencia, la generación de la siguiente decisión carece por completo de restricciones y, por tanto, es universal.
* **Universalidad**: Muchos problemas de razonamiento presentan estructuras latentes similares. El marco unificador impuesto por un modelo fundacional puede transferir y compartir heurísticas significativas entre tareas, que van desde la generalización de técnicas de bajo nivel que funcionan bien para una tarea a nuevos escenarios hasta la búsqueda directa de metatécnicas que funcionan bien en numerosos tipos de problemas. Además, como un modelo fundacional se entrena en muchos dominios, puede transferir el metaconocimiento codificado en los pesos de los modelos fundacionales entre tareas y dominios. De esta forma, los modelos fundacionales pueden reducir la complejidad del problema de aprendizaje en la fase de adaptación, mejorando la complejidad de la muestra y la generalización.
!!!side:16
En el caso de la geometría, por ejemplo, la comprensión de las formas geométricas aprendida en imágenes por un modelo fundacional podría utilizarse eficazmente la representación visual del problema.
!!!side:17
Por ejemplo, inferir el diagrama conmutativo a partir de las ecuaciones algebraicas correspondiente.
* **Grounding**: Los problemas de razonamiento suelen expresarse fácilmente en lenguajes simbólicos. Sin embargo, estos símbolos tienen profundos significados semánticos subyacentes. Los modelos fundacionales permiten profundizar en los fundamentos y significados semánticos. En primer lugar, las representaciones de base en otras modalidades, como la visual o la física, son esenciales para captar conceptos abstractos en tareas de razonamiento y dotarlos de significado concreto [16]. Sin embargo, los datos multimodales alineados en el razonamiento son escasos, y sigue siendo una cuestión abierta si los modelos fundacionales pueden descubrir conexiones entre diferentes modalidades de forma no supervisada [17]. Además, incluso dentro del dominio simbólico, los símbolos pueden tener varios niveles de interpretación, y queda por verificar si los modelos fundacionales pueden aprender una representación compartida que englobe estos diversos niveles.
El desafío futuro en el razonamiento incluye la escasez de datos anotados de alta calidad y la dificultad para recopilarlos en comparación con imágenes y texto crudo. Además, mejorar las capacidades de razonamiento de alto nivel es un desafío central para los modelos fundacionales existentes.
## Interacción
Los modelos fundacionales muestran un claro potencial para transformar la experiencia del desarrollador y del usuario de sistemas de IA: reducen el umbral de dificultad para la creación de prototipos y aplicaciones de IA debido a su eficiencia modélica en la adaptación, y elevan el techo para la interacción novedosa con el usuario debido a sus capacidades multimodales y generativas. Esto proporciona una sinergia que debe fomentarse de cara al futuro: los desarrolladores pueden ofrecer aplicaciones que se adapten mejor a las necesidades y valores del usuario, al tiempo que introducen formas mucho más dinámicas de interacción y oportunidades de retroalimentación.

Por supuesto, hay importantes retos que superar para difuminar la línea que separa a usuarios y desarrolladores. Por ejemplo mitigar los sesgos existentes en los modelos fundacionales, así como hacer que el comportamiento de los modelos sea más robusto y manejable incluso para los no expertos en ML, lo que puede conducir a trampas inesperadas en el ciclo de desarrollo. No obstante, la posibilidad de que los usuarios finales participen en el desarrollo de aplicaciones basadas en IA es una oportunidad altamente novedosa que podría introducir un nuevo paradigma en la forma de interactuar con estas aplicaciones.
## Filosofía de la comprensión
¿Qué podría llegar a comprender un modelo fundacional sobre los datos con los que se entrena? Esta cuestión es fundamental para evaluar su capacidad para contribuir a los sistemas inteligentes.
Los mejores modelos fundacionales actuales pueden consumir y producir lenguaje con una fluidez sorprendente, pero a menudo caen en incoherencias que sugieren que son simplemente *loros estocásticos*. Debe ser esencial aclarar si estas incoherencias son evidencia de limitaciones inherentes o si los futuros modelos fundacionales podrían realmente llegar a entender los símbolos que procesan.
Para dar respuesta a este tipo de preguntas, debe precisarse qué se entiende por comprensión, abordando tanto qué es la comprensión (metafísica) como cómo podríamos determinar de manera confiable si un modelo ha alcanzado la comprensión (epistemología):
* Hay tres enfoques sobre la **metafísica de la comprensión** del lenguaje, cada uno de ellos tiene implicaciones diferentes sobre la capacidad de los modelos fundacionales para entender el lenguaje:
* el **internalismo**: La comprensión lingüística equivale a la recuperación de las estructuras de representación internas adecuadas en respuesta a la información lingüística. Por tanto, la comprensión del lenguaje no es posible sin un repertorio conceptual interno rico y adecuado.
* el **referencialismo**: A grandes rasgos, un agente comprende el lenguaje cuando está en condiciones de saber qué haría falta para que distintas frases de ese lenguaje fueran verdaderas (en relación con un contexto). Es decir, las palabras tienen referentes y los enunciados (declarativos) tienen valor de verdad, y la comprensión implica la capacidad de evaluarlos en relación con la presentación de una situación o escenario.
* el **pragmatismo**: La comprensión no requiere representaciones internas ni cálculos, y la verdad y la referencia no son fundamentales. Lo que importa es que el agente esté dispuesto a utilizar el lenguaje de la manera adecuada. Esto puede incluir disposiciones hacia patrones de inferencia o razonamiento, movimientos conversacionales apropiados, etcétera. Lo más importante es que las capacidades verbales pertinentes constituyen la comprensión.
* La **epistemología de la comprensión** implica desafíos prácticos en la evaluación de si un modelo ha alcanzado la comprensión. Dependiendo de si el objetivo final es el internalismo o el referencialismo, se necesitarán métodos de evaluación estructural que permitan estudiar las representaciones internas de los modelos y sondearlas en busca de información.
En resumen, no hay respuestas fáciles a la pregunta de si los modelos fundacionales algún día comprenderán el lenguaje. La discusión invita a la conclusión de que si se busca que estos modelos comprendan el lenguaje, los regímenes de entrenamiento multimodales pueden ser la estrategia más viable. Sin embargo, sigue siendo una pregunta abierta si la auto-supervisión es suficiente para lograr esta comprensión.
# Aplicaciones
En la actualidad, la investigación sobre modelos fundacionales se limita en gran medida a la computación y la IA, y el impacto de los modelos fundacionales y las aplicaciones que respaldan se centran en gran medida en la industria tecnológica. De cara al futuro, los modelos fundacionales presentan un claro potencial para transformar y ampliar el alcance de la IA a muchos sectores más allá de la industria tecnológica, lo que sugiere un efecto más generalizado en la vida de las personas.
Aunque hay multitud de aplicaciones y ámbitos que considerar, quizás la sanidad, el derecho y la educación representan pilares fundamentales de la sociedad. Para que los modelos fundacionales contribuyan de forma significativa a estos ámbitos de aplicación, requerirán capacidades específicas, así como innovación técnica para tener en cuenta las consideraciones únicas de cada ámbito. Además, como estos ámbitos son fundamentales para el funcionamiento de la sociedad, la aplicación de los modelos fundacionales a ellos requiere abordar cuestiones profundamente sociotécnicas, como las relativas a los datos, la privacidad, la interpretabilidad, la equidad y la ética.
## Sanidad y biomedicina
Las tareas sanitarias (por ejemplo, la atención al paciente a través del tratamiento de enfermedades) y la investigación biomédica (por ejemplo, el descubrimiento científico de nuevas terapias) requieren conocimientos expertos que son limitados y caros. Los modelos fundacionales presentan claras oportunidades en estos ámbitos debido a la abundancia de datos multimodales (por ejemplo, imágenes, texto, moléculas) para entrenar modelos fundacionales, así como al valor de la mejora de la eficiencia de la muestra en la adaptación debido al coste de tiempo y conocimientos expertos.
Además, los modelos fundacionales pueden permitir un mejor diseño de la interfaz para que tanto los profesionales sanitarios como los pacientes interactúen con los sistemas de IA, y sus capacidades generativas sugieren un potencial para problemas de investigación abiertos como el descubrimiento de fármacos. Al mismo tiempo, conllevan riesgos evidentes (por ejemplo, exacerbar los sesgos históricos en los conjuntos de datos y ensayos médicos). Para liberar este potencial de forma responsable es necesario abordar en profundidad las cuestiones sociotécnicas de las fuentes de datos y la privacidad, así como la interpretabilidad y explicabilidad de los modelos, junto con una regulación eficaz del uso de los modelos fundacionales tanto para la atención sanitaria como para la biomedicina.

Las oportunidades en biomedicina ofrecen un campo fértil para la aplicación de modelos fundacionales, los cuales podrían facilitar la investigación biomédica, como el descubrimiento de fármacos y la comprensión de enfermedades, lo que se traduce en soluciones de atención médica mejoradas.
!!!side:18
Por ejemplo, el desarrollo de fármacos implica un proceso complejo que abarca desde la investigación básica de identificación de blancos proteicos y descubrimiento de moléculas potentes hasta el desarrollo clínico (por ejemplo, ensayos clínicos) y la aprobación final del fármaco, lo que típicamente lleva más de 10 años y cuesta más de mil millones de dólares.
Actualmente, el descubrimiento biomédico requiere recursos humanos significativos, tiempo experimental y costos financieros considerables [18]. Facilitar y acelerar el descubrimiento biomédico utilizando datos existentes y hallazgos publicados es un problema imperativo en biomedicina.
Los modelos fundacionales pueden ser particularmente útiles para el descubrimiento biomédico en dos aspectos principales:
1. Primero, tienen una fuerte capacidad generativa, lo que puede ayudar en ciertas tareas en la investigación biomédica, como generar protocolos experimentales (ensayos clínicos) y diseñar moléculas que funcionen (descubrimiento de fármacos) a partir de la existencia de datos previos.
2. En segundo lugar, los modelos fundacionales tienen el potencial de integrar diversas modalidades de datos en medicina, lo que permite investigar conceptos biomédicos (por ejemplo, enfermedades) desde múltiples escalas (usando datos a nivel molecular, de pacientes y de población) y múltiples fuentes de conocimiento (usando descripciones de imágenes, textuales y químicas). Esto facilita descubrimientos biomédicos que serían difíciles de obtener utilizando datos de una sola modalidad. Además, los modelos fundacionales también permiten transferir conocimientos entre modalidades.
Si bien existen oportunidades potenciales para que los modelos fundacionales ayuden, las aplicaciones en salud/biomedicina también plantean desafíos únicos que motivan una investigación adicional:
* **Multimodalidad**. Los modelos auto-supervisados actuales se desarrollan, en su gran mayoría, para cada modalidad (por ejemplo, texto, imagen, gen, proteína) y no aprenden conjuntamente de modalidades diversas. Para aprender la información intermodal y transmodal de estos datos médicos multimodales, es necesario investigar estrategias de fusión a nivel de características y semántica en el entrenamiento de los modelos fundacionales.
!!!side:19
Por ejemplo, en el diagnóstico y los ensayos clínicos, los síntomas del paciente y la relevancia temporal deben explicarse como evidencia.
* **Explicabilidad**. La explicabilidad, es crucial en salud y biomedicina, y es obligatoria bajo el Reglamento General de Protección de Datos (RGPD) [19]. Esto ayuda a resolver posibles desacuerdos entre el sistema y los expertos humanos. La explicabilidad también es necesaria para el consentimiento informado en salud. Sin embargo, los objetivos de entrenamiento de los modelos fundacionales actuales no incluyen la explicabilidad, lo que requiere investigación futura en esta dirección.
* **Regulaciones legales y éticas**. Las aplicaciones de atención médica deben observar regulaciones legales y éticas con garantías, como la seguridad del paciente, la privacidad y la equidad. Por ejemplo, en cuanto a la seguridad, las predicciones hechas por los modelos fundacionales deben ser factualmente precisas con conocimientos médicos establecidos, y deben cuantificar la incertidumbre o optar por postergar a un experto cuando estén inseguros. Para la privacidad, el uso de registros de salud de pacientes debe cumplir con las leyes de privacidad. El aprendizaje federado es una solución potencial para mantener privados los datos en crudo y sensibles en el entrenamiento de este tipo de modelos. Para la equidad, los investigadores deberán ser conscientes de los errores comunes o de lo contrario correrán el riesgo de exacerbar las desigualdades sociales existentes. Deben asegurarse de que los datos de entrenamiento y evaluación para los modelos sean lo suficientemente representativos de diferentes sexos, razas, etnias y niveles socioeconómicos.
* **Extrapolación**. El proceso de descubrimiento biomédico implica la extrapolación. Por ejemplo, los modelos fundacionales deben poder adaptarse rápidamente a nuevas tecnologías experimentales o nuevos contextos. La capacidad de aprovechar conjuntos de datos existentes y extrapolar a nuevos entornos es un desafío clave del aprendizaje automático en biomedicina. Si bien los modelos actuales exhiben algunos comportamientos de extrapolación, su mecanismo aún no está claro y está en sus primeras etapas. Se necesita más investigación para mejorar su capacidad de extrapolación, especialmente cuando se considera la diversa gama de modalidades de datos y tareas que son inherentes a la atención médica y la biomedicina.
## Derecho
Las aplicaciones jurídicas requieren que los abogados lean y produzcan largas narraciones coherentes que incorporen contextos cambiantes y descifren normas jurídicas ambiguas. Los modelos fundacionales pueden aportar ventajas en este ámbito: existen muchos datos en forma de documentos jurídicos y sus capacidades generativas se adaptan bien a las numerosas tareas generativas que requiere el Derecho, pero se necesitan mejoras significativas para que los modelos fundacionales sean capaces de razonar de forma fiable sobre diversas fuentes de información para generar documentos largos veraces.
Al igual que ocurre en la asistencia sanitaria, la muestra de eficacia de la adaptación de los modelos fundacionales es de gran valor debido a los costes de tiempo y conocimientos de los expertos en el ámbito jurídico, lo que puede permitir la reasignación de los conocimientos hacia problemas acuciantes de la justicia y el servicio público.
El desarrollo responsable de modelos fundacionales para el Derecho requerirá una consideración específica de la privacidad, y pone de relieve las principales limitaciones de los modelos fundacionales existentes, que precisan de avances fundamentales con respecto a la procedencia de su comportamiento y a las garantías de facticidad de su generación.

Las aplicaciones legales abarcan desde el uso del aprendizaje automático en contextos gubernamentales hasta la asistencia a abogados en la prestación de servicios legales. Los modelos fundacionales pueden mejorar el acceso a la justicia al reducir costos, mejorar la calidad y extender el alcance de los servicios legales en áreas como el derecho civil, penal y público. Pueden ayudar en la identificación de problemas legales, revisión de contratos, redacción de documentos legales y asesoramiento en litigios. También pueden ser útiles en la evaluación de pruebas durante el proceso judicial, la preparación para el juicio y la identificación de sesgos en decisiones legales. Sin embargo, se deben tener en cuenta desafíos como la explicabilidad, regulaciones legales y éticas, así como la adaptación a nuevas tecnologías y contextos legales.
Sin embargo, algunas limitaciones de los modelos fundacionales que requieren más investigación para su aplicación a este ámbito podrían ser:
!!!side:20
Esta limitación se está superando poco a poco, pero sobre todo en modelos privados de alto coste computacional.
* **Documentos largos y narrativas**: Los modelos actuales tienen dificultades para manejar la extensión de documentos legales, lo que es crucial en la redacción de escritos legales [20].
* **Recuperación de información, cambio de conceptos, formación de argumentos y razonamiento lógico**: Los modelos necesitan mejorar en la recuperación de casos relevantes, entender la evolución de la jurisprudencia y desarrollar habilidades de razonamiento legal.
* **Aprendizaje en pocos ejemplos**: La capacidad de aprender con poca información sigue siendo incipiente y es vital para adaptarse a diferentes corpus legales.
* **Adaptación**: Aunque se han observado mejoras con el preentrenamiento adaptativo al dominio legal, aún se necesita investigar más sobre su eficacia en diversas tareas legales.
* **Acceso a datos limpios y específicos del dominio**: La creación de conjuntos de datos legales grandes y etiquetados es crucial para mejorar el rendimiento de los modelos, pero enfrenta desafíos en la anotación manual y la representatividad de los datos.
* **Confiabilidad**: A pesar de las capacidades técnicas, la fiabilidad de los modelos en el contexto legal sigue siendo un obstáculo para su implementación práctica.
## Educación
La educación es un ámbito complejo y sutil. Una enseñanza eficaz implica razonar sobre la cognición de los alumnos y debe reflejar sus objetivos de aprendizaje. La naturaleza de los modelos fundacionales presenta aquí una promesa que aún no se ha materializado en el ámbito de la IA para la educación: mientras que ciertos flujos de datos en educación son individualmente demasiado limitados para entrenar modelos fundacionales, la capacidad de aprovechar datos relevantes de fuera del dominio (por ejemplo, Internet) y hacer uso de datos a través de múltiples modalidades (por ejemplo, libros de texto, fórmulas matemáticas, diagramas, tutoriales basados en vídeo, etc.) ofrece conjuntamente la esperanza de modelos fundacionales que sean ampliamente aplicables a las tareas educativas.
Si los modelos fundacionales conducen a una mejora significativa de las capacidades relevantes para la educación, existe un claro potencial para nuevas aplicaciones que se alineen con los aspectos generativos abiertos (por ejemplo, la generación de problemas) e interactivos (por ejemplo, la retroalimentación a los profesores) de los modelos fundacionales; la muestra de adaptación eficiente de los modelos fundacionales sugiere una mayor capacidad para el aprendizaje adaptativo y personalizado. En este caso, se requiere una consideración renovada de las características distintivas de la aplicación de la tecnología a la educación (por ejemplo, la privacidad de los estudiantes), junto con ciertas preocupaciones cada vez más críticas (por ejemplo, la desigualdad en el acceso a la tecnología en la educación, el plagio con ayuda de la tecnología, etc.).

Los modelos fundacionales en educación podrían entrenarse con múltiples fuentes de datos para aprender las capacidades necesarias para la educación: comprensión de diversas materias y diferentes técnicas pedagógicas. Estos modelos básicos pueden aplicarse de forma general a toda una serie de tareas y objetivos, como comprender a los estudiantes, ayudar a los profesores y generar contenidos educativos.
# Tecnología
Vamos a dedicar una sección a la tecnología que hay detrás de la creación de mejores arquitecturas de modelos, de los procedimientos de entrenamiento y adaptación y, por supuesto, de la ampliación de estos sistemas. Un tema crucial, pero que a menudo se pasa por alto, son los datos: ¿de dónde proceden y cuál es su composición? Además, queremos que los modelos fundacionales sean robustos a los cambios de distribución y seguros frente a los atacantes. Por último, queremos entender por qué funcionan los modelos fundacionales, tanto desde el punto de vista matemático como empírico.
## Modelización
En los últimos años, el paradigma emergente de los modelos fundacionales ha logrado impresionantes logros en IA que sobresalen en una amplia gama de tareas de comprensión del lenguaje y que muestran signos de creatividad visual. Estos modelos no solo logran un rendimiento notable en una multitud de diversas tareas y aplicaciones, sino que también manifiestan comportamientos destacados de interpretabilidad, robustez, controlabilidad y generalización.
¿Qué se necesita para que un modelo demuestre tales cualidades? ¿Qué arquitecturas son capaces de procesar grandes cantidades de información potencialmente multimodal y traducirla en un conocimiento rico del mundo? Y en general, ¿qué propiedades deseables debería poseer una red para dar origen a un modelo fundacional?
Por el momento, se identifican cinco de estas propiedades:
* **Expresividad**: para capturar y representar de forma flexible información rica información.
* **Escalabilidad**: para consumir con eficacia grandes cantidades de datos.
* **Multimodalidad**: para conectar diversas modalidades y dominios.
* **Capacidad de memoria**: para almacenar la ingente cantidad de conocimientos acumulados.
* **Composicionalidad**: para generalizar a nuevos contextos, tareas y entornos.
Estas propiedades se consideran esenciales para:
1. destilar y acumular conocimiento de diversas fuentes y dominios,
2. organizarlo en una representación eficaz y escalable, y
3. generalizarlo de manera flexible hacia contextos novedosos.

### Expresividad
!!!def
La expresividad se refiere a la capacidad teórica y práctica de una red para modelar la distribución de datos sobre la que se entrena y representarla de manera flexible.
Trabajos previos han propuesto medidas formales de expresividad para caracterizar la complejidad de las funciones que una red puede aproximar, lo cual se ve afectado fundamentalmente por su profundidad, anchura, conectividad y patrones estructurales.
Como el teorema de *No Free Lunch* sugiere que no existe un único modelo o algoritmo que se adapte mejor a todos los casos, interesa particularmente identificar qué modelos podrían capturar efectivamente las facetas de la información natural, como el lenguaje humano o las imágenes del mundo real. Estas modalidades son continuas (como en la visión) o discretas (como en el lenguaje), son jerárquicas y de alta dimensionalidad, y presentan un conjunto complejo de relaciones e interacciones entre sus elementos constituyentes, ya sean píxeles, palabras u objetos físicos. De hecho, los avances recientes en modelado generativo proporcionan evidencia sólida de la alta expresividad de las redes neuronales, ya que logran expresar con éxito distribuciones de dominios textuales, auditivos y visuales, y generar muestras de alta fidelidad, alta diversidad y realismo.
!!!side:21
Una ventaja notable de la atención sobre arquitecturas anteriores se debe a su mayor generalidad, ya que no está fuertemente ligada a una tarea o dominio particular, como es el caso de las CNN o RNN, que reflejan propiedades inherentes específicas de las modalidades de visión y lenguaje, respectivamente.
Junto al **Teorema de Aproximación Universal** de las redes más simples, las redes de Transformers, introducidas recientemente, demuestran la importancia de capturar dependencias de largo alcance en las interacciones de orden superior entre elementos. Para ello, se basan en el mecanismo de autoatención que permite rutas de cálculo más cortas y proporciona medios directos para comparar elementos lejanos entre los datos de entrada [21].
Este contraste captura una compensación más general entre especialización de tareas y expresividad: los modelos con priors estructurales más fuertes pueden aprovecharlos para mejorar la eficiencia de la muestra en las tareas particulares que se benefician de estos supuestos; mientras que, a la inversa, los modelos que integran sesgos inductivos más débiles aprenden más lentamente, pero a su vez pueden escalar a mayores volúmenes de datos y adaptarse a un diversos ámbitos, ya que no se basan en suposiciones restrictivas o específicas de la tarea.
A pesar de los progresos y logros estelares de las redes neuronales en general, y de los modelos fundacionales en particular, en términos de expresividad, siguen existiendo notables retos notables. El más destacado es el compromiso entre eficiencia y expresividad. La identificación de un equilibrio efectivo entre estos dos objetivos ofrece una interesante vía de investigación futura.
### Escalabilidad
Estrechamente relacionada con la expresividad del modelo está la noción de escalabilidad. A medida que datos ricos de diversas fuentes se vuelven más fácilmente disponibles y los recursos computacionales se vuelven más fuertes y eficientes, debemos buscar formas de igualar esta tasa de progreso y aprovecharla para mejorar la competencia y versatilidad de la IA.
Para que los modelos fundacionales se ajusten eficazmente a la distribución compleja y de alta dimensión de imágenes o texto, deben ser escalables en todas las dimensiones, incluyendo tanto la profundidad y anchura de los modelos como su tiempo de entrenamiento, número de parámetros y cantidad de datos que pueden procesar.
En cuanto a la optimización, los modelos deben ser fáciles de entrenar, siendo resistentes al ruido o imperfecciones en los datos, y robustos contra inestabilidades como gradientes que desaparecen o explotan. Además, deben ser fáciles de adaptar, superando fenómenos como el olvido catastrófico y apoyando el aprendizaje con pocos ejemplos.
También es importante considerar la compatibilidad con el hardware, aprovechando la eficiencia práctica de sistemas contemporáneos y futuros, como la capacidad de paralelización, y asegurando que los modelos estén diseñados para adaptarse a futuros avances en hardware mediante esquemas como el entrenamiento distribuido y propiedades como la dispersión de la computación o la representación.
### Multimodalidad
Tradicionalmente, los campos de visión por computadora, robótica y procesamiento del lenguaje natural han progresado de manera independiente, con comunidades separadas desarrollando enfoques específicos adecuados para cada modalidad. Una consecuencia propicia del auge del aprendizaje profundo fue la formación de puentes entre las diversas comunidades y áreas de investigación dentro de la IA, ya que problemas aparentemente diferentes ahora podían abordarse con enfoques estrechamente relacionados, y estudios de temas originalmente remotos comenzaron a converger hacia un terreno común. Este avance abrió un nuevo abanico de posibilidades, fomentando una exploración pionera sobre el tema de la multimodalidad, que abarca áreas tan diversas como fundamentos del lenguaje, semántica visual, entornos encarnados y agentes interactivos.
Esencialmente, la multimodalidad sirve como un componente clave de la inteligencia y es un factor crucial para el desarrollo de una comprensión exhaustiva y amplia del mundo. Es, pues, natural argumentar que los modelos fundacionales deberían conectar idealmente las diferentes modalidades, destilar su información incorporada en una representación multifacética compartida y capturar toda la gama de interconexiones y relaciones entre ellas para proporcionar una amplia gama de capacidades.
Un aspecto importante del diseño para los modelos fundacionales multimodales es el grado de especialización o el intercambio estructural entre los módulos responsables de cada modalidad. Otra consideración clave para los modelos multimodales se refiere al uso compartido de pesos: ¿se benefician las diferentes modalidades al usar los mismos o diferentes parámetros para sus componentes respectivos? Finalmente, una pregunta de diseño importante se refiere a las formas de las interacciones multimodales admitidas por el modelo, que varían ampliamente entre casos y ejemplos concretos. En general, aunque parece haber consenso dentro de la comunidad sobre la importancia de la multimodalidad, los modelos que van más allá de la alineación superficial de visión y lenguaje aún no existen, y el tema del aprendizaje de fundamentos del lenguaje en entornos encarnados aún tiene mucho espacio para la exploración.
### Memoria
Hasta ahora, hemos discutido el objetivo de los modelos fundacionales de reunir y acumular información de diversas modalidades a gran escala. Esta comprensión abarca tanto la comprensión amplia del mundo como el dominio específico de temas nicho o hechos particulares.
Representar tal cantidad de información aprendida no es trivial y está llevando a interesantes preguntas sobre mecanismos efectivos para el **acceso**, **almacenamiento**, **recuperación** y **manipulación** de elementos o recuerdos particulares. Un principio de diseño importante que podría lograr estos deseos es separar la computación de la memoria para mejorar la capacidad de los modelos para transferir conocimientos mediante la aplicación de habilidades abstractas previamente adquiridas a nuevos entornos concretos. En este contexto, es importante distinguir entre **hechos explícitos**, que pueden almacenarse en una memoria externa, y **conocimiento implícito**, que se refleja a través de los pesos entrenables de las redes. Esta separación disfruta de múltiples ventajas en comparación con la alternativa de codificar implícitamente toda la información junta a través de los pesos de la red. La separación mitiga la inflación en el tamaño de los modelos y la cantidad de parámetros necesarios para almacenar las crecientes cantidades de conocimiento, mejora la confianza y fiabilidad de los modelos al aumentar su procedencia del conocimiento y es clave para la actualización, manipulación o adaptación de la memoria, lo que a su vez podría permitir la generalización a contextos y tareas novedosas.
La manipulación del conocimiento también es crucial para el aprendizaje continuo, donde la corrección y validez de los hechos pueden cambiar con el tiempo, y lo que fue cierto o relevante ayer puede no serlo mañana. Es fundamental que un modelo represente su conocimiento de manera que apoye la actualización o manipulación eficiente de los hechos como parte de su aprendizaje continuo.
### Composicionalidad
!!!def
La composicionalidad puede definirse como el principio según el cual el significado del todo se deriva del significado de sus partes constituyentes y las reglas aplicadas para combinarlas.
Es un ingrediente crucial de la inteligencia humana, subyacente a nuestras capacidades para planificar, razonar y aprender fácilmente y de manera eficiente a partir de unos pocos ejemplos. La composicionalidad puede ser clave para lograr generalizar fuera de la distribución, o específicamente, de la generalización combinatoria.
Se refleja en diferentes elementos: el **modelo**, la **computación**, el **entrenamiento y los datos**, y la **representación** aprendida en sí misma. Se puede manifestar a nivel del modelo, en términos de sus propiedades arquitectónicas, estructura y grado de modularidad. Modelos como las redes de módulos y la mezcla de expertos avanzan en esta dirección, exhibiendo no solo modularidad estructural, sino también computación compositiva. No solo puede ser compositivo el modelo o su computación, sino también los datos o los procesos de entrenamiento. La representación aprendida en sí misma puede ser compositiva, emergiendo durante el entrenamiento del modelo y la adaptación. Sin embargo, la composicionalidad también puede obstaculizar la expresividad de la representación e impedir su capacidad para tener en cuenta las idiosincrasias, excepciones y correlaciones contextuales. Explorar maneras de alcanzar un mejor equilibrio entre la contextualidad y la composicionalidad es también una vía prometedora para la investigación futura.
## Entrenamiento
Los objetivos del entrenamiento en el desarrollo de modelos fundacionales son los siguientes:
!!!side:22
Esto requiere diseñar algoritmos auto-supervisados que aprovechen la estructura única de cada tipo de dato para generar una señal de entrenamiento para el modelo.
1. **Aprovechar conjuntos de datos amplios:** Utilizar algoritmos de aprendizaje auto-supervisado para aprovechar conjuntos de datos extensos, provenientes de diversas fuentes como imágenes, audio, texto y datos sensoriales, sin necesidad de anotaciones externas [22].
!!!side:23
Por ejemplo, en el caso del modelado de lenguaje, esto puede implicar que el modelo adquiera habilidades como la resolución de coreferencias, el análisis de sentimientos y la traducción, además de predecir la siguiente palabra en un documento.
2. **Garantizar la completitud del dominio:** Asegurar que los modelos adquieran habilidades ampliamente útiles para tareas futuras en el dominio, lo cual es crucial para la generalidad de un modelo fundacional [23].
3. **Optimizar la eficiencia en el uso de recursos computacionales:** Desarrollar procedimientos de entrenamiento que conviertan de manera confiable datos, arquitectura de modelo y recursos computacionales en un modelo ampliamente capaz. Esto implica identificar cuellos de botella en este proceso y proponer nuevos algoritmos de entrenamiento que los eliminen, especialmente con la creciente importancia de los recursos computacionales en el entrenamiento de modelos.
Las elecciones en el diseño de métodos de aprendizaje auto-supervisado incluyen:
1. **Nivel de abstracción de la entrada del modelo:** Se plantea la pregunta sobre cómo representar la entrada del modelo. Una opción es utilizar representaciones de alta dimensionalidad, pero esto puede llevar al modelo a enfocarse en aspectos menos semánticos y hacer que el entrenamiento sea computacionalmente costoso, especialmente para modelos como los transformers. Otra opción es reducir el espacio de entrada del modelo utilizando conocimientos del dominio, como estrategias de tokenización o incrustaciones de parches. Sin embargo, esto puede resultar en la pérdida de información útil.
2. **Enfoques generativos vs discriminativos:** Puede plantearse la elección entre enfoques generativos, que entrenan modelos para aprender distribuciones conjuntas o condicionales sobre las entradas de entrenamiento, y enfoques discriminativos, que pueden ser más eficientes para tareas de clasificación o regresión en entornos de alta dimensionalidad. Mientras que los enfoques generativos permiten interacciones basadas en la generación de datos, los discriminativos pueden ser más eficientes para otras tareas.
3. **Captura de relaciones multimodales:** Es de destacar la importancia de capturar relaciones entre múltiples tipos de datos, como imágenes y texto. Esto puede implicar la creación de modelos multimodales que procesen datos de diferentes modalidades de manera conjunta, permitiendo aplicaciones como la respuesta a preguntas visuales. Sin embargo, aún queda mucho por explorar sobre cómo los modelos pueden ser verdaderamente multimodales y qué capacidades adicionales pueden proporcionar.
Para el futuro del entrenamiento de modelos fundacionales, algunos objetivos importantes podrían ser:
!!!side:24
Esto eliminaría la necesidad de diseñar nuevos métodos de entrenamiento desde cero para cada campo, lo que facilitaría la creación de modelos fundacionales en áreas como la medicina, la ciencia y los entornos multimodales.
1. **Aprendizaje auto-supervisado universal:** Desarrollar objetivos de aprendizaje auto-supervisado más generales que puedan aplicarse a una amplia gama de dominios y tipos de datos [24].
2. **Señal de entrenamiento más rica:** Investigar y desarrollar métodos de entrenamiento con señales más ricas y eficientes, que permitan a los modelos adquirir habilidades más complejas de manera más rápida y efectiva. Esto podría incluir la búsqueda de algoritmos de entrenamiento considerablemente más eficientes que los actuales, así como la adaptación de las señales de entrenamiento a medida que el modelo mejora.
3. **Entrenamiento dirigido por objetivos:** Explorar métodos de entrenamiento que incorporen la capacidad del modelo para comprender y llevar a cabo objetivos en un mundo complejo como parte de su objetivo de entrenamiento. Esto diferenciaría este enfoque del de simplemente adaptar un modelo existente a una tarea específica mediante el aprendizaje por refuerzo. Los modelos podrían aprender una amplia gama de capacidades del mundo real a través de interacciones en línea u offline, sin necesidad de anotaciones humanas o construcción de tareas específicas.
## Adaptación
Los modelos fundacionales son activos intermedios; están inacabados y, por lo general, no deben utilizarse directamente, sino que requieren una adaptación para tareas posteriores específicas.
!!!def
La adaptación implica modificar un modelo fundacional para reflejar nueva información, comportamientos deseados o restricciones de despliegue.
Los métodos de adaptación del modelo fundamental se centran en tres factores importantes: el presupuesto de cómputo, la disponibilidad de datos específicos de la tarea y el acceso a los gradientes del modelo fundacional.
Para adaptar modelos con miles de millones de parámetros, se utilizan enfoques de adaptación ligera que ajustan solo una pequeña parte de los parámetros del modelo, reduciendo así el almacenamiento y la computación necesarios. La disponibilidad de datos específicos de la tarea afecta a la elección del método de adaptación, siendo la combinación de prompts y fine-tuning una dirección prometedora en entornos con pocos recursos de datos. El acceso a los gradientes del modelo fundacional puede ser limitado por cuestiones éticas y de recursos computacionales, lo que lleva a enfoques de adaptación basados en API o en gradientes limitados.
Los casos de uso para la adaptación incluyen la especialización de tareas, la adaptación temporal, la especialización de dominios, la edición local del modelo y la aplicación de restricciones de privacidad. La adaptación continua de modelos fundacionales representa un objetivo a largo plazo para la investigación, con el objetivo de mantener el conocimiento de los modelos actualizado con los cambios en el mundo y reducir el impacto ambiental y computacional del entrenamiento de modelos desde cero. Sin embargo, el aprendizaje continuo presenta desafíos como el olvido catastrófico y la erosión de la alineación del comportamiento del modelo con los valores de las partes interesadas, que requieren innovaciones en arquitecturas de modelos y objetivos de entrenamiento.

## Evaluación
La evaluación da contexto a los modelos de aprendizaje automático. En el caso de los modelos fundacionales, cada uno de estos objetivos de evaluación es crítico, pero la naturaleza de estos modelos introduce nuevos retos que no suelen encontrarse en otros entornos de IA o ML:
!!!side:25
Cómo medimos el rendimiento de los modelos y cómo diseñamos modelos mejorados.
1. **Seguir el progreso** [25]: requiere una comparación relativa, pero la comparación de los modelos fundacionales se ve dificultada por el hecho de que éstos deben adaptarse (potencialmente de diferentes maneras) para realizar las tareas.
!!!side:26
Qué comportamientos muestran los modelos.
2. **Comprender** [26]: requiere un conocimiento previo específico (por ejemplo, taxonomías) de lo que se está evaluando, pero los modelos fundacionales adquieren habilidades emergentes (por ejemplo, aprendizaje en contexto) que serán difíciles de prever en el diseño de las evaluaciones.
!!!side:27
Cómo resumimos eficientemente el comportamiento del modelo y lo comunicamos a diversas partes interesadas.
3. **Documentar** [27]: requiere unos criterios claros para fundamentar la toma de decisiones, pero los modelos fundacionales pueden adaptarse a innumerables aplicaciones, lo que dificulta una documentación exhaustiva.
A pesar de que estas funciones de la evaluación son vitales para todos los paradigmas de aprendizaje automático, en el caso de los modelos fundacionales se plantean nuevos retos a los marcos existentes: diseñar evaluaciones que se centren directamente en el régimen del modelo fundacional servirá mejor no solo a los múltiples propósitos de la evaluación, sino también a la miríada de partes interesadas implicadas.
Mientras que en la evaluación del aprendizaje automático tradicionalmente se han tenido en cuenta los modelos específicos de una tarea, la evaluación de los modelos fundacionales implica tener en cuenta el hecho de que estos modelos no son específicos de una tarea. Es probable que la evaluación de estos modelos implique la integración de dos enfoques complementarios: (a) la imputación de las propiedades de los modelos fundacionales a partir de una amplia evaluación de los derivados de tareas específicas, y (b) la medición directa de estas propiedades en los modelos fundacionales.
Los marcos de evaluación existentes no suelen tener en cuenta los recursos necesarios para crear los modelos evaluados, lo que da lugar a comparaciones injustas. En el caso de los modelos fundacionales, deben tenerse en cuenta los recursos de adaptación (por ejemplo, todos los datos utilizados en la adaptación, los requisitos de acceso para el modelo fundacional), lo que parece conducir a evaluaciones más informativas que determinan mejor cómo se lleva a cabo la adaptación.
El diseño de las evaluaciones existentes suele ser limitado en cuanto a la diversidad de las métricas consideradas y requiere grandes conjuntos de datos de adaptación. En el caso de los modelos fundacionales, es interesante tener en cuenta una gama más amplia de desideratas (por ejemplo, solidez, equidad, eficiencia, impacto medioambiental) a fin de captar la amplia gama de valores/preferencias de las partes interesadas, además de destacar cómo la eficiencia de la muestra de los modelos de adaptación puede permitir evaluaciones más diversas mediante la reasignación de los recursos implicados en el diseño de las evaluaciones.
## Sistemas
Mientras que los datos de entrenamiento determinan la información teórica disponible para los modelos fundacionales, y las arquitecturas de los modelos y los objetivos de entrenamiento determinan cuánta de esta información puede extraerse, los sistemas informáticos determinan lo que es factible en la práctica.
!!!side:28
Y se espera que continúen creciendo en tamaño con el tiempo, superando las capacidades de hardware disponibles.
Los sistemas informáticos enfrentan desafíos significativos en el desarrollo de modelos fundacionales a gran escala. Estos modelos son tan grandes que no caben en la memoria principal de un solo acelerador y requieren una cantidad masiva de cálculo para ser entrenados [28].
Una vez entrenados, estos modelos son costosos de utilizar para inferencias y difíciles de depurar y mantener en aplicaciones de producción. Para abordar estos problemas y mejorar tanto el rendimiento como la facilidad de uso de los modelos fundacionales, se requiere un cuidadoso diseño conjunto de algoritmos, modelos, software y sistemas de hardware. Además, se necesitan nuevas interfaces para programar y desplegar aplicaciones de aprendizaje automático.
El codiseño de sistemas es fundamental para mejorar el rendimiento a través de innovaciones en la pila de software. Esto incluye nuevas dimensiones de paralelización, optimizadores de separación de estados y compiladores *JIT* (*Just in Time*). También es crucial automatizar las optimizaciones y estrategias de paralelización, así como abordar los desafíos asociados con la implementación en producción.
Técnicas como la compresión de modelos, la cuantización, la poda y la paralelización son enfoques clave para abordar estos desafíos prácticos. La gestión del ciclo de vida de los modelos y la garantía de calidad del modelo son aspectos igualmente importantes que requieren atención, especialmente dada la dificultad de inspeccionar manualmente modelos con un gran número de parámetros. En general, superar estos desafíos es crucial para hacer realidad el potencial de los modelos fundacionales y democratizar los avances en la calidad de los mismos.
!!!side:29
El número de parámetros y el número de operaciones de entrenamiento se han obtenido de [*Language Models are Few-Shot Learners*](https://arxiv.org/abs/2005.14165) (2020), y las capacidades de memoria y los rendimientos máximos se han obtenido de las hojas de especificaciones de las GPU.

La figura adjunta muestra el crecimiento del número de parámetros y el número de operaciones de entrenamiento (FLOPs) de los modelos de lenguaje basados en Transformers (en azul), así como la capacidad de memoria y el rendimiento máximo de las GPU NVIDIA P100, V100 y A100 (en rojo) a lo largo del tiempo. La tasa de crecimiento (pendiente de cada línea) de los modelos lingüísticos más avanzados (aproximadamente $10\times$ al año) supera con creces la tasa de aumento de la capacidad computacional del hardware (aproximadamente $10\times$ en cuatro años), lo que motiva la necesidad de paralelismo entre un gran número de aceleradores y el codiseño de algoritmos, modelos, software y hardware para impulsar nuevos avances [29].
## Datos
Los modelos fundacionales marcan un cambio de paradigma en el que cantidades cada vez mayores de datos *alimentan* estos modelos para mejorar el rendimiento de su adaptación con la regla general de *cuantos más datos, mejor*. Como se ha mencionado en las secciones anteriores, este enfoque en la conservación de datos ha suscitado preocupaciones en torno al ciclo de vida de los datos del modelo fundacional, incluyendo (1) la gestión de los datos a una escala tan grande, (2) la integración de datos a través de nuevas modalidades, (3) la normativa sobre licencias y gobernanza, y (4) la comprensión de la calidad de los datos.
Aunque los modelos fundacionales añaden facetas nuevas y difíciles a estos retos, hay paralelismos entre estas cuestiones y los retos centrales de otras comunidades como la gestión y el análisis de datos, en otras aplicaciones industriales de ML. Por ejemplo, la gestión de datos ha estudiado durante mucho tiempo sistemas declarativos escalables para el análisis de datos, el versionado, la procedencia y la integración, abordando los desafíos (1) y (2). La industria tiene procesos que abordan el desafío (3) para gestionar diversas licencias de datos y ayudar a mitigar las violaciones de datos. Existe todo un ecosistema de investigación y sistemas que abordan el desafío (4) para apoyar el análisis y la visualización de datos interactivos. Aunque estas soluciones no están necesariamente *preparadas para el modelo fundacional*, un camino hacia una mejor gestión del ciclo de vida de los datos del modelo fundacional debería inspirarse en los sistemas existentes.
Las prácticas actuales en el desarrollo de modelos fundacionales son generalmente ad hoc en todo el ciclo de vida, desde la curación y documentación de datos hasta la supervisión y el parcheado de modelos. La investigación en la comunidad de gestión de datos ha demostrado que las plataformas de gestión de datos bien definidas facilitan el desarrollo de modelos de ML a escala a través de la ingestión de datos, su versionado, procedencia, análisis eficiente y supervisión de modelos. Con inspiración en estas aproximaciones puede darse un conjunto de objetivos concretos al construir una plataforma holística de gestión de datos para modelos fundacionales:
1. **Escalabilidad**. Los modelos fundacionales se entrenan con cantidades cada vez mayores de datos. Se espera que esta escala aumente, ya que los modelos más recientes se entrenan en gran medida con conjuntos de datos públicos. Los datos públicos representan una fracción extremadamente pequeña de los datos en comparación con los petabytes de datos empresariales y personales recopilados cada día y utilizados en las canalizaciones de modelos fundacionales industriales. Por lo tanto, existe una creciente necesidad de técnicas altamente escalables que puedan manejar conjuntos de datos de modelos fundacionales multimodales.
2. **Integración de datos**. Los trabajos recientes que utilizan modelos fundacionales demuestran que el aprovechamiento de los datos estructurados y no estructurados integrados puede ayudar a los modelos a generalizar mejor en casos poco frecuentes y mejorar la recuperación de conocimientos factuales. A pesar de estos éxitos recientes, la integración de conjuntos de datos para modelos fundacionales sigue siendo un reto. Cada vez es más necesario integrar conjuntos de datos de diversas modalidades, como texto, vídeo, seguimiento ocular y simulaciones robóticas. Es necesario encontrar soluciones de integración de datos que puedan aplicarse a escala industrial a múltiples modalidades y dominios, como son la administración pública, la empresa y la ciencia.
3. **Controles de privacidad y gobernanza**. Los datos de entrenamiento utilizados para los modelos fundacionales pueden suponer un riesgo de violación de la privacidad de los interesados; sus datos pueden divulgarse, recopilarse o utilizarse sin su consentimiento o fuera del contexto para el que se dio el consentimiento originalmente. La cuestión del consentimiento y el uso es especialmente relevante en los modelos fundacionales, en los que no siempre se pueden prever las aplicaciones posteriores. Estas cuestiones se agravan con la prevalencia de conjuntos de datos extraídos de la web para el entrenamiento de modelos fundacionales. Como todavía hay cuestiones legales abiertas sobre cómo se regirán los datos rastreados de la web y los derechos de autor, las consecuencias del uso de datos de la web siguen sin estar claras para los proveedores de modelos fundacionales de los sectores público y privado. Hacen falta herramientas que ayuden a los proveedores de modelos fundacionales a adaptarse a las nuevas normativas y directrices para garantizar una gestión segura y responsable de los datos.
4. **Comprensión de la calidad de los datos**. La calidad de los datos influye en el rendimiento de los modelos, pero los conjuntos de herramientas o métodos para comprender de forma sistemática y escalable los datos de entrenamiento y los subconjuntos de datos relevantes aún están en pañales. Además, una vez desplegados, los modelos fundacionales pueden presentar un comportamiento indeseable en subpoblaciones de datos críticas y de grano fino que los proveedores de modelos fundacionales deben detectar y mitigar. Son imprescindibles herramientas que puedan detectar y, potencialmente, mitigar diferentes tipos de datos indeseables para mejorar el rendimiento del modelo de forma interactiva e iterativa.
## Seguridad y privacidad
En la actualidad, la seguridad y la privacidad de los modelos fundacionales están en gran medida inexploradas. Esencialmente, los modelos fundacionales suponen un foco único de error, lo que los convierte en un objetivo prioritario para los ataques: los trabajos existentes demuestran una serie de vulnerabilidades de seguridad (por ejemplo, activadores adversarios para generar resultados no deseados) o riesgos para la privacidad (por ejemplo, memorización de los datos de entrenamiento) para estos modelos. Además, la generalidad de los modelos fundacionales agrava estas preocupaciones, intensificando el riesgo de desviación de función de doble uso (es decir, uso para fines no previstos).
En cuanto a la seguridad, los modelos fundacionales son similares a los sistemas operativos de los sistemas de software tradicionales, de su seguridad se derivaría una sólida capa de abstracción sobre la que construir aplicaciones de ML fiables.
En cuanto a la privacidad, al aprovechar la transferencia de conocimientos de los datos públicos, los modelos fundacionales pueden permitir una adaptación más eficiente a las distribuciones de datos sensibles, es decir, las aplicaciones que preservan la privacidad pueden sufrir una menor degradación de la precisión cuando se construyen utilizando modelos fundacionales.
Pero no todo son riesgos, podemos destacar tres oportunidades relacionadas con los modelos fundacionales en el ámbito de la seguridad y la privacidad, así como su capacidad para mejorar la robustez frente a ejemplos adversarios:
!!!side:30
Esta disyuntiva entre ser un punto único de fallo o un punto de bloqueo seguro es similar a otras capas de abstracción de software y puede mejorar la seguridad de las aplicaciones adaptadas.
1. **Puntos de Bloqueo Seguros:** Los modelos fundacionales pueden servir como puntos de bloqueo seguros al heredar características de seguridad deseables, como la robustez frente a ejemplos adversarios [30].
2. **Aprendizaje Privado Más Barato:** Utilizar modelos fundacionales preentrenados en datos públicos puede reducir la necesidad de grandes cantidades de datos sensibles para tareas específicas, como el entrenamiento diferencialmente privado en aplicaciones de salud. Esto podría mejorar la privacidad del usuario al minimizar la exposición de datos confidenciales.
3. **Robustez Frente a Ejemplos Adversarios a Escala:** Los modelos fundacionales, debido a su escala y capacidad, pueden beneficiarse de investigaciones sobre cómo lograr la robustez frente a ejemplos adversarios. Aunque los modelos actuales son vulnerables en algunos casos, existen oportunidades para mejorar la robustez distributiva y la seguridad general.
Estas oportunidades sugieren que los modelos fundacionales podrían llegar a desempeñar un papel importante en mejorar la seguridad y la privacidad, así como en abordar los desafíos relacionados con los ejemplos adversarios en el aprendizaje automático.

## Robustez Distribucional
Una de las principales limitaciones del aprendizaje automático estándar es que produce modelos que no son robustos a los cambios en las distribuciones, cuando la distribución de entrenamiento no coincide con la distribución de prueba (para la tarea posterior). Los trabajos existentes demuestran que la adaptación de un modelo fundacional entrenado en una amplia gama de datos no etiquetados mejora la robustez de los modelos adaptados a una gran variedad de cambios. Esto abre un nuevo conjunto de direcciones prometedoras para mejorar el entrenamiento y la adaptación de los modelos fundacionales para su robustez.
Algunos desafíos persistentes que podemos destacar a pesar de sus bondades se pueden encontrar en problemas como las correlaciones espurias y la extrapolación temporal, que pueden no ser completamente abordados por los modelos fundacionales. Las correlaciones espurias, por ejemplo, son correlaciones estadísticas entre características y etiquetas con poder predictivo en la distribución de entrenamiento pero no en la de prueba. Parace que los modelos fundacionales pueden tanto mitigar como exacerbar estos problemas, dependiendo de la tarea y su relación con los datos de entrenamiento del modelo original.
Algunas oportunidades futuras para mejorar los modelos fundacionales son comprender mejor las representaciones de los mismos, mejorar la inclusión de datos de entrenamiento para capturar una variedad más amplia de estructuras y mejorar los métodos de adaptación para aprovechar al máximo la información preentrenada. Asimismo, también parece importante equilibrar la especialización y la diversidad en los datos de entrenamiento de estos modelos, así como el desarrollo de métodos de adaptación que tengan en cuenta los cambios en la distribución de los datos.

## Seguridad y alineación
Garantizar que los modelos fundacionales sean fiables, sólidos e interpretables es cada vez más importante cuando se consideran las posibles aplicaciones de estos modelos en el mundo real. Además de las consideraciones críticas e inmediatas, también se debe tener en cuenta la relación entre los modelos fundacionales y los riesgos, peligros y daños a mayor escala que pueden ser cada vez más importantes a medida que avanzan las capacidades de los modelos.
El campo de la Seguridad en la Inteligencia Artificial (IA) se ocupa de los posibles accidentes, peligros y riesgos de los modelos avanzados de IA, especialmente los riesgos a gran escala para comunidades o sociedades. Aunque los modelos fundacionales actuales pueden estar lejos de representar tales riesgos, la amplitud de sus capacidades y aplicaciones potenciales es sorprendente y marca un claro cambio de paradigma respecto a las anteriores técnicas de aprendizaje automático (ML). Aunque históricamente la seguridad en la IA ha ocupado una posición marginal dentro de la investigación en IA, la actual transición hacia modelos fundacionales y su correspondiente generalidad ofrece una oportunidad para que los investigadores en seguridad en la IA reexaminen las preguntas fundamentales del campo bajo una nueva perspectiva y reevalúen su relevancia inmediata o a corto plazo.
Una rama importante de la investigación en seguridad en la IA se refiere a las implicaciones de los sistemas de IA avanzados, incluidos aquellos que podrían igualar o superar el rendimiento humano en una amplia clase de tareas cognitivas. Un objetivo central de la investigación en seguridad en este contexto es mitigar los riesgos a gran escala planteados por el desarrollo de la IA avanzada. Estos riesgos pueden ser considerablemente más especulativos que aquellos generados por uso indebido, robustez y seguridad; sin embargo, son de mayor magnitud y podrían, al menos en principio, resultar de sistemas futuros altamente capaces.
De particular preocupación son los **riesgos catastróficos globales**: aquellos que tienen un alcance global o transgeneracional, causando muerte o reduciendo significativamente el bienestar de quienes se ven afectados. Lo que la investigación en seguridad en la IA pretende, entonces, es caracterizar qué riesgos catastróficos, si los hay, plantea el desarrollo de la IA avanzada, y desarrollar soluciones técnicas plausibles para mitigar la probabilidad o la gravedad de estos riesgos.
El Aprendizaje por Refuerzo (RL), que estudia la toma de decisiones de agentes optimizados hacia recompensas, ha sido un enfoque dominante en la seguridad en la IA durante la última década. El problema aquí radica en la dificultad de especificar e instanciar una función de recompensa para la IA que se alinee con los valores humanos, en el sentido mínimo de no plantear una amenaza catastrófica global. Aunque este problema, conocido como **alineación de valores**, puede parecer trivial a primera vista, no debe ignorar que los valores humanos son diversos, amorfos y difíciles de capturar cuantitativamente. Debido a esto, una preocupación relevante es la manipulación de recompensas, donde la IA encuentra una política no prevista que maximiza una recompensa proxy para el bienestar humano, pero cuya especificación incorrecta resulta en un daño significativo. Muchos esfuerzos para combatir el problema de alineación de valores se han centrado en maximizar la corregibilidad, que es cuando los errores en el diseño de un sistema pueden corregirse una vez que el sistema está en funcionamiento.
Sin embargo, el RL puro no es la única ruta teórica hacia la IA avanzada. Los modelos fundacionales también pueden entrenarse con objetivos simples (auto) supervisados, como la predicción del próximo token, pero aún pueden usarse de manera interactiva y dirigida a objetivos, con o sin entrenamiento adicional de RL. Además, parece que muchos de estos métodos pueden resultar en capacidades incrementadas a través del escalado directo de la computación, el número de parámetros y el tamaño del conjunto de datos. Lo que conceptos como la alineación de valores y la corregibilidad representan en el contexto más amplio de los modelos fundacionales difiere en varios aspectos respecto al caso de RL puro y, en consecuencia, debe ser teorizado cuidadosamente.
Pero incluso antes de que surjan estas capacidades más avanzadas, un área de investigación importante para la seguridad en la IA a corto plazo es caracterizar y prever las capacidades de los modelos fundacionales actuales auto supervisados. Hay tres aspectos que hacen que esto sea desafiante:
1. Primero, la generalidad de los modelos fundacionales significa que se pueden aplicar a innumerables tipos diferentes de aplicaciones de maneras inesperadas. Enumerar las aplicaciones actuales y planificadas de estos modelos no es suficiente para capturar la gama completa de formas en que podrían usarse.
2. En segundo lugar, incluso dentro de una aplicación particular, las capacidades del modelo son emergentes: crecen y cambian de formas inesperadas a medida que los modelos se escalan.
3. En tercer lugar, incluso dentro de una aplicación y escala particular, las capacidades de un modelo no son fáciles de caracterizar.
Del mismo modo, pequeñas reformulaciones de los impulsos pueden tener un gran impacto en el rendimiento de la tarea. Como el espacio de impulsos es intratable, es difícil afirmar definitivamente que cualquier tarea esté fuera del alcance de los modelos fundacionales actuales basados en impulsos; este es un desafío importante para razonar sobre posibles riesgos catastróficos de este tipo de modelos.
Las amplias y rápidamente crecientes capacidades de los modelos actuales sugieren el beneficio de intentar caracterizar posibles riesgos catastróficos de sistemas más avanzados. Hay al menos dos formas en que los modelos avanzados fundacionales podrían contribuir a tales resultados:
!!!side:31
Los fallos podrían ser catastróficos si ocurren en sistemas de guerra (resultando en la descarga no deseada de armas, posiblemente encendiendo un conflicto), infraestructura crítica (destrucción accidental de capacidades energéticas o agrícolas críticas) o si se vuelven esenciales para una gran parte de la actividad económica (cuya falla inesperada podría resultar en un colapso repentino en los estándares de vida y la inestabilidad política)
* **Fallos de robustez catastróficos**: Se refieren a cómo los modelos pueden comportarse de manera inesperada o perjudicial cuando se enfrentan a nuevos tipos de datos. Estos fallos pueden ser especialmente importantes si los modelos fundacionales se integran en sistemas importantes que aprovechan la capacidad de los modelos base para adaptarse rápidamente a muchas tareas y situaciones diferentes [31]. De hecho, la amenaza de fallos de robustez catastróficos es particularmente pertinente para los modelos fundacionales en contraste con otros tipos de IA. Esto se debe a que un modelo fundacional consiste en un solo modelo que puede adaptarse para muchos casos de uso diferentes, de modo que los fallos de robustez derivados de las asociaciones estadísticas aprendidas por el modelo podrían manifestarse en principio de manera correlacionada en varios dominios diferentes. Si el mismo modelo fundacional se integra en múltiples funciones críticas, entonces la falta de robustez en el modelo podría conducir a fallas correlacionadas que abarcan múltiples funciones críticas o dispositivos de seguridad.
!!!side:32
Un ejemplo actual de estos riesgos son los efectos negativos de algunos sistemas de recomendación (por ejemplo, polarización, adicción a los medios) que pueden optimizar métricas de participación simples en lugar de una combinación más difícil de medir del bienestar social y del consumidor.
* **Objetivos mal especificados**: el uso de modelos fundacionales podría aumentar los riesgos de optimizar objetivos mal alineados pero fáciles de especificar, a menudo referidos como la [Ley de Goodhart](https://es.wikipedia.org/wiki/Ley_de_Goodhart) [32]. Las instituciones futuras pueden aprovechar los modelos fundacionales ininterpretables para maximizar medidas simples como el beneficio o el PIB, debido a la capacidad de estos modelos para adaptarse a los muchos subproblemas diferentes de los que depende cada una de estas métricas. Sin embargo, en escalas más grandes, optimizar para estas métricas proxy en lugar de un objetivo más holístico diseñado para el bienestar humano podría conducir inadvertidamente a daños ambientales o geopolíticos.
## Teoría
La teoría matemática rigurosa juega un papel fundamental en muchas disciplinas de ingeniería y ciencias. Asimismo, una **Teoría de los Modelos Fundacionales** podría ser particularmente beneficiosa para guiar decisiones técnicas e innovaciones debido a los enormes costos computacionales asociados con experimentar en estos modelos. Además, las ideas teóricas ayudan a dilucidar limitaciones fundamentales y explicar fenómenos empíricos sorprendentes. Sin embargo, la comunidad actualmente tiene una comprensión teórica limitada de los modelos fundacionales, a pesar de los muchos progresos recientes.
!!!side:33
Muchas de estas preguntas pueden estar profundamente relacionadas con otras similares que surgen en el área de los Sistemas Complejos, que hoy en día precisa de más desarrollo.
Las redes neuronales profundas forman la columna vertebral de los modelos fundacionales. Incluso en el entorno bien estudiado del aprendizaje supervisado, donde los escenarios de entrenamiento y prueba tienen la misma distribución, hay numerosas preguntas abiertas en torno a las redes profundas, como entender la optimización no convexa, el efecto de regularización implícita de los optimizadores y la expresividad. Los modelos fundacionales plantean preguntas que van significativamente más allá del entorno de aprendizaje profundo supervisado. El problema central en el análisis teórico de estos modelos es entender por qué el entrenamiento en una distribución con una pérdida posiblemente no supervisada/auto supervisada conduce a un buen rendimiento de adaptación en diferentes distribuciones y tareas posteriores [33].
La fase de preentrenamiento de los modelos fundacionales a menudo implica una distribución de datos $𝑝_{pre}$ (por ejemplo, la distribución de texto natural) y una función de pérdida de preentrenamiento $ℓ_{pre}(𝑥;𝜃)$ que mide la pérdida (por ejemplo, pérdida de modelado de lenguaje) en una entrada $𝑥$ para un modelo con parámetros $𝜃 ∈ Θ$. Minimizamos la pérdida $ℓ_{pre}$ en $\hat{𝑝}_{pre}$, lo que llamamos la pérdida de preentrenamiento empírica, y producimos un modelo $\hat{𝜃}_{FM}$. Consideramos la pérdida correspondiente en la distribución de población $𝑝_{pre}$, llamada pérdida de preentrenamiento de población, como un concepto central. La fase de adaptación basada en la optimización se enmarca como un problema general de optimización restringida que depende de $\hat{𝜃}_{FM}$, abstrayendo los métodos de adaptación basados en la optimización de ciertas funciones de pérdida, como el ajuste fino y el ajuste de solicitud.

Parece importante separar el análisis para las fases modularizadas. La teoría de generalización existente para el aprendizaje supervisado estándar tiene como objetivo mostrar que $ℒ_{pre} ≈ 𝐿_{pre}$ y $ℒ_{adapt} ≈ 𝐿_{adapt}$. También podemos aprovechar la descomposición estándar de la teoría del aprendizaje para acotar la pérdida final de la tarea posterior mediante el error de generalización excesiva y la pérdida mínima de adaptación. La teoría para los modelos fundacionales está estrechamente relacionada con, pero también va más allá de, la teoría para el aprendizaje por transferencia (que es en sí misma un área poco explorada): los modelos fundacionales posiblemente se entrenan con datos no etiquetados y se adaptarán a muchas o todas las tareas naturales, mientras que el aprendizaje por transferencia típicamente estudia tareas con fuentes etiquetadas y un número fijo de tareas objetivo.
Los modelos fundacionales son entrenados con una gran cantidad de datos en bruto, luego se adaptan a tareas específicas y, por lo tanto, pueden descomponerse naturalmente en fases de entrenamiento y adaptación. Es, pues, importante desentrañar partes específicas de los modelos fundacionales de partes que requieren teoría estándar de aprendizaje profundo, para que puedan trabajarse de forma independiente. Parece crucial en esta tarea la **interfaz de preentrenamiento-adaptación** que se ha introducido recientemente en algunos trabajos.
Entender la interfaz entre las fases de preentrenamiento y adaptación requiere un estudio más cuidadoso de las distribuciones de datos que en el aprendizaje supervisado tradicional. Esto se debe a que las distribuciones de preentrenamiento y adaptación son inherentemente diferentes. Por definición, los modelos fundacionales se entrenan con datos en bruto que suelen ser extremadamente diversos y no están específicamente relacionados con la tarea, mientras que los datos de adaptación dependen en gran medida de la tarea.
## Interpretabilidad
La interpretabilidad aporta claridad a los modelos fundacionales: la opacidad de las redes neuronales profundas que sustentan los modelos fundacionales, junto con la previsible ubicuidad de los modelos fundacionales, acentúa la necesidad de comprender estos modelos y sus capacidades. En la actualidad, los métodos de interpretabilidad suelen estar diseñados para interpretar y explicar el comportamiento de modelos de tareas específicas; la naturaleza de los modelos fundacionales (es decir, la amplia gama de tareas para las que estos modelos son beneficiosos y las inesperadas propiedades emergentes que adquieren) introduce nuevos retos para la investigación de la interpretabilidad.
Los modelos fundacionales se caracterizan por un aumento significativo en los datos de entrenamiento y complejidad, así como por la capacidad de realizar tareas imprevistas de maneras inesperadas. Esto plantea desafíos sin precedentes para comprender su comportamiento. Estos modelos se entrenan en conjuntos de datos vastos y diversos, lo que les permite aprender una amplia gama de comportamientos. Sin embargo, entender qué capacidades tienen estos modelos resulta difícil debido a su naturaleza multifacética. Pueden ser vistos como un solo modelo con mecanismos generalizables o como una colección de modelos independientes adaptados a tareas específicas.
Se podría realizar un enfoque en tres niveles para entenderlos: qué pueden hacer, por qué producen ciertos comportamientos y cómo lo hacen. Identificar y caracterizar estas capacidades es esencial para comprender su comportamiento.
Caracterizar el comportamiento de los modelos fundacionales plantea desafíos adicionales debido a la diversidad de tareas que pueden realizar y a su naturaleza *de un modelo a muchos modelos*. Se han propuesto evaluaciones controladas para identificar las capacidades de los modelos fundacionales. Estas evaluaciones son cruciales debido a la amplia gama de tareas que estos modelos pueden realizar y nuestra falta de métodos generales para determinar sus capacidades de antemano.

Explicar el comportamiento de los modelos fundacionales implica proporcionar explicaciones de por qué tienen ciertos comportamientos en términos de posibles causas en los datos. Sin embargo, los enfoques actuales de explicación pueden ser limitados y generar explicaciones poco fiables o engañosas. La naturaleza compleja de los modelos fundacionales complica aún más la tarea de proporcionar explicaciones precisas y generalizables.
Caracterizar los mecanismos de los modelos fundacionales implica comprender las representaciones y los mecanismos internos que estos modelos utilizan para realizar tareas. Esto puede ser crucial para comprender cómo los modelos fundacionales adoptan una amplia gama de comportamientos en diversas tareas y dominios. Sin embargo, dado el vasto número de posibles representaciones y mecanismos dentro de los modelos fundacionales, identificarlos y comprenderlos completamente sigue siendo un desafío abierto.
Por todo ello, la naturaleza *de un modelo a muchos modelos* de los modelos fundacionales presenta oportunidades y desafíos únicos para la investigación en interpretabilidad. Mientras se trabaja para hacer que los modelos fundacionales sean interpretables, es importante considerar quién se beneficia de esta interpretabilidad y cómo puede empoderar a diversas comunidades. Además, se podría plantear la pregunta de si la falta de interpretabilidad de los modelos fundacionales es intrínseca y debe ser ampliamente conocida como un problema serio que desaliente su uso, o si es posible que los futuros modelos fundacionales alcancen un alto estándar de interpretabilidad.
# Sociedad
El impacto social de los modelos fundacionales, referido tanto a la construcción de los propios modelos como a su papel en el desarrollo de aplicaciones, requiere un examen minucioso. Es probable que los modelos fundacionales tengan amplias consecuencias sociales difíciles de comprender ya que, como hemos comentado, son activos intermedios que no se despliegan directamente, sino que sirven de cimientos sobre los que se adaptan tareas por medio de la adaptación. Como consecuencia, los enfoques tradicionales para razonar sobre el impacto social de la tecnología se quedan cortos, y es probable que el impacto social sea más fácil de comprender para los sistemas con fines bien especificados (a pesar de la dificultad que siguen presentando). Todo ello, junto con el rápido desarrollo de los modelos fundacionales, adaptados y desplegados a diversas aplicaciones, tendrá consecuencias de gran alcance en la salud de las sociedades. Lo que hace que estos modelos sean tan apasionantes y también tan problemáticos es su agnosticidad de tareas. ¿Cómo podemos tener en cuenta el impacto social de todos los sistemas y casos de uso posibles al desarrollar modelos fundacionales?
## Inequidad y justicia
En muchos contextos, se ha demostrado que el aprendizaje automático contribuye a la desigualdad social y, potencialmente, la amplifica. Los modelos fundacionales pueden extender esta tendencia, es decir, fomentar el trato injusto de las personas que han sido históricamente discriminadas. Sin embargo, para entender la relación entre la desigualdad y los modelos fundacionales es necesario tener en cuenta la abstracción de estos.
Estos modelos tienen el potencial de generar resultados inequitativos, lo que plantea desafíos tanto en términos de los daños relacionados con la equidad como en las fuentes responsables de estos daños. Los daños pueden ser **intrínsecos**, relacionados con propiedades del modelo base que afectan indirectamente las aplicaciones posteriores, y **extrínsecos**, que surgen en aplicaciones específicas derivadas de estos modelos. Pueden generar representaciones sesgadas de las personas, como estereotipos perniciosos, subrepresentación o sobre representación. Además, los usuarios pueden experimentar daños específicos derivados de las aplicaciones creadas mediante la adaptación de los modelos fundacionales, incluyendo representaciones erróneas, abuso o discriminación. Estos daños pueden afectar tanto a individuos como a grupos o subpoblaciones, exacerbando las disparidades existentes.
Las fuentes de estos daños pueden rastrearse hasta las propiedades del modelo base, el proceso de adaptación y los datos utilizados. La relación entre los datos de entrenamiento y los sesgos intrínsecos del modelo base requiere una mayor comprensión. Los sesgos pueden amplificarse en el proceso de modelado, adaptación y uso de los modelos fundacionales, y la falta de diversidad en los equipos de desarrollo puede contribuir a estos problemas.
Para abordar estos problemas, se pueden proponer intervenciones proactivas y reactivas que incluyen cambios en la recopilación de datos, la arquitectura del modelo y las decisiones de modelado, así como la mejora de la diversidad en los equipos de desarrollo. Sin embargo, aún hay desafíos en la atribución de responsabilidades y en el establecimiento de mecanismos adecuados para los daños causados por los modelos fundacionales. Sin duda, se necesita un enfoque multidisciplinar y dinámico para comprender y abordar de manera efectiva los problemas de equidad asociados con estos modelos.

## Uso indebido
!!!side:34
Por ejemplo, para generar desinformación, para desarrollar deepfakes con fines de acoso.
Definimos el mal uso de los modelos fundacionales como el uso de los mismos tal y como están concebidos técnicamente (por ejemplo, para generar lenguaje o vídeo), pero con el objetivo de causar daño a la sociedad [34].
!!!side:35
Por ejemplo, pueden ser utilizados para crear deepfakes de alta calidad que pueden ser empleados para acosar a personas, como en el caso de deepfakes de contenido pornográfico que se están sucediendo sin permiso.
Los modelos fundacionales están siendo objeto de preocupación por su posible mal uso. Al permitir la generación de contenido de alta calidad de manera automatizada y personalizada, pueden ser aprovechado para generar desinformación y acosar a individuos [35]. Además, la reducción en los costos de producción de contenido y la simplificación de su creación facilitan que actores malintencionados lleven a cabo ataques perjudiciales con menos recursos. Los modelos fundacionales también permiten la personalización del contenido, lo que puede ser utilizado para dirigirse a audiencias específicas o incluso a individuos con contenido altamente personalizado, lo que aumenta el riesgo de extorsión y otros tipos de abuso.

Por otro lado, estos mismos modelos pueden ser utilizados como herramientas de detección de contenido dañino, aprovechando sus capacidades generativas y multimodales. Si bien esto podría ayudar a identificar contenido perjudicial generado tanto por humanos como por modelos, también plantea desafíos y riesgos, como la posibilidad de falsos positivos y el surgimiento de una *carrera armamentista* entre generadores de contenido dañino y detectores automáticos. A pesar de esto, las empresas y plataformas con recursos pueden desarrollar sistemas de detección más efectivos, aunque aún persisten desafíos en términos de equidad y control de uso ético de estas tecnologías.
## Medio ambiente
Los modelos fundacionales pueden tener múltiples beneficios sociales y ambientales en áreas como el derecho, la atención médica e incluso la lucha contra el cambio climático. Sin embargo, debido a su escala, también pueden tener un impacto negativo en el medio ambiente debido a las emisiones de carbono asociadas con su entrenamiento y despliegue. Es esencial abordar estas emisiones, especialmente dado el rápido avance del cambio climático. El ciclo de vida de estos modelos implica etapas de entrenamiento, adaptación, despliegue y uso en producción, y en todas ellas pueden consumir grandes cantidades de energía y contribuir a las emisiones de carbono.
Durante el entrenamiento, que puede llevar meses y requerir cientos o miles de unidades de procesamiento gráfico (GPU), se producen emisiones significativas, especialmente si se utilizan recursos no renovables. El despliegue y el uso continuo de los modelos en producción también pueden generar emisiones considerables, particularmente si se sirven millones de solicitudes, lo que aumenta la demanda de energía. Por lo tanto, las decisiones de diseño y despliegue de los modelos pueden tener un impacto sustancial. Incluso pequeñas decisiones de diseño, como reducir el número de capas de un modelo, pueden tener un gran impacto en la reducción de costos ambientales.
Se pueden implementar diversas estrategias para mitigar el impacto ambiental de los modelos fundacionales. Estas incluyen el entrenamiento en regiones con baja intensidad de carbono, el uso de hardware más eficiente, técnicas de entrenamiento mixto y cuantificación, arquitecturas más eficientes, y la utilización de modelos destilados. Además, se deben informar claramente los costos energéticos, computacionales y de carbono asociados con el modelo, así como cualquier esfuerzo tomado para mitigar los impactos negativos.
Es importante realizar un análisis de costos y beneficios antes de usar modelos fundacionales, considerando tanto el impacto social como ambiental. Este análisis debe tener en cuenta factores como el costo social del carbono, los costos energéticos del modelo y los efectos ambientales secundarios. Los beneficios sociales y económicos del modelo también deberían ser evaluados para determinar si justifican los costos asociados con su entrenamiento y despliegue.

Además, se debe fomentar la transparencia y la presentación de informes sistemáticos sobre los impactos energéticos y de carbono de los mismos. Esto ayudará a informar las políticas y decisiones de investigación, así como a los usuarios finales a identificar patrones de uso más respetuosos con el medio ambiente. Se pueden implementar diversas estrategias para fomentar la presentación de informes, como el establecimiento de estándares de informes y la adopción de prácticas transparentes en la academia y la industria.
El ecosistema que rodea a los modelos fundacionales requiere un enfoque multifacético: (a) los modelos más eficientes desde el punto de vista informático, el hardware y las redes de energía pueden mitigar la carga de carbono de estos modelos, (b) el coste medioambiental debe ser un factor claro que informe sobre cómo se evalúan los modelos fundacionales, de modo que los modelos fundacionales puedan yuxtaponerse de forma más exhaustiva con líneas de base más respetuosas con el medio ambiente, y (c) el análisis coste-beneficio que rodea al impacto medioambiental requiere una mayor documentación y medición en toda la comunidad.
## Legalidad
Los modelos fundacionales se asientan actualmente sobre una base jurídica poco sólida; la forma en que la ley influye tanto en el desarrollo como en el uso de estos modelos no está nada clara. Los modelos fundacionales en concreto, junto con los de la tecnología de IA en general, necesitarán marcos jurídicos y normativos que influyan, limiten e incluso fomenten las prácticas de investigación, desarrollo e implantación.
Aunque entender cómo la ley afecta a los modelos fundacionales es crucial, es importante reconocer que la ley no puede ser el único enfoque a través del cual evaluamos la construcción, mantenimiento y uso de los modelos fundacionales. Los marcos éticos son necesarios para comprender dónde las aplicaciones legalmente permitidas de los modelos fundacionales aún pueden ser desaconsejables por los daños que infligen. Asimismo, estudiar el potencial uso indebido y posibles preocupaciones de seguridad es fundamental para prevenir resultados perjudiciales, en contraposición al tratamiento a posteriori que proporcionan los mecanismos legales.
Las tres principales cuestiones relacionadas con esta problemática son: (1) el entrenamiento del modelo, (2) la responsabilidad por las predicciones del modelo y (3) las protecciones para las salidas del modelo.
Entrenar modelos fundacionales conlleva desafíos legales significativos relacionados con la recopilación y uso de datos. Por un lado, la capacidad de los creadores de modelos para aumentar conjuntos de datos mediante el web scraping se ve influenciada por la interpretación de los términos de servicio, lo que puede limitar la diversidad de datos disponibles para el entrenamiento. Además, la protección de derechos de autor y la aplicación de excepciones como el uso justo también influyen en la permisibilidad legal de los conjuntos de datos, destacando la importancia de determinar si el proceso de entrenamiento del modelo se considera *transformador* en el contexto de la doctrina legal.
Por otro lado, la privacidad de los datos de entrenamiento plantea desafíos adicionales, especialmente con respecto a las leyes de privacidad vigente. Las regulaciones como el Reglamento General de Protección de Datos de la UE pueden requerir que los sujetos de datos sean informados sobre la recopilación y el propósito del uso de datos, lo que afectaría a la forma en que los modelos fundacionales se entrenan y utilizan actualmente.
Los modelos fundacionales, aunque intrínsecamente neutrales respecto a las tareas, pueden ser adaptados o sus representaciones utilizadas para aplicaciones de predicción tradicionales, influyendo así en decisiones y políticas cuando forman parte de sistemas más amplios. Esta influencia puede resultar en responsabilidad legal para los creadores y operadores de los modelos, especialmente cuando causan daños físicos en entornos como la conducción autónoma o el diagnóstico médico, lo que requerirá la aprobación regulatoria y la implementación de procesos de evaluación de seguridad estandarizados.
Además, los modelos fundacionales adaptados que clasifican a individuos en categorías correlacionadas con atributos protegidos pueden enfrentar desafíos legales bajo las leyes de derechos civiles, como reclamaciones de discriminación. La interpretación de estos problemas por parte de los tribunales está en evolución, con debates sobre cómo las técnicas de equidad algorítmica pueden chocar con las opiniones tradicionales sobre discriminación. Adicionalmente, el uso de modelos fundacionales por entidades gubernamentales implica consideraciones especiales, como reclamos de igualdad de protección y debido proceso legal, lo que subraya la complejidad legal que rodea a estos sistemas en contextos regulatorios y judiciales.
Las salidas de los modelos, y por ende, los creadores responsables de ellas, pueden estar sujetas a ciertas protecciones legales. En particular, el contenido generado por modelos generativos plantea cuestiones sobre la libertad de expresión. Además, existe un debate sobre la titularidad de las salidas de los modelos, ya que depende de si la ley de derechos de autor considera a los programas informáticos como autores o no. Esta falta de reconocimiento plantea preguntas sobre quién puede reclamar la propiedad de las salidas de los modelos, con algunas voces sugiriendo que tanto el creador humano como el usuario humano podrían tener reclamaciones válidas. A medida que los modelos se utilicen cada vez más en diversos campos, desde la creación artística hasta la presentación de noticias, es probable que las disputas sobre la propiedad del contenido generado por máquinas se vuelvan más frecuentes, destacando la necesidad de resolver estos problemas legales para la implementación efectiva de modelos fundacionales.
## Economía
Los modelos fundacionales pueden tener importantes repercusiones económicas debido a sus novedosas capacidades y aplicaciones potenciales en una amplia variedad de industrias y ocupaciones.
Tienen el potencial de mejorar sustancialmente los estándares de vida en general al aumentar la productividad y la innovación. Pueden ser desplegados para sustituir el trabajo humano, aumentar la capacidad de los humanos o ayudar en el descubrimiento de nuevas tareas y oportunidades, lo que puede llevar a una mayor concentración de propiedad y poder, o a una mayor descentralización. En un nivel más amplio, el resultado puede ser tanto una mayor desigualdad debido a la centralización potencial, como una prosperidad más compartida. Sin embargo, los resultados finales en todas estas dimensiones no están dictados únicamente por la tecnología o la economía, sino por las elecciones y acciones de tecnólogos, responsables políticos, gerentes, trabajadores y otros miembros de la sociedad.
Los modelos fundacionales pueden considerarse como lo que los economistas llaman una **tecnología de propósito general**. Estas tecnologías tienen el potencial de impulsar olas de transformación y crecimiento de la productividad debido a su ubicuidad, mejora con el tiempo y capacidad para generar innovaciones complementarias. Es probable que los modelos fundacionales aumenten significativamente tanto la productividad como la innovación, lo que puede conducir a un mayor crecimiento económico y a la resolución de varios desafíos. Aunque los efectos de estos modelos en la economía no están predeterminados, se espera que sean importantes, con impactos en áreas como la productividad, la desigualdad salarial y la propiedad. Sin embargo, también plantean desafíos en términos de centralización de datos y modelos, lo que puede resultar en una mayor concentración de poder y decisiones, así como en la necesidad de abordar preocupaciones éticas y de equidad.
## Ética de escala
La adopción generalizada de modelos fundacionales plantea desafíos éticos, sociales y políticos además de preocupaciones sobre la creciente inequidad que ya tratamos anteriormente. Por ello, es importante discutir los riesgos sociales, políticos y éticos relacionados con la escala de aplicación de los modelos fundacionales, como la homogeneización y la concentración de poder, las normas y estrategias de lanzamiento apropiadas para abordarlos, y preocupaciones sobre la economía política más amplia en la que se desarrollan y despliegan los modelos fundacionales.
### Homogeinización
La homogeneización y la escala son aspectos críticos a considerar. Si se utiliza el mismo modelo en una variedad de dominios con adaptación mínima, se amplificarán las fortalezas, debilidades, sesgos y peculiaridades del modelo original. Esto puede conducir a un conjunto más homogéneo de juicios en las decisiones automatizadas, lo que se conoce como **monocultivo algorítmico**, lo que podría generar rechazo consistente y arbitrario, mala clasificación o maltrato de los sujetos de decisión individuales.
La homogeneización tiene el potencial de amplificar el sesgo, estandarizarlo y amplificar la exclusión arbitraria. Además, la homogeneización cultural y epistémica puede difundir una perspectiva implícita, generalmente dominante, a través de múltiples dominios de aplicación. Este efecto se ve agravado por la estandarización de conjuntos de datos de entrenamiento y la elección de datos no etiquetados disponibles públicamente.
Sin embargo, la homogeneización no es inevitable. Los desarrolladores de modelos pueden ampliar intencionalmente la gama de perspectivas representadas en sus conjuntos de datos para mitigar estos efectos. Se necesitan más investigaciones sobre la capacidad de los modelos fundacionales para ofrecer una diversidad de perspectivas en tareas generativas, como sistemas de diálogo que adoptan el rol de *personas* pertenecientes a grupos demográficos específicos. Es importante explorar cómo equilibrar la diversidad de resultados con la relevancia y la utilidad para el usuario individual.
### Vigilancia, exclusión y poder
Una premisa clave de los modelos fundacionales es que enormes conjuntos de datos no etiquetados pueden combinarse con vastos recursos computacionales para crear una base a partir de la cual se pueden derivar numerosos productos para una variedad de aplicaciones. Este cambio de paradigma tiene el potencial de alterar las estructuras sociales y cambiar el poder, estableciendo o afianzando la influencia de los creadores de modelos. Hay tres posibles implicaciones de este hecho:
* **Recopilación masiva de datos y vigilancia**. Mientras que recopilar un conjunto de datos etiquetado normalmente requiere trabajar con expertos en el dominio y comprender los problemas y limitaciones de dichos datos, la necesidad de cantidades excepcionalmente grandes de datos en el entrenamiento de modelos fundacionales ha llevado a algunos investigadores a enfatizar la cantidad en lugar de la calidad. Aunque el preprocesamiento puede ayudar a mejorar la calidad de estos datos, la escala involucrada requiere enfoques automatizados, que pueden ser poco precisos o estar mal documentados.
* **Concentración de poder**. Aunque el costo absoluto de la computación se ha vuelto considerablemente más barato con el tiempo, el entrenamiento de los modelos fundacionales más grandes actualmente requiere recursos computacionales que están fuera del alcance de todas menos unas pocas instituciones y organizaciones. Por lo tanto, la pregunta sobre quién tiene acceso a los recursos computacionales relevantes y a los datos probablemente determinará quién podrá producir modelos fundacionales de vanguardia en los próximos años.
* **Alimentando la toma de decisiones automatizada generalizada**. Los años recientes han visto una expansión dramática en el uso de sistemas de toma de decisiones automatizados en la industria y el gobierno. Aunque muchas de las preocupaciones sobre dicha automatización no son específicas de los modelos fundacionales, las habilidades generativas de los actuales LLM, así como el impresionante rendimiento en tareas de referencia, tienen el potencial de provocar una adopción menos cuidadosa de esta tecnología.
En resumen, los problemas existentes con la toma de decisiones algorítmica se verán en el funcionamiento de los modelos fundacionales una vez que se desplieguen. Y en la medida en que la adopción de estos modelos acelere un cambio de la toma de decisiones humanas a la de máquinas, estos modelos acentúan las preocupaciones con la automatización. Aunque no hay soluciones obvias para estos desafíos, es importante incluir preguntas sobre cómo los modelos fundacionales impactarán el poder en la conversación sobre su creación; comunicarse con organizaciones de la sociedad civil, formuladores de políticas y ciudadanos sobre las capacidades y limitaciones de tales sistemas; y esforzarse por un diálogo más amplio entre diversos segmentos de la sociedad sobre la adopción de dichos modelos.
### Normas
La política pública y la regulación formal por ley juegan un papel esencial en la creación de la infraestructura para la innovación tecnológica, así como en la mitigación de los efectos potencialmente dañinos de las tecnologías ampliamente difundidas. Sin embargo, como ilustra la experiencia, la política pública para proteger a los sujetos humanos y a las partes interesadas tiende a rezagarse respecto a la conciencia pública y la evidencia de los daños para ellos. Como resultado, la sociedad se basa en normas profesionales para el desarrollo y despliegue responsable y el establecimiento de mejores prácticas.
Las normas existen en un continuo entre recomendación y requisito. Como tecnología incipiente, las normas para el desarrollo y despliegue responsables de modelos fundacionales aún no están bien establecidas en cuanto a su fuerza de recomendación. Aquellos que deseen que los desarrolladores de modelos fundacionales adopten ciertas normas podrían liderar con el ejemplo, permitiendo que su propia conducta y declaraciones recomienden la norma.
!!!side:36
Por ejemplo, la interfaz de HuggingFace actualmente fomenta la publicación de datos y tarjetas de modelos, incluyendo discusiones sobre sesgos e impacto social.
Para crear y adoptar normas será necesario institucionalizarlas en estructuras de financiamiento, repositorios de modelos, prácticas de lanzamiento, presentación de conferencias y requisitos de propuestas de subvenciones [36].
Para algunos casos de uso socialmente importantes, puede ser recomendable que se establezcan estándares legales que requieran que los derivados adaptados demuestren ciertas propiedades. ¿Qué normas deberíamos promover, institucionalizar o requerir? El objetivo principal debe ser el de fomentar el diálogo sobre las normas apropiadas para el desarrollo y uso de modelos fundacionales. Es importante que los desarrolladores y proveedores de modelos creen mecanismos para este tipo de reportes.
### Liberación y Auditoría
En febrero de 2019, OpenAI se embarcó en un experimento. Al liberar una versión reducida de GPT-2 con 124 millones de parámetros, sin conjuntos de datos, esperaban ganar tiempo: tiempo para probar sesgos, tiempo para prepararse para el mal uso y tiempo para que la sociedad se adaptase a la presencia de grandes modelos de lenguaje. Ocho meses después, cuando OpenAI lanzó la versión completa de aproximadamente 1500 millones de parámetros, las pruebas habían expuesto algunas, pero de ninguna manera todas, las capacidades y limitaciones del modelo. Al considerar preguntas similares hoy en día, los posibles perjuicios de la liberación, centrados principalmente en el mal uso, deben ser sopesados contra el beneficio de la transparencia que ninguna prueba a puerta cerrada puede replicar, a saber, una auditoría y acceso más amplios e independientes.
Los auditores exploran las limitaciones de los modelos actuales y sugieren caminos para corregirlas, así como prueban los derivados adaptados del modelo en una amplia variedad de configuraciones naturales. Una política de acceso abierto para auditorías permite que investigadores más numerosos y diversos investiguen los sesgos, limitaciones y vulnerabilidades de seguridad de cualquier modelo, informando mejor sobre los usos aceptables de los modelos y calibrando la confianza apropiada en ellos. Para apoyar las auditorías independientes de modelos fundacionales, los desarrolladores de modelos o intermediarios podrían proporcionar un acceso API abierto para auditores, incluido el acceso a los gradientes, y permitir el acceso a los datos de entrenamiento.
Los modelos fundacionales entrenados con datos patentados en la industria es poco probable que se liberen, y aquellos entrenados con datos privados (como en un contexto médico) no deberían hacerlo. Para que los modelos patentados se beneficien de auditorías independientes, y para que los sujetos del modelo se beneficien de mejoras impulsadas por un proceso de auditoría, puede ser necesario que las auditorías ocurran durante una liberación escalonada. Aunque la liberación escalonada puede no iluminar todos los posibles casos de uso del modelo, una forma de ampliar el rango de casos de uso descubiertos es enlistar a un tercero neutral para decidir qué individuos u organizaciones deberían recibir acceso temprano en el programa de liberación escalonada. Un *comité de liberación escalonada* neutral, o auditores federales, podrían proporcionar una protección contra estos modos de falla y garantizar que se proporcione acceso a una amplia gama de auditores y usuarios para capturar una suficiente variedad de experiencia disciplinar y de sectores de la sociedad.
En la medida en que existan beneficios sociales para los modelos fundacionales, la liberación de modelos tiene el potencial de distribuirlos aún más. Grandes modelos de lenguaje como BERT y M-BERT son capaces de transferencia entre idiomas, lo que, cuando los modelos son de código abierto, puede permitir la adaptación a idiomas que de otro modo tendrían muy pocos textos disponibles. Dado el número de idiomas que actualmente no son bien atendidos por los proveedores comerciales, este beneficio por sí solo podría ser sustancial.
### Cuándo no construir
El desarrollo e implementación de tecnologías transformadoras no es como la gravedad, una fuerza externa que actúa sobre nosotros. Las tecnologías reflejan un conjunto de decisiones tomadas por los humanos; la agencia humana da forma a la frontera tecnológica. Se sigue que los tecnólogos pueden elegir cuándo no construir, diseñar o implementar modelos fundacionales. Esta decisión no necesita ser binaria; en cambio, uno puede negarse a participar de la forma predeterminada subvirtiendo valores incrustados, cuestionando suposiciones y dando forma a agendas de investigación. Los artefactos técnicos, incluidos los modelos fundacionales, son inherentemente políticos, por lo que la investigación sobre ellos tiene un contexto socio-político, no solo técnico. Los desarrolladores e investigadores deben ser conscientes de qué problemas buscan abordar, por ejemplo, cómo escalar un modelo fundacional versus cómo hacerlo más accesible computacionalmente; cómo se formulan esos problemas; y a quién empoderan en última instancia esas soluciones. Deberíamos valorar la investigación que busca hacer que los modelos fundacionales sean más interpretables, accesibles, sostenibles y justos.
Al preguntar cuándo no construir un modelo fundacional o un derivado adaptado, estamos preguntando implícitamente no solo *¿Qué deberíamos construir o no construir?* sino también, *¿En qué condiciones debería construirse un modelo?* y *¿Qué criterios y principios gobiernan la construcción?* La primera pregunta surge desde la vista del modelo; las siguientes preguntas desde la vista del ecosistema.
Una invitación a considerar la negativa a construir no es equivalente a decir *No hacer nada*. Es una invitación a tomar decisiones deliberadas y prudentes sobre el valor del tiempo, los recursos financieros, la experiencia y el uso de energía para construir, diseñar e implementar. En última instancia, esta es una pregunta moral difícil arraigada en el contexto y los valores. Hay casos en los que la aplicación de derivados adaptados (y algoritmos y aprendizaje automático en general) es inapropiada, porque la comunidad afectada protesta o porque el derivado adaptado agrava ingenuamente problemas sistémicos que serían mejor abordados con políticas públicas, fondos adicionales o colaboraciones interdisciplinarias.
El [Informe Belmont](https://www.hhs.gov/ohrp/regulations-and-policy/belmont-report/index.html), aplicado al aprendizaje automático 2018 ([leer aquí](https://link.springer.com/article/10.1007/s11023-018-9482-5)), proporciona un posible marco para esta pregunta. Extrayendo del principio de *beneficencia*, podemos identificar casos para reconsiderar la construcción cuando un derivado adaptado o una línea de investigación podrían causar más daño que bien o incluso no proporcionar ningún beneficio en absoluto. Alternativamente, puede haber casos en los que un derivado adaptado sea mejor en una tarea en una métrica de eficiencia, rendimiento y generalización, valores priorizados en la comunidad de aprendizaje automático, pero un individuo, comunidad u organización podría elegir priorizar una solución existente que resalte otros valores como la conexión humana y la interpretabilidad. Al hacerlo, ejercen su autonomía, como se explica en el *respeto por las personas* de dicho informe, al decidir que este no es un contexto apropiado en el que construir.
Responder a la pregunta de cuándo no construir es una cuestión de responsabilidad individual, así como una responsabilidad profesional más amplia. La decisión de no construir algo por parte de una persona, un equipo, o una empresa, invita a la respuesta: *Pero si no construimos esto, alguien más lo hará, y es probable que lo hagan peor*. Una simple ponderación utilitaria de los daños comparativos de los resultados de los dos modelos pasa por alto la importancia de la integridad. Importa mucho si nosotros somos quienes construimos el modelo defectuoso o si alguien más lo es. Las personas tienen razones para no construir algo que vaya en contra de sus valores o que no puedan respaldar como correcto para construir. Sin embargo, el entorno estructural creado es diferente. Si incluso una empresa decide construir la versión más efectiva de un modelo éticamente dudoso, abren la puerta para que otras empresas consideren vías de investigación similares; hacen que sea competitivamente desventajoso no seguir la investigación. Cuándo no construir es entonces una pregunta a la vez colectiva e individual, que requiere que la comunidad se adhiera a códigos de ética profesional y responsabilidad.
!!!side:37
Por ejemplo, el *Juramento Hipocrático* o la *Obligación del Ingeniero*.
!!!side:38
Por ejemplo, la FDA para medicamentos.
!!!side:39
Por ejemplo, la IRB para la investigación que involucra a sujetos humanos.
En la comunidad de IA/ML, esta infraestructura está poco desarrollada en comparación con otros campos como el campo médico. Aunque los organismos profesionales como la ACM tienen declaraciones de ética, tanto la industria como la academia carecen de juramentos profesionales ampliamente utilizados y aceptados [37], organismos reguladores involucrados en el despliegue e investigación [38] y protocolos oficiales para la revisión ética [39]. La capacidad de optar por no participar puede incorporarse al ecosistema de modelos fundacionales en muchas etapas, incluso durante la producción de datos, adaptación e implementación. A medida que la norma tiende a recolectar fragmentos cada vez más grandes de datos de entrenamiento, deberíamos esforzarnos por mantener un *respeto por las personas*, enfatizando la privacidad y el consentimiento como parte del ciclo de vida de los datos. Esto requeriría innovación en la gestión de datos y una comprensión más concreta, técnica y filosófica, del consentimiento informado en línea, formas de documentar y garantizar que se respete el consentimiento y la privacidad. Aunque los datos y los modelos fundacionales son diversos en sus aplicaciones, los participantes de los datos deberían poder indicar cómo no desean que se utilicen sus datos. Un modelo de consentimiento para optar por no participar favorece a los desarrolladores, ya que no requiere que obtengan consentimiento para cada caso de uso nuevo e inesperado. Es importante, entonces, el derecho a revocar el consentimiento dado vacuamente para aplicaciones que ahora se están persiguiendo, pero que no lo estaban cuando se dio originalmente el consentimiento.
# Conclusiones
En esta entrada (resumen libre del informe referenciado en la introducción) se ha realizado un esfuerzo por discutir de manera integral muchos de los aspectos más críticos de los modelos fundacionales, que van desde sus fundamentos técnicos hasta sus consecuencias sociales.
El enfoque ha sido poco habitual: intentado aclarar la naturaleza de un paradigma que puede haber apenas comenzado, en lugar de esperar a que se desarrolle más o que se asiente el polvo. Debe tenerse presente que mucho de lo que se ha comentado sigue siendo incierto a pesar de los esfuerzos por aclararlo, y es importante reiterar que esto es solo el comienzo de un cambio de paradigma: los modelos fundacionales apenas han comenzado a transformar la forma en que se construyen y despliegan los sistemas de IA en el mundo. Para garantizar el desarrollo y despliegue responsables de estos modelos sobre bases duraderas, la colaboración entre diferentes sectores, instituciones y disciplinas desde el principio será especialmente crítica.
(insert ../menu.md.html here)