**Scientific Machine Learning** !!!side Basado principalmente en [#Iwema2023], [#Weinan2020] y [#Willard2022]. Hay una nueva disciplina de modelización en investigación científica que está ganando terreno. Aunque se utilizan diferentes nombres para referirse a ella, aquí usaremos el término que da nombre a la entrada: **Scientific Machine Learning** (**SciML** [#Baker2019], [#Rackauckas2020]). Otros términos utilizados habitualmente son: **Ecuaciones Diferenciales Universales** (**UDE**, [#Rackauckas2020]), **Redes Neuronales Informadas por Física** (**PINN**, [#Raissi2019]), **Aprendizaje Automático Informado por Física** (**PBML**, [#Karniadakis2021]), **Ciencia de Datos Guiada por Teoría** (**TGDS**, [#Karpatne2017]) y **Aprendizaje Profundo Basado en Física** (**PBDL**, [#Thuerey2021]). Podríamos pensar en todas ellas como diferentes visiones y técnicas específicas de una idea central que se resume en SciML. !!!side:1 Donde por ciencia aquí nos referimos concretamente a la **Modelización Basada en la Física** (**PBM**) Como indica su nombre, el **Scientific Machine Learning** es una combinación de dos términos distintos: **Aprendizaje Automático** (ML) y **Ciencia** [1]. Tradicionalmente, estos dos ámbitos de investigación han estado relativamente separados, pero en los últimos años se han desarrollado objetivos y métodos con el espíritu de combinarlos. De esta forma, SciML integra modelos y conocimientos mecanicistas (es decir, basados en la Física) y técnicas de aprendizaje automático de forma sinérgica ([#Willard2022], [#Karniadakis2021], [#Karpatne2017], [#Karpatne2019]) con el fin de obtener lo mejor de ambos mundos. El ML, que lleva ya unos años mostrando un gran éxito en aplicaciones comerciales, está comenzando a desempeñar un papel importante en el avance del descubrimiento científico en dominios científicos y de ingeniería tradicionalmente dominados por modelos mecanicistas. El uso de modelos ML es particularmente prometedor en problemas científicos que involucran procesos que no se comprenden completamente (y no disponemos del modelo mecanicista adecuado), o donde es computacionalmente inviable ejecutar modelos mecanicistas con las resoluciones deseadas en el espacio y el tiempo. Sin embargo, la aplicación de modelos de aprendizaje automático de caja negra de última generación (que a menudo cosecha grandes éxitos en el ámbito comercial) parece mostrar un éxito limitado en los dominios científicos debido a sus fuertes restricciones: grandes requisitos de datos, su incapacidad para producir resultados físicamente consistentes y su falta de generalización para superar los escenarios de muestreo en los que fueron entrenados. Dado que, ni un enfoque basado únicamente en ML, ni uno únicamente basado en el conocimiento científico, parecen ser suficientes para aplicaciones científicas y de ingeniería complejas, la comunidad de investigación está comenzando a explorar la combinación entre ambas aproximaciones, donde tanto el conocimiento científico como el ML se integren de una forma robusta. Debe quedar claro que SciML es fundamentalmente diferente de las prácticas convencionales en ML para hacer uso de conocimientos de dominios específicos en ingeniería de características o posprocesamiento. SciML integra el conocimiento científico directamente en el marco de ML. Aunque la idea de integrar principios científicos y modelos de aprendizaje automático ha cobrado impulso apenas en los últimos años, ya existe una gran cantidad de trabajo sobre este tema, y los primeros resultados en escenarios aislados y relativamente simples son prometedores, aumentando las expectativas de que este paradigma acelere los descubrimientos científicos y ayude a abordar desafíos científicos de primer nivel. Antes de comenzar a analizar las sinergias que se han generado, vamos a destacar las diferencias que podemos encontrar en sus aproximaciones clásicas, de forma que podamos entender qué vías necesitamos explorar para encontrar una posible colaboración. # PBM !!!def:Modelos Basados en Física (PBM) Primero, hemos de remarcar que en esta entrada usaremos la expresión **Modelos Basados en Física** (**PBM**, o también **Modelos Basados en Procesos**, o **Modelos de Primeros Principios**) a los modelos creados haciendo uso de las técnicas tradicionales de conocimiento acumulado por el descubrimiento científico y que, normalmente, han sido formalizados como un conjunto de principios, leyes, y teoremas haciendo uso del lenguaje matemático (con más o menos acierto) a lo largo de los últimos siglos. ![](img/PBM.png align=right width=40%)En las Ciencias Experimentales y en Ingeniería se utilizan modelos basados en Física para estimar los efectos de los fenómenos naturales (en su sentido más amplio) y de las intervenciones humanas sobre las condiciones del mundo real. En muchas de estas aplicaciones, el conocimiento científico se representa mediante un modelo mecanicista. Estos modelos físicos suelen tener una noción de estado, y cuando son complejos es necesario introducir múltiples componentes para modelar diversos aspectos del sistema. Los PBM representan las relaciones entre estas variables y estados por medio de fórmulas matemáticas basadas en conocimientos científicos y leyes físicas que se han ido derivando, justificando y verificando experimental o teóricamente con el paso de los siglos. Para ello, siguen una metodología específica que busca representar y comprender fenómenos naturales o sistemas complejos mediante la formulación de ecuaciones y principios fundamentales. Un resumen de esta metodología podría venir dada por las siguientes etapas: 1. **Identificación del Sistema:** En esta etapa se define claramente el sistema que se va a estudiar. Esto incluye los límites del sistema, sus componentes y las interacciones relevantes que deben considerarse entre las mismas. 2. **Formulación de Principios Fundamentales:** Se identifican los principios físicos, químicos o biológicos que rigen el comportamiento del sistema. Estos principios suelen expresarse en forma de ecuaciones matemáticas o leyes que describen cómo cambian las variables del sistema en función del tiempo y el resto de condiciones (internas y externas al sistema). 3. **Desarrollo de Modelos Matemáticos:** Utilizando los principios identificados, se desarrollan modelos matemáticos que representan el comportamiento del sistema. Esto implica traducir los principios en ecuaciones diferenciales, ecuaciones en diferencias, u otros tipos de modelos matemáticos, dependiendo de la naturaleza del sistema. En esta etapa también se identifican las variables que representarán los distintos observables, así como los parámetros (ajustables o no) que intervienen en el modelado ecuacional de las interacciones. 4. **Análisis de Sensibilidad:** Se realiza un análisis para comprender cómo responden los resultados del modelo a cambios en los parámetros de entrada. Esto ayuda a identificar qué variables tienen un mayor impacto en el comportamiento del sistema y cómo pueden ajustarse para lograr ciertos objetivos. 5. **Validación y Verificación:** Es crucial asegurarse de que el modelo sea válido y esté verificado. Esto implica comparar los resultados del modelo con datos experimentales o con modelos alternativos (quizás, ya convertidos en teorías) para confirmar su precisión y relevancia. 6. **Simulación y Predicción:** Una vez validado, el modelo se utiliza para simular el comportamiento del sistema en diferentes condiciones, lo que permite hacer predicciones sobre cómo se comportará el sistema en el futuro o bajo ciertas circunstancias de interés (habituales y de estrés, es decir, cerca de los límites en los que el comportamiento puede ser radicalmente distinto). 7. **Interpretación de Resultados:** Los resultados de la simulación se interpretan para extraer conclusiones significativas sobre el sistema estudiado. Puede implicar identificar patrones, tendencias o puntos críticos que ayuden a comprender mejor el fenómeno en cuestión, y también que haya que realizar ajustes en el modelo previo considerado. Esta metodología es fundamental en disciplinas como la física, la biología, la ingeniería y muchas otras áreas científicas donde se busca comprender y predecir el comportamiento de sistemas complejos utilizando principios fundamentales y modelos matemáticos. Para construir estos modelos, es necesario realizar estudios observacionales y experimentos siguiendo una metodología, normalmente, basada en el que se conoce como [**Método Científico**](https://es.wikipedia.org/wiki/M%C3%A9todo_cient%C3%ADfico). Aunque estos modelos se basan en el conocimiento e incluyen nuestra comprensión de la naturaleza, ciertos subprocesos y propiedades se comprenden menos o tienen un comportamiento muy heterogéneo en el espaciotiempo en el que su representación evoluciona [#Blöschl1995]. En muchos casos, la falta de observaciones o la imposibilidad de realizar un muestreo suficiente (para hacer frente a la gran variabilidad espaciotemporal) obligan a hacer suposiciones y a utilizar relaciones empíricas en los PBM para parametrizar determinadas partes. Los PBM, como todos los modelos, aunque se basan en el conocimiento del mundo real, son, por tanto, simplificaciones inherentes de la realidad que sacrifican parte de los mecanismos y relaciones que existen en el fenómeno. !!!ejemplo: Péndulo Simple ![](img/pendulo.gif align=right width=180px) Vamos a tomar un ejemplo de aplicación de esta metodología en la física, específicamente en el estudio del movimiento de un péndulo simple: un sistema físico que consiste en una masa suspendida de un punto fijo mediante un hilo o cuerda sin masa. 1. Identificación del Sistema: * **Sistema:** una masa \( m \) suspendida de un punto fijo mediante una cuerda sin masa de longitud \( L \). * **Variables:** La posición angular \( \theta \) del péndulo con respecto a la vertical. 2. Formulación de Principios Fundamentales: * **Principio de Conservación de la Energía Mecánica:** En ausencia de fricción, la energía mecánica total (cinética y potencial) se conserva: $$E = \text{Energía cinética} + \text{Energía potencial} = \frac{1}{2} m v^2 + mgh$$ Donde \( v \) es la velocidad tangencial, \( g \) es la aceleración debida a la gravedad y \( h \) es la altura del péndulo respecto a su posición de equilibrio (vertical). * **Ley de Conservación del Momento Angular:** El momento angular del sistema también se conserva en ausencia de torque externo: $$ L = m v L \sin(\theta) = \text{constante}$$ donde \( L \) es la longitud del péndulo. 3. Desarrollo de Modelos Matemáticos: Utilizando los principios anteriores, podemos desarrollar las ecuaciones de movimiento del péndulo. * Para pequeñas oscilaciones (\( \theta <<\)): \( \sin(\theta) \approx \theta \), y la ecuación diferencial resultante es: $$\frac{d^2 \theta}{dt^2} + \frac{g}{L} \theta = 0$$ Esta es la ecuación del movimiento armónico simple (MAS), donde \( \frac{g}{L} \) es la constante de proporcionalidad. 4. Análisis de Sensibilidad: * Se puede analizar cómo cambia el período del péndulo (\( T \)) con respecto a la longitud (\( L \)): $$T = 2\pi \sqrt{\frac{L}{g}}$$ 5. Validación y Verificación: * Para validar el modelo, se comparan las predicciones del período del péndulo con experimentos reales (se realizan mediciones del período para diferentes longitudes \( L \)). 6. Simulación y Predicción: * Una vez validado, el modelo se puede utilizar para predecir el período del péndulo para cualquier longitud dada. Por ejemplo, si \( L = 1 \, \text{m} \) y \( g = 9.81 \, \text{m/s}^2 \), entonces \( T = 2\pi \sqrt{\frac{1}{9.81}} \approx 2.01 \, \text{s} \). 7. Interpretación de Resultados: * El modelo permite entender cómo cambia el período del péndulo con la longitud. Podemos concluir que el período es independiente de la masa pero depende de la longitud y la aceleración debido a la gravedad. Este ejemplo simple ilustra cómo la metodología del PBM se aplica desde la formulación de ecuaciones hasta la interpretación de resultados y su uso en aplicaciones prácticas. ## Límites La Ciencia se centra en dos objetivos principales: la búsqueda de leyes fundamentales y la solución de problemas prácticos. El primero ha dado lugar a las leyes de Newton, las ecuaciones de Maxwell, la teoría de la relatividad y la mecánica cuántica. La segunda ha sido el fundamento de la tecnología moderna, desde automóviles, aviones y ordenadores hasta teléfonos móviles. En 1929, recién descubierta la mecánica cuántica, Paul Dirac hizo la siguiente afirmación [#Dirac1929]: !!!alg *Las leyes físicas subyacentes necesarias para la teoría matemática de una gran parte de la física y de toda la química son, pues, completamente conocidas, y la dificultad estriba únicamente en que la aplicación exacta de estas leyes conduce a ecuaciones demasiado complicadas para ser resolubles.* Lo que ha sucedido desde entonces ha confirmado en gran medida la afirmación de Dirac. Todo el mundo está de acuerdo en que, para entender los problemas de la química, la biología, la ciencia de los materiales y la ingeniería, rara vez hay que buscar los primeros principios más allá de la mecánica cuántica. Pero resolver problemas prácticos utilizando principios de la mecánica cuántica, por ejemplo, la ecuación de Schrödinger, es una cuestión muy poco trivial, debido, entre otras cosas, a la naturaleza multicuerpo del problema. Para superar estas dificultades matemáticas, los investigadores han seguido las siguientes líneas: 1. Buscar modelos simplificados. Por ejemplo, las ecuaciones de Euler suelen bastar para estudiar la dinámica de los gases. No hay necesidad de preocuparse por la estructura electrónica detallada que conlleva la ecuación de Schrödinger. 2. Búsqueda de soluciones aproximadas mediante algoritmos numéricos computacionales. 3. Modelización multiescala: En algunos casos se puede modelar el comportamiento de un sistema a escala macroscópica utilizando sólo un modelo a microescala. En las siguientes subsecciones vamos a discutir brevemente cada uno de ellos. ### Búsqueda de modelos simplificados La búsqueda de modelos simplificados que capten la esencia de un problema o describan algún fenómeno con una precisión satisfactoria ha sido un tema constante en el mundo de la ciencia. Idealmente, nos gustaría que nuestros modelos simplificados tuvieran las siguientes propiedades: 1. Deben expresar principios físicos fundamentales (por ejemplo, leyes de conservación). 2. Deben obedecer restricciones físicas (por ejemplo, simetrías). 3. Deben ser lo más universalmente precisos posible (lo ideal sería poder realizar un pequeño conjunto de experimentos en situaciones idealizadas y obtener modelos que puedan utilizarse en condiciones mucho más generales). 4. Deben ser físicamente significativos (interpretables). !!!side:2 Desgraciadamente, no todos los esfuerzos por elaborar modelos simplificados han tenido el mismo éxito. Un buen ejemplo es el esfuerzo por desarrollar ecuaciones de Euler ampliadas para gases raros. Se han realizado numerosos esfuerzos para desarrollar modelos similares a los de Euler para la dinámica de gases con características menos simples, pero hasta ahora este esfuerzo no ha producido ningún modelo ampliamente aceptado. !!!ejemplo Las ecuaciones de Euler para la dinámica de gases son un ejemplo muy acertado de modelos físicos simplificados. Es mucho más simple que los primeros principios de la mecánica cuántica, y es un modelo muy preciso en ciertas condiciones: para los gases ideales, el único parámetro necesario es la constante del gas; para los gases complejos, se necesita toda la ecuación de estado, que es función de sólo dos variables.
![](img/fluid.png width=60%)
Otros ejemplos de éxitos son las ecuaciones de Navier-Stokes para fluidos viscosos, las ecuaciones de elasticidad lineal para pequeñas deformaciones de sólidos y la teoría de Landau de transición de fases [2]. En muchas áreas del modelado físico se han usado con éxito algunas metodologías más o menos generales para obtener modelos simplificados: el uso de simetrías, leyes de conservación y la segunda ley de la termodinámica para extraer tanta información de la dinámica como sea posible, y modelizar el resto utilizando relaciones lineales (en lo que se llama hidrodinámica generalizada); el truco de la expansión gradiente (para el desarrollo de modelos para la transición de fase); el análisis asintótico; estrategias para eliminar grados de libertad no deseados (conocido como formalismo de Mori-Zwanzig); reducción de modelos basada en componentes principales; esquemas numéricos drásticamente truncados; etc. ### Algoritmos Numéricos Como las soluciones analíticas son raras (la mayoría de ellas no tienen solución simbólica posible) incluso después de simplificar los modelos, hay que recurrir a algoritmos numéricos para encontrar soluciones aproximadas precisas. Se han desarrollado muchos algoritmos numéricos para resolver las ecuaciones diferenciales parciales (EDP) que surgen de la física, como los métodos de diferencias finitas, de elementos finitos y espectral. La disponibilidad de estos algoritmos ha cambiado por completo nuestra forma de hacer ciencia y, en mayor medida, ingeniería. Por ejemplo, hoy en día el cálculo numérico desempeña un papel preponderante en el estudio de la mecánica de fluidos y sólidos. Lo mismo puede decirse de la ciencia atmosférica, la combustión, la ciencia de los materiales y muchas otras disciplinas, aunque posiblemente en menor medida. !!!side:3 Un buen ejemplo es la ecuación de Boltzmann. La dimensionalidad del espacio de fase y la no localidad en el núcleo de colisión hacen que sea bastante difícil su resolución utilizando los tipos de algoritmos mencionados anteriormente, a pesar de que la dimensionalidad es pequeña en comparación con las que se encuentran en la ecuación de Schrödinger de muchos cuerpos. A grandes rasgos, se puede decir que actualmente disponemos de algoritmos satisfactorios para problemas de baja dimensión (digamos, 3 o 4 dimensiones). Pero las cosas se complican rápidamente a medida que aumenta la dimensionalidad [3]. Esto nos lleva a la cuestión central de muchos problemas difíciles a los que nos enfrentamos: !!!def:La maldición de la dimensionalidad A medida que aumenta la dimensionalidad, la complejidad (o coste computacional) crece exponencialmente. ### Modelado Multi-escala ![](img/multiescala.png align=right width=40%)Una idea importante para superar las dificultades mencionadas es el modelado multiescala, una filosofía general basada en modelar el comportamiento de los sistemas a macroescala utilizando modelos fiables a microescala, en lugar de basarse en modelos ad hoc a macroescala. La idea es utilizar los resultados del modelo de microescala en dominios espaciotemporales mucho más pequeños para predecir el tipo de variables de macroescala que nos interesan [#Weinan2011]. Existen dos estrategias básicas para la modelización multiescala: * **Secuencial**: los componentes necesarios del modelo de microescala se obtienen de antemano, y esta información se suministra después a algún modelo de macroescala. Por esta razón, la modelización multiescala secuencial también se denomina **precomputación**. * **Concurrente**: el acoplamiento entre los modelos de macroescala y microescala se realiza sobre la marcha, a medida que avanza la simulación. Aunque la aproximación multiescala es válida para un amplio abanico de disciplinas científicas, hasta ahora su éxito ha sido menos espectacular de lo que se esperaba hace veinte años. A ello han contribuido los siguientes retos: !!!side:4 Por ejemplo, al estudiar la propagación de grietas, se suele utilizar la dinámica molecular como modelo a microescala, pero su precisión para procesos dinámicos que implican la ruptura de enlaces es cuestionable. 1. Los modelos a microescala no suelen ser tan fiables [4]. 2. Aunque el modelado multiescala puede reducir drásticamente el tamaño de la simulación, sigue estando más allá de nuestra capacidad actual. 3. La principal ventaja de la modelización multiescala es la separación de las escalas micro y macro del problema. Pero para los problemas más interesantes y más desafiantes, esto a menudo no interesa. 4. A nivel técnico, una modelización multiescala eficiente requiere algoritmos eficaces para extraer la información relevante necesaria de las simulaciones a microescala. Se trata de un problema de análisis de datos que no se ha abordado adecuadamente. ### Otras Dificultades Se han hecho muchos progresos utilizando estas metodologías en combinación con la comprensión física, así como el ajuste de parámetros por ensayo y error, lo que ha permitido resolver una gran variedad de problemas. A pesar de estos avances, aún quedan muchas cuestiones por resolver en lo que respecta a la obtención de buenos modelos, y muchos problemas siguen siendo difíciles. Desde el punto de vista del desarrollo de modelos, una dificultad importante ha sido siempre el **problema del cierre**: Al construir modelos simplificados, nos encontramos con términos que hay que aproximar para obtener un sistema cerrado. Que se pueda lograr un cierre preciso depende también de manera esencial del nivel al que imponemos el cierre, es decir, de las variables que utilizamos para cerrar el sistema. !!!side:5 El modelado de flujos turbulentos por las ecuaciones de Navier-Stokes es un problema de baja dimensionalidad, pero su naturaleza altamente aleatoria propone una descripción estadística, que entonces lo convierte en un problema de muy alta dimensionalidad. Desde el punto de vista de los algoritmos numéricos, todos estos problemas comparten una característica importante: hay muchos grados de libertad intrínsecos [5], que los algoritmos numéricos existentes no pueden tratar eficazmente. A falta de enfoques sistemáticos, hay que recurrir a procedimientos ad hoc que no sólo son desagradables, sino también poco fiables. Otro tipo de modelización es la Estadística. Este enfoque tradicional es empírico por naturaleza y no se basa necesariamente (de forma explícita) en el conocimiento del proceso. Esencialmente, se estudian las correlaciones entre distintas variables observadas en el fenómeno en estudio y se sacan conclusiones sobre la fuerza de esas correlaciones. La modelización estadística es, al igual que la modelización mecanicista, una disciplina de larga tradición. # ML Una disciplina relacionada con la Estadística (al menos en muchas de sus justificaciones), pero mucho más reciente, que ha experimentado un desarrollo cada vez más rápido en la última década, es el [**Aprendizaje Automático**](https://www.cs.us.es/~fsancho/Blog/posts/Fundamentos_de_ML/) (**ML**). !!!side:6 Existen distintas explicaciones que marcan las diferencias entre modelización estadística y aprendizaje automático. Algunas fuentes que lo describen bastante bien son [#Bzdok2018] y [#Ley2022]. ML no hace un uso directo del conocimiento del dominio dentro de la estructura del modelo, sino que, al igual que la modelización estadística, explora correlaciones entre distintas variables y hace predicciones sobre ellas aplicando técnicas que son especialmente valiosas cuando las correlaciones entre variables son altamente no lineales y complejas. No existe una diferencia definitiva universalmente aceptada entre la modelización estadística y el aprendizaje automático, salvo que esta última no está necesariamente basada en modelos estadísticos matemáticos, sino modelos computacionales [6], por lo que aún siendo disciplinas con distintas orientaciones, se solapan en técnicas y fundamentos, en una subdisciplina llamada **Aprendizaje Estadístico**. De forma más general, el ML es una disciplina centrada en dos cuestiones interrelacionadas: 1. ¿Cómo se pueden construir sistemas computacionales que mejoren automáticamente a través de la experiencia?, y !!!side:7 Incluidos los ordenadores, los seres humanos y las organizaciones. 2. ¿Cuáles son las leyes fundamentales de la Teoría de la Información que rigen los sistemas de aprendizaje [7]? El estudio del ML no solo es importante por abordar estas cuestiones científicas y de ingeniería fundamentales, sino también por el software altamente práctico que ha producido y aplicado en numerosas aplicaciones. !!!def: Problemas de Aprendizaje Un problema de aprendizaje puede definirse como el problema de mejorar alguna medida de rendimiento al ejecutar alguna tarea, mediante algún tipo de experiencia de entrenamiento. Se ha desarrollado una amplia gama de algoritmos de ML para cubrir la gran variedad de datos y tipos de problemas que presentan los distintos problemas encontrados. Conceptualmente, los algoritmos de ML pueden verse como una búsqueda a través de un gran espacio de programas candidatos, guiados por la experiencia de entrenamiento, para encontrar un programa que optimice la métrica de rendimiento. Los algoritmos desarrollados varían enormemente, en parte por la forma en que representan los programas candidatos (por ejemplo, árboles de decisión, funciones matemáticas y lenguajes de programación generales) y en parte por la forma en que buscan a través de este espacio de programas (por ejemplo, algoritmos de optimización con garantías de convergencia bien entendidas y métodos de búsqueda evolutiva que evalúan generaciones sucesivas de programas mutados aleatoriamente). Muchos algoritmos se centran en problemas de aproximación de funciones, en los que la tarea se plasma en una función, y el problema de aprendizaje es mejorar la precisión de esa función, con una experiencia consistente en una muestra de pares conocidos de entrada-salida de la función (lo que se conoce como **aprendizaje supervisado**). En algunos casos, la función se representa explícitamente como una forma funcional parametrizada; en otros casos, la función está implícita y se obtiene mediante un proceso de búsqueda, una factorización, un procedimiento de optimización o un procedimiento basado en la simulación. Incluso cuando es implícita, la función suele depender de parámetros u otros grados de libertad ajustables, y el entrenamiento consiste en encontrar valores para estos parámetros que optimicen la métrica de rendimiento. ![](img/ML.png align=right width=40%)ML incluye técnicas de regresión y clasificación: * Supervisadas y no supervisadas. * Redes neuronales (NN). * Aprendizaje por Refuerzo. * Aprendizaje de la representación (las características no se diseñan a mano, sino que las aprende el algoritmo). !!!side:8 El ejemplo más manido de esto siempre nombra el caso de las imágenes, donde diferentes rasgos simples, como los bordes, se combinan para formar rasgos más complejos, como las formas de los objetos. !!!side:9 En un contexto científico, el DL se utiliza a menudo porque permite separar piezas complejas de información y utilizarlas para predecir. ![](img/DL.jpg width=350px align=right) Dentro de ML ha surgido en los últimos años una aproximación denominada **Deep Learning** (**DL**) [#Goodfellow2016] con mucha fuerza y que, prácticamente, domina la tendencia de trabajo en el área. No existe una separación exacta que establezca si un algoritmo de ML es de DL o no. Como se puede ver en la figura comparativa de [#Goodfellow2016], un algoritmo de DL extrae características abstractas de alto nivel y las descompone en diferentes características más simples [8]. Una red neuronal más profunda permite construir características complejas a partir de características simples porque las capas más profundas permiten combinar la información de las neuronas de las capas superiores [9]. Cualquiera que sea el algoritmo de aprendizaje, un objetivo científico y práctico clave es caracterizar teóricamente las capacidades de algoritmos de aprendizaje específicos y la dificultad inherente a cualquier problema de aprendizaje dado: * ¿Con qué precisión puede aprender el algoritmo a partir de un tipo y volumen concretos de datos de entrenamiento? * ¿Hasta qué punto es robusto el algoritmo frente a errores en sus supuestos de modelización o frente a errores en los datos de entrenamiento? * Dado un problema de aprendizaje con un volumen determinado de datos de entrenamiento, ¿es posible diseñar un algoritmo exitoso o este problema de aprendizaje es fundamentalmente intratable? Estas caracterizaciones teóricas de los algoritmos y problemas de aprendizaje automático suelen utilizar marcos conocidos como la **Teoría de la Decisión Estadística** y **Teoría de la Complejidad Computacional**. De hecho, los intentos de caracterizar teóricamente los algoritmos de ML han dado lugar a mezclas de teoría estadística y computacional en las que el objetivo es caracterizar simultáneamente la complejidad muestral (cuántos datos se necesitan para aprender con precisión) y la complejidad computacional (cuánto cálculo se necesita) y especificar cómo dependen de características del algoritmo de aprendizaje, como la representación que utiliza para lo que aprende. Una forma específica de análisis computacional que ha demostrado ser especialmente útil en los últimos años ha sido la **Teoría de la Optimización**. Así pues, como campo de estudio, ML se sitúa en la encrucijada de la computación, la estadística y otras disciplinas relacionadas con la mejora automática a lo largo del tiempo, la inferencia y la toma de decisiones en condiciones de incertidumbre. Entre las disciplinas afines figuran el estudio psicológico del aprendizaje humano, el estudio de la evolución, la teoría del control adaptativo, el estudio de las prácticas educativas, la neurociencia, el comportamiento organizativo y la economía. Aunque en la última década ha aumentado la interrelación con estos otros campos, apenas estamos empezando a aprovechar las sinergias potenciales y la diversidad de formalismos y métodos experimentales utilizados en estos múltiples campos para estudiar los sistemas que mejoran con la experiencia. # PBM y ML Los dos enfoques mencionados, PBM y ML, tienen sus propios puntos fuertes y limitaciones: * PBM tiene mejores capacidades de extrapolación y los resultados son interpretables porque pueden relacionarse directamente con los cambios en los parámetros y variables de entrada. Sus limitaciones son, por ejemplo, su complejidad computacional y la limitada transferibilidad entre escalas espaciales. * Los puntos fuertes de ML son los breves tiempos de cálculo (tras el entrenamiento inicial) y la gran capacidad de predicción. Sus limitaciones son la interpretabilidad limitada, tanto de la estructura del modelo como de sus resultados, y la fuerza limitada de extrapolación. !!!side:10 Por ejemplo, en todo el proceso de estimación de parámetros. Precisamente, la limitada interpretabilidad ha sido una limitación para la adopción de ML por parte de la comunidad de modelización de las ciencias y la ingeniería. Sin embargo, esta comunidad ha utilizado mucho ML para fines específicos [10]. Sin embargo, no ha sido posible sustituir completamente los modelos basados en procesos por modelos de ML. El conocimiento del dominio y las leyes físicas no pueden sustituirse completamente por ellos. Además, en las ciencias, los datos de observación suelen ser limitados, lo que dificulta la eficacia del ML ya que sus resultados en estas condiciones no son suficientemente sólidos y no garantizan la convergencia [#Raissi2017a]. En todo caso, SciML nace con la idea de que no es necesario elegir de forma disjunta entre PBM y ML. !!!side:11 Un ejemplo es la poda de modelos basados en datos sobre la coherencia física, lo que produce parametrizaciones de modelos que satisfacen ciertas condiciones después del entrenamiento [#Karpatne2017]. SciML lleva ya algunos años en desarrollo, y las primeras publicaciones que mencionan explícitamente esta disciplina datan de 2017 [#Raissi2017a], y aunque antes de esa fecha ya había habido intentos de incorporar conocimientos físicos en el aprendizaje automático y viceversa [11], es a partir de trabajos de ese año cuando se proponen nuevos métodos de SciML que son más avanzados y ofrecen la posibilidad de una mayor integración y desarrollo. !!!side:12 Debido a que los sistemas físicos contienen un gran número de variables físicas que en muchos casos no son estacionarias en el tiempo y además presentan interacciones complejas. La fuerza impulsora del desarrollo de SciML nace del éxito limitado de los métodos de la Ciencia de Datos para resolver problemas complejos de las ciencias naturales [#Karniadakis2021], que muestran poca capacidad de extrapolación [12]. Otra razón de la falta de éxito es que el objetivo suele ser aprender sobre los procesos naturales, comprender los mecanismos de causa y efecto, y para ello se necesitan modelos interpretables (que proporcionen teorías acerca del funcionamiento del sistema). Los enfoques tradicionales basados en datos no proporcionan un conjunto de fórmulas matemáticas interpretables, por lo que ofrecen una visión limitada o nula del sistema natural estudiado. Utilizando lo mejor de ambos mundos, SciML introduce la capacidad de aprender modelos a partir de grandes conjuntos de datos y del conocimiento acumulado por el descubrimiento científico. Esto puede hacerse integrando el conocimiento en modelos basados en datos para aumentar la probabilidad de que las relaciones de regresión encontradas representen relaciones causales. Además, se pueden derivar modelos físicamente consistentes. SciML podría incluso conducir a una nueva definición de la comprensión de procesos si partes de los modelos mecanicistas se sustituyen por aprendizaje automático que produzca modelos extrapolables eficaces [#Karniadakis2021]. # SciML Ya es hora de proporcionar una visión general de lo que es SciML, qué diferentes técnicas SciML se pueden distinguir, y lo que se ha hecho con SciML hasta ahora. ![](img/AI5.png width=30%) ## Objetivos Tal y como indican en [#Willard2022], el desarrollo de SciML persigue ayudar a abordar las imperfecciones de los modelos mecanicistas, a construir modelos mecanicistas más eficientes en cuanto a recursos y a descubrir nuevos conocimientos. Para ello, se pueden destacar diferentes objetivos para desarrollar y utilizar SciML desde la perspectiva de la mejora de las técnicas computacionales, derivadas de las limitaciones tanto de PBM como del ML. De forma general: 1. Mejorar el rendimiento de la predicción, lo que significa una mejor correspondencia entre las predicciones y las observaciones. 2. Mejorar la eficiencia de la muestra, es decir, reducir el número de observaciones necesarias para un rendimiento adecuado o reducir el espacio de búsqueda de soluciones. 3. Mejorar la interpretabilidad de los resultados de ML. La introducción de conocimientos científicos puede ayudar a comprender mejor los procesos. En la modelización científica y de ingeniería, estos objetivos se pueden concretar de la siguiente forma: * **Mejora de los modelos físicos**: combinación de modelos basados en PBM con modelos ML. !!!side:13 La dinámica utiliza simulaciones de resolución más fina para estimar variables a una escala más local. La estadística emplea métodos empíricos para predecir variables de resolución más fina a partir de variables de resolución más gruesa. * **Reducción de la escala**: Utilizar ML para simular a una resolución más fina cuando sea necesario para obtener una estimación suficientemente buena de las variables de salida. Especialmente, la reducción de escala dinámica es costosa desde el punto de vista computacional y puede beneficiarse de las técnicas de ML. La reducción de escala estadística [13] puede beneficiarse del uso de redes neuronales, debido a la naturaleza compleja y no lineal de las relaciones entre escalas. * **Parametrización**: Parametrizar significa sustituir subprocesos complejos por constantes (es decir, parámetros estáticos) que suelen calibrarse. Sin embargo, como alternativa, estas representaciones de subprocesos pueden sustituirse por modelos de ML. Esto permite aprender parametrizaciones directamente a partir de las observaciones y modelizar a alta resolución. * **Modelos de orden reducido**: representaciones computacionalmente menos costosas de modelos más complejos. ML está empezando a utilizarse para ayudar a construir modelos de orden reducido, mejorar la precisión y reducir los costes computacionales. La aplicación de los principios de la Física podría hacer posible un entrenamiento más sólido de estos modelos y permitir un entrenamiento satisfactorio con menos datos. * **Soluciones EDPs**: El ML puede utilizarse en lugar de las soluciones numéricas de las ecuaciones diferenciales parciales. El cálculo de soluciones numéricas (como el método de las diferencias finitas) puede ser muy costoso o incluso imposible en algunos casos. Por otra parte, los solucionadores basados en ML no suelen tener en cuenta las leyes físicas. Sin embargo, avances recientes, como la construcción de un solucionador para familias enteras de EDP empleando un operador neuronal de Fourier, ofrecen un camino a seguir. * **Modelización inversa**: Los modelos sustitutivos basados en el aprendizaje automático se están convirtiendo en una opción realista para la modelización inversa en la investigación científica y de ingeniería, porque pueden hacer frente a una alta dimensionalidad y porque son rápidos. En la resolución tradicional de problemas inversos suelen utilizarse restricciones basadas en PBM. La incorporación de este tipo de restricciones en los enfoques basados en ML puede mejorar la eficiencia de los datos y ayudar a resolver problemas mal planteados. * **Descubrimiento de ecuaciones**: En las disciplinas donde los sistemas dinámicos carecen de descripciones analíticas formales (por ejemplo, muchos de los relacionados con Sistemas Complejos), a pesar de la abundancia de datos, el descubrimiento de ecuaciones regidoras con ML es un campo de investigación activo. Recientemente se ha avanzado en este tema con la regresión simbólica y la regresión dispersa. * **Generación de datos**: Los enfoques de generación de datos se utilizan para simular sintéticamente datos científicos reales. Tradicionalmente, la generación de datos se hacía con PBM o con experimentos físicos reales. Sin embargo, esto lleva mucho tiempo y está limitado por la capacidad generativa del modelo elegido. El ML no supervisado ofrece una forma de avanzar que requiere menos tiempo y que puede proporcionar datos más diversos porque no hay restricciones derivadas de la parametrización elegida dentro de un modelo específico basado en la Física. * **Cuantificación de la incertidumbre**: Para evitar el elevado gasto computacional de la modelización de Monte Carlo, los modelos sustitutos basados en DL podrían ser una técnica interesante. La integración de conocimientos de Física en este tipo de trabajos puede ayudar a caracterizar mejor la incertidumbre, por ejemplo, evitando soluciones físicamente incoherentes, lo que a su vez puede reducir el coste computacional. ## Métodos Para alcanzar los objetivos mencionados en la sección anterior se pueden utilizar diferentes metodologías. Podemos encontrar cuatro enfoques principales (resumimos cada uno de ellos y destacamos los requisitos que imponen y los posibles beneficios que aportan): 1. **Función de pérdida guiada por PBM**: Los métodos estándar de ML pueden fallar a la hora de captar relaciones complejas entre variables físicas a diferentes escalas directamente a partir de los datos. Esto hace que estos modelos no extrapolen bien más allá de su espacio de entrenamiento. Por ello, se desarrollan modelos de ML coherentes con la Física. Una forma de hacerlo es incorporando restricciones físicas en las funciones de pérdida, añadiéndoles un término para penalizar las soluciones no físicas (una restricción débil, es decir, que no ofrece garantías de que las soluciones no físicas queden completamente excluidas). Esto tiene, entre otras ventajas, la de mejorar la capacidad de generalizar fuera de la muestra. Un ejemplo es el enfoque Redes Neuronales Informadas por Física (PINNs), de las que hablaremos más adelante. * **Requisito**: relación física conocida (por ejemplo, EDP). * **Posibles ventajas**: coherencia física, mejora de la generalización, reducción de las observaciones necesarias, mejora de la precisión. 2. **Inicialización guiada por PBM**: El conocimiento físico puede ayudar a inicializar los pesos de las redes neuronales (sobre todo, las profundas), para acelerar el entrenamiento y reducir el número de muestras de entrenamiento necesarias. Una técnica utilizada con este fin es la transferencia de aprendizaje (que emplea el aprendizaje previo). La inicialización guiada por PBM también puede hacerse con el aprendizaje autosupervisado (un método intermedio entre el aprendizaje supervisado y el no supervisado), donde se enseña a las redes neuronales profundas a diferenciar entre representaciones utilizando pseudoetiquetas (etiquetas obtenidas aplicando un modelo de etiquetado a datos no etiquetados). Esto puede ser útil en la modelización general, ya que se pueden predecir determinados subprocesos (variables intermedias) para, a continuación, preentrenar modelos de aprendizaje automático. * **Requisito**: Datos sintéticos del modelo mecanicista para el entrenamiento. * **Posibles ventajas**: Menor necesidad de observación, mayor precisión. 3. **Diseño de arquitecturas guiado por PBM**: el objetico es hacer más interpretables las arquitecturas de caja negra. Las redes neuronales, en comparación con otros métodos de ML, son especialmente útiles para las adaptaciones que incorporan conocimientos físicos a su arquitectura. Por ejemplo, se puede dar un significado físico a determinadas neuronas y conexiones entre neuronas. Otro ejemplo es basar la elección de la función de activación en el conocimiento de los procesos físicos [#Karpatne2017]. Un uso de esta técnica es que se puede extraer información con significado físico de una red neuronal. El enfoque de añadir información basada en PBM a la arquitectura de redes neuronales también se utiliza en la resolución de ecuaciones diferenciales. * **Requisitos**: Variables/procesos físicos intermedios, o restricciones duras, o interrelaciones de tareas, o distribuciones previas informadas. * **Posibles ventajas**: Interpretabilidad, coherencia física, mejora de la generalización, reducción del espacio de búsqueda de soluciones, mejora de la precisión. 4. **Modelos híbridos PBM-ML**: estos modelos contienen dos modelos en uno: un modelo de PBM y un modelo de ML conectado a él. Un ejemplo fácil de entender es sustituir parte de un modelo PBM por un módulo ML [#Karpatne2017]. * **Requisito**: modelo mecanicista operativo durante el tiempo de ejecución. * **Posibles ventajas**: mayor precisión. ## Dos técnicas Para finalizar, vamos a dar algunos detalles de un par de técnicas que se han nombrado en las secciones anteriores, y que pueden servir de ejemplo más concreto de los avances realizados: Una técnica que ya se utiliza con relativa frecuencia son las **Redes Neuronales Informadas por la Física** (PINNs, [#Raissi2017a], [#Raissi2017b], [#Raissi2019]). Un PINN resuelve una tarea de aprendizaje supervisado bajo la condición de respetar las leyes físicas descritas por EDPs no lineales. Se pueden utilizar dos métodos con PINN: 1. Resolver EDPs (dados ciertos valores fijos de los parámetros del modelo, qué se puede decir sobre el estado desconocido y oculto del sistema), y 2. Descubrir EDPs (encontrar los valores de los parámetros del modelo que describen mejor los datos observados, por lo que es un problema inverso). Una diferencia entre el método PINN y los trabajos anteriores que combinaban PBM con ML, es que los métodos anteriores utilizaban ML de una manera aislada. Mediante el desarrollo de funciones de activación a medida y funciones de pérdida para los operadores diferenciales, se puede obtener una comprensión de la estructura de las partes de ML. Una técnica importante que se utiliza en este marco es la [Diferenciación Automática](https://www.cs.us.es/~fsancho/Blog/posts/Diferenciacion_Automatica/): una familia de técnicas de diferenciación que utiliza la estructura básica de los algoritmos computacionales, vistos como grafos de computación, para obtener derivadas exactas de forma no simbólica haciendo uso de la regla de la cadena. La diferenciación automática es rápida, emplea código eficiente, no tiene errores de redondeo y puede calcular eficazmente derivadas de orden superior. Según [#Raissi2019], los PINN pueden entrenarse con relativamente pocos datos, lo que suele ocurrir en los problemas de modelización científica del mundo real. La razón subyacente para ello es que las soluciones que no se ajustan a las ecuaciones basadas en la física se penalizan en la función de pérdida. El PINN, concretamente, tiene un término residual de la ecuación matemática del PBM en la función de pérdida [#Cuomo2022]. !!!side:14 Técnicas como el muestreo cuasi Monte-Carlo y el paso temporal de Runge-Kutta pueden ayudar en este caso para construir modelos de tiempo discreto. Uno de los retos de las PINN de tiempo continuo es que se necesita un gran número de puntos colocados para hacer cumplir las restricciones basadas en la Física en todo el dominio espaciotemporal. Esto es importante en los problemas de mayor dimensión, ya que el número de puntos necesarios aumenta exponencialmente con el incremento de la dimensionalidad [14]. ![](img/Xtfc_scheme.png width=80%) !!!side:15 Ver [Scientific Machine Learning](https://chrisrackauckas.com/research.html) de Chris Rackauckas. En [#Rackauckas2020] se introdujeron las **Ecuaciones Diferenciales Universales** (**UDE**) para SciML. Una UDE es una ecuación diferencial con aproximadores universales incorporados. En ese trabajo, los autores construyeron y proporcionaron un conjunto de herramientas modular (basado en código) para el enfoque UDE que permite resolver una amplia gama de problemas científicos basados en ecuaciones diferenciales [15]. ![](img/UDE.jpg width=300px) Según los autores, la ventaja de su enfoque sobre el enfoque PINN es que incorpora técnicas numéricas de PBM que han dado lugar a soluciones estables y eficientes. Para modelos rígidos (modelos que necesitan un paso de tiempo pequeño incluso cuando la curva/superficie de respuesta es muy suave) el enfoque PINN es computacionalmente intensivo. Incluso con algunos enfoques, como los PINN de modelos discretos antes mencionados, que superan en parte este reto, una limitación sigue siendo que el software PINN no permite combinar automáticamente el proceso de formación con las técnicas de resolución eficientes disponibles. (#) Bibliografía [#Baker2019]: Baker, Nathan, Frank Alexander, Timo Bremer, Aric Hagberg, Yannis Kevrekidis, Habib Najm, Manish Parashar, et al. 2019. [Workshop Report on Basic Research Needs for Scientific Machine Learning: Core Technologies for Artificial Intelligence](https://doi.org/10.2172/1478744). [#Blöschl1995]: Blöschl, G., and M. Sivapalan. 1995. [Scale Issues in Hydrological Modelling: A Review](https://doi.org/https://doi.org/10.1002/hyp.3360090305). Hydrological Processes 9 (3-4): 251-90. [#Bzdok2015]: Bzdok, Danilo, Naomi Altman, and Martin Krzywinski. 2018. [Statistics Versus Machine Learning](https://doi.org/10.1038/nmeth.4642). Nature Methods 15 (4): 233-34. [#Cuomo2022]: Cuomo, S., Di Cola, V.S., Giampaolo, F. et al. [Scientific Machine Learning Through Physics-Informed Neural Networks: Where we are and What’s Next](https://doi.org/10.1007/s10915-022-01939-z). J Sci Comput 92, 88 (2022). [#Dirac1929]: Dirac, Paul Adrien Maurice. [*Quantum mechanics of many-electron systems*](https://royalsocietypublishing.org/doi/pdf/10.1098/rspa.1929.0094). Proceedings of the Royal Society A, 123(792):714-733, 1929. [#Goodfellow2016]: Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. 2016. [Deep Learning](https://www.deeplearningbook.org/). MIT Press. [#Iwema2023]: Iwema, Joost. [Scientific Machine Learning](https://sciml.wur.nl/reviews/sciml/sciml.html). 2023. [#Karniadakis2021]: Karniadakis, George Em, Ioannis G. Kevrekidis, Lu Lu, Paris Perdikaris, Sifan Wang, and Liu Yang. 2021. [Physics-Informed Machine Learning](https://doi.org/10.1038/s42254-021-00314-5). Nature Reviews Physics 3 (6): 422-40. [#Karpatne2017]: Karpatne, Anuj, Gowtham Atluri, James H. Faghmous, Michael Steinbach, Arindam Banerjee, Auroop Ganguly, Shashi Shekhar, Nagiza Samatova, and Vipin Kumar. 2017. [Theory-Guided Data Science: A New Paradigm for Scientific Discovery from Data](https://doi.org/10.1109/TKDE.2017.2720168). IEEE Transactions on Knowledge and Data Engineering 29 (10): 2318-31. [#Karpatne2019]: Karpatne, Anuj, Imme Ebert-Uphoff, Sai Ravela, Hassan Ali Babaie, and Vipin Kumar. 2019. [Machine Learning for the Geosciences: Challenges and Opportunities](https://doi.org/10.1109/TKDE.2018.2861006). IEEE Transactions on Knowledge and Data Engineering 31 (8): 1544-54. [#Ley2022]: Ley, Christophe, R. Kyle Martin, Ayoosh Pareek, Andreas Groll, Romain Seil, and Thomas Tischer. 2022. [Machine Learning and Conventional Statistics: Making Sense of the Differences](https://doi.org/10.1007/s00167-022-06896-6). Knee Surgery, Sports Traumatology, Arthroscopy 30 (3): 753-57. [#Rackauckas2020]: Rackauckas, Christopher, Yingbo Ma, Julius Martensen, Collin Warner, Kirill Zubov, Rohit Supekar, Dominic Skinner, Ali Ramadhan, and Alan Edelman. 2020. [Universal Differential Equations for Scientific Machine Learning](https://doi.org/10.48550/ARXIV.2001.04385). [#Raissi2017a]: Raissi, Maziar, Paris Perdikaris, and George E. Karniadakis. 2017a. [Physics Informed Deep Learning (Part I): Data-Driven Solutions of Nonlinear Partial Differential Equations](http://arxiv.org/abs/1711.10561). [#Raissi2017b]: Raissi, Maziar, Paris Perdikaris, and George Em Karniadakis. 2017b. [Physics Informed Deep Learning (Part II): Data-Driven Discovery of Nonlinear Partial Differential Equations](https://arxiv.org/abs/1711.10566). [#Raissi2019]: Raissi, M., P. Perdikaris, and G. E. Karniadakis. 2019. [Physics-Informed Neural Networks: A Deep Learning Framework for Solving Forward and Inverse Problems Involving Nonlinear Partial Differential Equations](https://doi.org/https://doi.org/10.1016/j.jcp.2018.10.045). Journal of Computational Physics 378: 686-707. [#Thuerey2021]: Thuerey, Nils, Philipp Holl, Maximilian Mueller, Patrick Schnell, Felix Trost, and Kiwon Um. 2021. [Physics-Based Deep Learning](https://physicsbaseddeeplearning.org). [#Weinan2011]: Weinan E. [*Principles of multiscale modeling*](https://web.math.princeton.edu/~weinan/papers/weinan_book.pdf). Cambridge University Press, 2011. [#Weinan2020]: Weinan E, Jiequn Han, Linfeng Zhang. [Integrating Machine Learning with Physics-Based Modeling](https://arxiv.org/abs/2006.02619). arXiv. 2020. [#Willard2022]: Willard, Jared, Xiaowei Jia, Shaoming Xu, Michael Steinbach, and Vipin Kumar. 2022. [Integrating Scientific Knowledge with Machine Learning for Engineering and Environmental Systems](https://doi.org/10.1145/3514228). ACM Comput. Surv. (insert ../menu.md.html here)