**IAIC** ¿Pueden los LLM realmente razonar y planificar?
Traducción de [Can LLMs Really Reason and Plan?](https://cacm.acm.org/blogs/blog-cacm/276268-can-llms-really-reason-and-plan), de Subbarao Kambhampati
![](.\img\Subbarao.jpg align="left")Los Modelos Grandes de Lenguaje (LLM) están saturando las olas del discurso de la IA, y podría decirse que con razón. Después de todo, su aparente omnisciencia aproximada y su forma casi perfecta son cosas que ninguno de nosotros ha previsto. La IA generativa en general, y los Modelos Grandes de Lenguaje en particular, son increíbles generadores de ideas. El fin de semana, el Wall Street Journal publicó [un estudio](https://www.wsj.com/tech/ai/mba-students-vs-chatgpt-innovation-679edf3b) que enfrentaba a GPT4 con un grupo de MBA en la generación de "ideas innovadoras" y, al parecer, ¡los MBA ni se acercaron! Esta aparente destreza de los LLM para generar ideas de forma convincente ha llevado a muchos a considerarlos esencialmente "IA-completa" y a atribuirles capacidades de razonamiento y planificación. Nada en la formación y el uso de los LLM parece sugerir ni remotamente que puedan realizar algún tipo de razonamiento basado en principios (que, como sabemos, a menudo implica una inferencia/búsqueda difícil desde el punto de vista computacional). Aunque se pueden desestimar las afirmaciones de los influenciadores de las redes sociales, los fundadores de nuevas empresas y los inversores de capital riesgo, es difícil ignorarlas cuando también hay artículos revisados por expertos en las principales conferencias que hacen afirmaciones similares. Los "Modelos Grandes de Lenguaje son *inserte-su-tarea-de-razonamiento*" se están convirtiendo casi en un meme. En cierto modo, esta tendencia es comprensible, ya que en la era de los LLM, la IA se ha convertido en una forma de ciencia natural sucedánea, impulsada por estudios observacionales de las capacidades de estos sistemas gigantescos. ![](.\img\LLMs.jpg align="right")Entonces, ¿son estos modelos de n-gramas con esteroides realmente capaces de planificar y razonar? En el verano de 2022, cuando quisimos responder mejor a esta pregunta, la mayoría de las afirmaciones sobre razonamiento eran todavía un tanto anecdóticas. Así que nos dispusimos a evaluar GPT3 en un conjunto de instancias de planificación derivadas de los dominios utilizados habitualmente en la [Competición Internacional de Planificación](https://www.icaps-conference.org/competitions/) (IPC), incluido el conocido *Mundo de Bloques*. [Nuestros resultados](https://arxiv.org/abs/2206.10498) fueron bastante contrarios a las afirmaciones anecdóticas sobre las capacidades de planificación de los LLM y, cuando los hicimos públicos, recibieron cierta atención en los círculos de IA. A principios de este año, con la amplia difusión pública de ChatGPT y, más tarde, de GPT4, se produjeron una serie de afirmaciones adicionales, incluso en artículos de referencia, sobre la capacidad de los LLM para razonar y planificar. Así que decidimos [repetir nuestras pruebas tanto en GPT3.5 como en GPT4](https://arxiv.org/abs/2305.15771). Los resultados iniciales mostraron que había cierta mejora en la precisión de los planes generados de GPT3 a GPT3.5 y de GPT3.5 a GPT4, con GPT4 alcanzando un 30% de precisión empírica en el Mundo de Bloques (aunque todavía menor en otros dominios). A continuación, queríamos saber si la modesta mejora se debía a la mayor capacidad de recuperación aproximada o a que GPT4 realmente hacía/buscaba planes. Hagamos una pausa para señalar que nuestro interés aquí no es si los LLM pueden *fingir* razonamiento (dando respuestas correctas a tareas de razonamiento a partir de la memoria y la búsqueda de patrones), sino si *realmente* pueden razonar. Por supuesto, ver patrones en problemas de razonamiento no es algo que deba despreciarse. Al fin y al cabo, nuestro interés por dominarlo es lo que está detrás de gran parte de las matemáticas de "lucha callejera" (por ejemplo, el libro *Cómo resolverlo*, de Polya). Pero encontrar atajos aproximados sobre procedimientos de razonamiento demostrablemente correctos no equivale, obviamente, a hacer razonamientos -a menos que se tenga la capacidad de establecer formalmente que su corazonada es realmente correcta-. Es difícil decidir si un sistema (o un ser humano) está memorizando o resolviendo un problema desde cero, sobre todo a medida que los sistemas (o los seres humanos) se entrenan con *bancos de preguntas* cada vez más grandes. La mayoría de los instructores y entrevistadores son muy conscientes de este reto. Piensa en la infame pregunta de la entrevista *¿por qué son redondas las tapas de las alcantarillas?* Aunque la primera vez que se formuló pudo haber dado al entrevistador una idea de la capacidad de razonamiento analítico del candidato, ahora lo único que hace con alta probabilidad es confirmar si el candidato *se entrenó en los bancos de preguntas de la entrevista*. Teniendo en cuenta que los LLM no sufren algunas de las limitaciones normales de los humanos, como tener una vida aparte y, por tanto, no tener la inclinación de centrarse exclusivamente en la preparación del examen/entrevista durante largos periodos, queríamos comprobar si la mejora del rendimiento de GPT4 procede realmente de su capacidad de planificación. Una forma de hacerlo para las tareas de planificación es reducir la eficacia de la recuperación aproximada ofuscando los nombres de las acciones y los objetos del problema de planificación. Cuando hicimos esto para nuestros dominios de prueba, el rendimiento empírico de GPT4 cayó en picado, a pesar de que ninguno de los planificadores de IA estándar tiene problemas con este tipo de ofuscación. Como estos resultados se produjeron en plena efervescencia de la angustia por la Inteligencia Artificial y el riesgo existencial, no pudimos resistirnos a editorializar en tono irónico que si GPT4 alguna vez se vuelve rebelde, ¡se le puede frenar planteándole un simple problema de planificación! Dejando a un lado el humor, nada en nuestros estudios demuestra que GPT4 sea capaz de generar planes ejecutables de forma autónoma. Quizá no puedan planificar de forma autónoma directamente, pero ¿y si les ayudamos un poco? A grandes rasgos, existen dos técnicas populares para este tipo de ayuda. La primera, llamada *ajuste fino*, es bastante sencilla: se toma un LLM general y se ajusta en problemas de planificación (es decir, instancias y sus soluciones), con la esperanza de que posteriormente muestren un mejor rendimiento. Aunque nuestros limitados experimentos no mostraron ninguna mejora significativa a través del ajuste fino, es posible que con más datos de ajuste fino y esfuerzo, el rendimiento empírico pueda mejorar. Pero lo único que se consigue con este ajuste es convertir la tarea de planificación en una recuperación (aproximada) basada en la memoria. Esto no prueba que los LLM sean capaces de planificar. La segunda forma de mejorar el rendimiento de la planificación (y el razonamiento) es dar al LLM pistas/sugerencias sobre cómo puede mejorar su plan inicial. Las cuestiones cruciales aquí son (a) si esta retroalimentación es manual o automatizada (b) quién certifica la corrección de la respuesta final y (c) si las sugerencias inyectan conocimiento adicional del problema o simplemente exhortan al LLM a intentarlo de nuevo *pensando con más cuidado*, por así decirlo. El enfoque más limpio, que ya hemos probado en nuestro trabajo, consiste en dejar que un verificador externo del plan basado en modelos realice las indicaciones y certifique la corrección de la solución final. Por el contrario, la metodología más popular, con diferencia, es hacer que el humano en el bucle indique al LLM, lo que se conoce como *indicación de cadena de pensamiento (CoT)*. El problema con CoT es que es muy susceptible al [efecto Clever Hans](https://en.wikipedia.org/wiki/Clever_Hans), en el que el LLM simplemente genera conjeturas, y es el humano en el bucle, con el conocimiento de las soluciones correctas frente a las incorrectas, el que dirige al LLM, incluso si no se lo propuso deliberadamente. El mérito y la culpa de garantizar la precisión, si la hay, recaen directamente en la persona que está en el bucle. La pertinencia de un marco de este tipo es cuestionable cuando la persona que está en el bucle no conoce (o no puede verificar) la respuesta al problema de razonamiento/planificación (y de ahí mi propuesta irónica de un bosque de pensamientos confusos). Una variación del segundo enfoque consiste en hacer que el propio LLM *critique* las conjeturas que genera y se automejore iterativamente. Aunque algunos artículos parecen jactarse de la capacidad de *automejora* de los LLM, la plausibilidad de tal afirmación depende de la creencia de que los LLM son mejores verificando sus soluciones que generándolas. Aunque nunca se justifica explícitamente, la suposición se basa en analogías con los humanos o en guiños indirectos a argumentos de complejidad computacional. Los humanos a veces muestran la capacidad de corregir sus propias conjeturas erróneas con la autocrítica; no parece haber base para esa suposición en el caso de los LLM. Y aunque para muchas tareas computacionales (por ejemplo, las de la clase NP), la verificación suele ser de menor complejidad que la generación, ese hecho no parece especialmente relevante para los LLM que generan (aproximadamente recuperan) conjeturas, en lugar de resolver realmente el problema con garantías. Aunque lo anterior cuestiona las afirmaciones de que los LLM son capaces de planificar/razonar, no pretende implicar que los LLM no tengan ningún papel constructivo que desempeñar en la resolución de tareas de planificación/razonamiento. En particular, su asombrosa capacidad para generar ideas y posibles soluciones candidatas, aunque sin garantías sobre esas conjeturas, puede seguir siendo valiosa en las llamadas configuraciones *LLM-Módulo*, junto con planificadores basados en modelos, solucionadores externos o humanos expertos en el bucle. El truco está en reconocer que los LLM están generando respuestas potenciales que serán comprobadas/afinadas por solucionadores externos, y evitar atribuir capacidades de razonamiento autónomo a los LLM. De hecho, los marcos de orquestación de LLM, como el popular [LangChain](https://python.langchain.com/docs/get_started/introduction.html), se entienden mejor de esta manera. El lector escéptico podría preguntarse ahora *¿pero qué pasa con todos esos artículos en conferencias de alto perfil sobre IA que afirman mostrar capacidades de planificación de los LLM?*. Para analizar esas afirmaciones, necesitamos entender primero que resolver tareas de planificación requiere (a) tener el conocimiento necesario del dominio de planificación -las acciones y sus precondiciones, efectos; las recetas jerárquicas estándar (por ejemplo, esquemas de reducción de tareas en la planificación HTN), casos/planes pasados, etc., y (b) ser capaz de ensamblar este conocimiento de planificación en un plan ejecutable que se ocupe de cualquier interacción submeta/recurso. La primera puede denominarse adquisición de conocimientos y la segunda razonamiento/planificación. Muchos de los artículos que reivindican las capacidades de planificación de los LLM acaban confundiendo el conocimiento general de planificación extraído de los LLM con planes ejecutables. Cuando todo lo que buscamos son planes abstractos, como "planes de boda", sin intención de ejecutar dichos planes, es fácil confundirlos con planes ejecutables completos. De hecho, nuestro examen detallado de varios trabajos que reivindican las capacidades de planificación de los LLM sugiere que o bien trabajan en dominios/tareas en los que las interacciones subobjetivo pueden ignorarse con seguridad, o bien delegan la resolución de la interacción (razonamiento) a los humanos en el bucle (que, a través de repetidos avisos, tienen que "corregir" el plan). A veces, en dominios de sentido común, o con un ajuste suficientemente fino, la parte de "ensamblar" también puede obviarse por haber visto un caso que se corresponde bastante con el problema que hay que resolver. Sin estas suposiciones o mitigaciones, los planes que salen de los LLM pueden parecer razonables para el usuario profano y, sin embargo, dar lugar a interacciones y errores en el tiempo de ejecución. (Estos problemas quedan ilustrados en parte por [una noticia reciente](https://www.nytimes.com/2023/08/05/travel/amazon-guidebooks-artificial-intelligence.html) sobre la proliferación de libros de planificación de viajes, en su mayoría autoextraídos de los LLM, y la consiguiente decepción de los desprevenidos usuarios finales que los compran confundiéndolos con planes utilizables). El hecho de que los LLM sean a menudo buenos extrayendo conocimientos de planificación puede aprovecharse de forma provechosa. Como hemos argumentado en [nuestros últimos trabajos](https://arxiv.org/abs/2202.02886), los LLM pueden ser una rica fuente de modelos aproximados de la dinámica del mundo/dominio y de las preferencias del usuario, siempre que los humanos (y cualquier crítico especializado) en el bucle verifiquen y refinen esos modelos, y los entreguen a los solucionadores basados en modelos. Esta forma de utilizar los LLM tiene la ventaja de que los humanos sólo tienen que estar presentes cuando el modelo de dinámica/preferencias se está extrayendo y refinando, y la planificación real posterior puede dejarse en manos de algoritmos de planificación con garantías de corrección (módulo del modelo de entrada). Este marco presenta similitudes sorprendentes con los sistemas de IA basados en el conocimiento de antaño, en los que los LLM sustituían al "ingeniero del conocimiento". Dado el cambio bastante quijotesco y dogmático de la IA, que se aleja de los enfoques que aceptan el conocimiento del dominio por parte de expertos humanos, algo que lamenté en [La venganza de Polanyi](https://cacm.acm.org/magazines/2021/2/250077-polanyis-revenge-and-ais-new-romance-with-tacit-knowledge/abstract), ¡esta nueva tendencia a utilizar los LLM como fuentes de conocimiento puede verse como una forma de [vengar la venganza de Polanyi](https://www.youtube.com/watch?v=BmyB-4S9QuY)! En efecto, los LLM facilitan la obtención de conocimiento específico de un problema siempre que estemos dispuestos a relajar los requisitos de corrección de dicho conocimiento. A diferencia de los antiguos enfoques de ingeniería del conocimiento, los LLM ofrecen esto sin que parezca que estamos incomodando a ningún humano en concreto (en lugar de eso, ¡simplemente estamos aprovechando todo lo que los humanos se han dicho unos a otros!) Así que la pregunta del millón para las tareas de razonamiento es: *¿cómo harías la planificación si tienes a un sabelotodo temblón dispuesto a darte cualquier tipo de conocimiento?*. Los enfoques tradicionales del razonamiento/planificación basados en modelos que se centran en lo incompleto e incorrecto de dichos modelos (como la planificación model-lite, la planificación robusta) pueden tener una nueva relevancia. En resumen, nada de lo que he leído, verificado o hecho me da una razón convincente para creer que los LLM hacen razonamiento/planificación tal y como se entiende normalmente. Lo que hacen, armados con su formación a escala web, es una forma de recuperación aproximada universal que, como hemos argumentado, a veces puede confundirse con capacidades de razonamiento. Los LLM sobresalen en la generación de ideas para cualquier tarea, incluidas las que implican razonamiento, y como he señalado, esto puede aprovecharse eficazmente para apoyar el razonamiento y la planificación. En otras palabras, los LLM ya tienen suficientes capacidades sorprendentes de recuperación aproximada que podemos aprovechar provechosamente, por lo que no necesitamos atribuirles capacidades falsas de razonamiento/planificación. # Recursos adicionales: * Una charla reciente de 30 minutos que argumenta estas posiciones puede encontrarse en [este enlace](https://www.youtube.com/watch?v=BmyB-4S9QuY). * Un tutorial reciente que impartí en la Intl. Conference on Planning & Scheduling, [sobre el papel de los LLM en la planificación](https://www.youtube.com/playlist?list=PLNONVE5W8PCTKHkDbnKIjakw_xVpI4DjT), ofrece un estudio y un análisis más exhaustivos. * Las ponencias https://arxiv.org/abs/2305.15771, https://arxiv.org/abs/2206.10498, y https://arxiv.org/abs/2202.02886 describen los detalles de nuestro propio trabajo al que se hace referencia en el artículo. !!!note **Subbarao Kambhampati** es profesor de la Escuela de Informática e Inteligencia Artificial de la Universidad Estatal de Arizona y ex presidente de la Asociación para el Avance de la Inteligencia Artificial. Estudia problemas fundamentales de planificación y toma de decisiones, motivado en particular por los retos de los sistemas de IA con conciencia humana. Puedes seguirle en Twitter en la cuenta *@rao2z*.