El procesamiento del lenguaje natural no es el camino para obtener aplicaciones semánticas, según Peter Norvig

un montoón de letras desordenadas

Peter Norvig rebaja las espectativas sobre la búsqueda en lenguaje natural. De esta forma -no sé cuanto de corporativo hay en su opinión, pues ahora trabaja para Google- desinfla la noticia sobre el buscador Powerset sobre la Wikipedia. En cierto modo, estoy de acuerdo: si este buscador tiene éxito es porque se localiza en un repositorio de conocimiento organizado. La Wikipedia no es internet, y el proyecto DBpedia ya ha mostrado la potencialidad que tiene el tratamiento del conocimiento contenido en la Wikipedia. Sin embargo, fuera de la Wikipedia hay poca organización del conocimiento (salvo en proyectos como Freebase), lo que hace muy difícil que cualquier aproximación que use el lenguaje natural sea superior a la búsqueda actual con Google. Aunque, por otro lado, sí existen otras opciones, como el tratamiento de la búsqueda mediante el aprovechamiento de la anotación social por etiquetas o la navegación lingüística. La primera se enfrenta con la absoluta libertad de los usuarios en la etiquetación, lo que hace hace el problema muy difícil de resolver. La segunda consistiría en la navegación visual sobre la información con enlaces etiquetados mediante relaciones lingüísticas (como “sirve para”, “creado por”). Es decir, aprovechar (visualmente) RDF pero a alto nivel, donde los roles correspondieran a conexiones lingüísticas.

Una posible solución para la escalabilidad del razonamiento automático con ontologías

explicación gráfica de una fórmula en lógica descriptiva

En lógica matemática, una teoría T es una extensión conservativa de T’ cuando toda consecuencia lógica de T en el lenguaje de T’ es demostrable también en T’. En el campo de la Ingeniería Ontológica, la aplicación de esta noción a la hora de construir extensiones ontológicas permitiría desarrollar herramientas de razonamiento contextual con el fin de pensar en las ontologías como un conjunto de módulos.

De hecho, se puede pensar que la teoría de E-conexiones desarrolladas para el razonamiento automático es una forma práctica de pensar en ese tipo de módulos. En un artículo que vamos a enviar, hemos desarrollado un método para retraer de manera conservativa las teorías, de forma que la teoría (ontología) original sea una extensión conservativa de la que obtenemos (que se localiza en un lenguaje concreto). Este primer método está diseñado para la lógica proposicional, y esperamos extenderlo para sublenguajes de lógica descriptiva susceptibles de ser usados en el razonamiento con taxonomías o folksonomías. De hecho, disponemos de una aplicación del método para resolver problemas en el Análisis Formal de Conceptos, la teoría sobre la conexión de Galois establecida entre objetos y atributos.

Ficción cartográfica: el engaño de Google Earth, variedades de Riemann y el negocio de la imagen por satélite

Señalización en satélite de dos matanzats durante el genocidio de Ruanda

La deficiencia (y el peligro) fundamental de las fotos por satélites es que están desprovistas de semántica. El proyecto de la Web Semántica Geoespacial pretende paliar esa ausencia de interpretación. Esta idea es el corazón de la conferencia a la que asistí ayer en el evento zemos98. Fue una interesantísima conferencia de Lisa Parks donde criticó ferozmente, argumentándolo con ejemplos, el negocio y el movimiento (muchas veces con motivaciones espúreas) en torno a los satélites, la tecnología y las fotografías obtenidas. En cierto modo, complementa a la que Jean Oliver impartió en Inclusiva-Net y que comenté en esta entrada. Este último se centró en la cartografía, y Lisa Parks en la tecnología de las imágenes proporcionadas por los satélites.
Por ejemplo, la imagen que presento en la cabecera de este post se puede intuir que representa una selva africana. Pero si no informo que lo que marca realmente son dos lugares donde ocurrieron matanzas durante el genocidio de Ruanda (los dos círculos sombreados de verde) y el impacto sobre la vegetación de éste, quedaría desprovista completamente de interés. La he enlazado desde el portal de estudios de genocidios de la Universidad de Yale. Es esa ausencia de interpretación el gran peligro: puede ser malinterpretada intencionadamente con fines políticos, criminales, económicos (véase cómo ha conseguido una famosa compañía de comida rápida dejar su huella en Google Earth), etc.

el logo de KFC visto desde Satélite

En la conferencia se presentaron imágenes más realistas donde, mediante información asociada, se detectaban fosas comunes en la antigua Yugoslavia, en Sbrenica (fotografías que EEUU, “inexplicablemente”, tardó en interpretar). Una de las cuestiones que planteó, que me resulta tremendamente interesante, es porqué las imágenes por satélite deben estar monopolizadas por corporaciones e instituciones que las usan de acuerdo a intereses particulares, cuando están fotografiando nuestros espacios públicos y nuestra vida diaria a una resolución que es, realmente, una intromisión. Es decir, en nuestro contexto, ¿Dónde está la Web 2.0 cuando se la necesita?

Otra cuestión que planteó, muy interesante y que ya conocía, es la mentira que representa, para muchas utilidades, Google Earth. Las fotos de satélite que usa están destemporizadas, por lo que representan un mosaico de la tierra completamente inexacto y susceptible, por presiones gubernamentales, a ser incompatibles con la situación actual de ciertos lugares. En la sesión de preguntas, un oyente expuso el ejemplo de la manipulación en las imágenes de Google Earth sobre un lugar de la costa canaria que ha sido urbanizado salvajemente.

imágenes a las que se hace referencia en la denuncia

Evidentemente, este tipo de cuestiones rebasan el ámbito de este blog, pero hay una cuestión relacionada muy interesante, sugerida por este hecho, y que podría ser muy útil. Lo que en realidad dijo Lisa Parks es que las imágenes de Google Earth siempre son antiguas, y el usuario no puede controlar su antigüedad. Por otro lado, los satélites encargados de esas fotografías están constantemente obteniendo imágenes. Para un matemático, la única posible representación de esas imágenes de manera fiable es mediante un espacio fibrado, o, creo que con mayor exactitud, una superficie de Riemann (la obtenida a partir de la función compleja raíz cuadrada, o del logaritmo).

gráfica de la superficie de Rieman asociada  a la raíz cuadradaotra imagen de la misma superficiie
De esa forma cualquier punto de la tierra tiene asociado una fibra de fotografías y las huellas fotográficas de los satélites nunca formarían un ciclo (en la segunda imagen, la fibra consistiría en cortar a perpendicular al plano trazada desde el punto de interés con la superficie mostrada). Un proyecto muy interesante sería la construcción de un portal donde se representara esa estructura, mostrando la fotografía del entorno buscado dentro de esa variedad y en un momento concreto (en las variedades de Riemann, un entorno es difeomorfo a un entorno del plano real, luego es posible). Este portal representaría un competidor muy fuerte para Google Earth dentro del oscuro negocio de la imagen por satélite, si para el cliente es muy importante la dimensión temporal de la información. Por supuesto, para que la interpretación de las imágenes sea fiable, sería necesario asociar a los distintos tipos de tags utilizados una ontología geográfica adecuada.

Twine. Primeras sensaciones en la “ola metaweb”

logo de Twine Dos proyectos metaweb, Twine y Freebase pueden revolucionar la concepción de las redes sociales en la WWW en los próximos meses. Y no sólo por las inversiones que están consiguiendo, sino por el planteamiento revolucionario de sus objetivos. La filosofía de las dos es similar: combinar técnicas propias de la Web semántica con la filosofía Web 2.0 pero de manera transparente. Podríamos decir que Freebase será la Wikipedia (o el archive.org) semántico mientras que Twine sería un Facebook semántico. El objetivo de este post es este último.

portada de freebase

Si bien se ha extendido entre los usuarios y analistas la calificación “facebook semántico” para Twine, la realidad es mucho más sorprendente. No es un facebook semántico (aunque en estos momentos, debido a su fase de testeo, lo puede parecer por las conexiones y twines que se están creando), es una potentísima herramienta de autoorganización social y semántica, donde los usuarios no sólo crean ovillos (twines)ovillos (twines) nuevos de los temas que deseen, también el sistema etiqueta automáticamente, facilita mediante consejos las conexiones sociales entre los usuarios y agiliza de manera espectacular el seguimiento de los twines a los que nos hemos apuntado. Por tanto, aunque se puede considerar una forma de meta-web (una web donde podríamos vivir sin salir a la WWW) como lo pretende facebook, personalmente creo que desborda ese objetivo y, previsiblemente, los objetivos de facebook. Apunta mucho más lejos, a un acercamiento puramente emergente al grafo social semántico, donde la propia dinámica de la comunidad de usuarios, una vez se generen nuevas aplicaciones sobre Twine, permita enrollar en los correspondientes ovillos la ingente cantidad de información generada y que se genera sobre los temas de interés (por ejemplo, el propio conocimiento de Freebase).

Inclusiva-Net 2008. Segunda jornada

Cartek de Inclusiva-net 2008

Como en el post anterior, me voy a limitar a dar mi opinión y las ideas que me han sugerido las presentaciones de la segunda jornada.

  1. Inteligencia artificial y la semántica del espacio (virtual). Comenzamos la sesión de comunicaciones con la mía. Como la segunda comunicación prevista no se iba a presentar (por problemas del autor para pasar la frontera), tuve más tiempo para presentarla. Propuse tres líneas de investigación multidisciplinares (tratamiento del caos informacional, el uso de la Inteligencia Artificial para rediseñar el espacio virtualmente y la creación de agentes inteligentes geoinstanciados virtualmente). En general, lo que defendí fue la necesidad de autoorganización del conocimiento y el uso de agentes inteligentes para resolver cuestiones mal resueltas en metaversos como Second Life. Por último, planteé la construcción de mundos virtuales usando topologías no estándar, una vez que se pudiesen interpretar. (también metí la pata en las transparencias y dije que la limitación de apis de Google earth era 1000 al día, cuando en realidad creo que son 15000 por IP. Perdón).
  2. Tierra, Sentido y Territorio: la Ecuación Geosemántica (Diego Cerdá Seguel) [cancelada].
  3. Mapping Projections: Interactions between the spaces of the map (Sadhna Jain). Presentó un proyecto de enriquecerla representación del espacio con nueva información (dinámica).
  4. La sesión acabó con una interesantísima conferencia de Jean Oliver, Cartophictions, en la que muestra la evolución histórica de la cartografía, y cómo diversos factores sociales, económicos y políticos han influído en la representación de la tierra. Muestra numerosos ejemplos que incluyen la deslealtad con la fidelidad de Google Earth, y, por tanto, el problema persiste. Desde el punto de vista de la Representación del Conocimiento, lo que demuestra con su conferencia es que la representación deficiente, basadas en algunos casos en deficiencias físico-matemáticas de la proyección, se combina interesadamente con la aceptación social de mapas incorrectos para ilustrar ideologías políticas o económicas concretas (o religiosas o mitológicas). Es decir, existen casos en los que el cliente no desea la fidelidad de representación, pues desea utilizar intencionadamente una representación sesgada del mundo.

Agentes racionales “acotados”: dispositivos “listos” y gestión débil del conocimiento

Asistente del openofficeEn el proyecto en el que estamos embarcados hemos tomado una decisión transcendental: hemos agentificado diversos módulos importantes del sistema. Es una decisión arriesgada, inusual en proyectos Web 2.0 (e incluso en la Web Semántica), pues apostamos por una nueva tecnología de Inteligencia Artificial, y, en principio, parece innecesaria para nuestro proyecto. Delegar cierta parte de la gestión del conocimiento en un sistema de agentes racionales (SAR) es un desafío apasionante que nos obligará a investigar, innovar y no limitarse a desarrollar. Personalmente, creo que va a funcionar.
La decisión se basa en una serie de razones a favor (aunque también tiene algunas desventajas) que, como es habitual en este blog, enumero:

  • Agentificar parte de nuestro proyecto ha clarificado enormemente la arquitectura del sistema. De hecho, un simple análisis de los tipos de agentes nos ha llevado a conocer su ubicación, y la arquitectura social del SAR.
  • Delegar la gestión de cierto tipo de conocimiento en agentes nos ha inducido a pensar en interesantes cuestiones relativas a cómo debemos acotar el carácter deliberativo del agente. Obtener y trabajar con SAR “acotados” es algo habitual, lo que es relativamente nuevo es su aplicación intensiva en el campo de la Web Semántica.
  • Nos ha sugerido la necesidad de elaborar una teoría de agentes gestores de conocimiento, en el caso en el que la complejidad del conocimiento es escasa. Serán listos (smarts) y virtualizarán un dispositivo accesible por humanos.
  • Se ha clarificado enormemente la arquitectura social híbrida (humanos y agentes) del sistema, sus dependencias y la conciliación de sus comportamientos.

Ahora, las dificultades (para las que parece que ya hemos encontrado soluciones):

  • La monitorización de los recursos utilizados es muy difícil, debido a la autonomía de los agentes.
  • Precisamente, la propia autonomía de ciertos grupos de agentes puede comprometer la seguridad del sistema.
  • La teoría que debemos diseñar no debe ser sólo implementable, tiene que serlo  muy eficientemente.
  • La escalabilidad estaría comprometida si la cuestión anterior no está bien resuelta, pero también si la plataforma no soporta bien una población de agentes activos muy grande. La forma de solucionarlo depende de la adecuación lógico-computacional de la teoría de gestión de conocimiento, y el uso de varios contenedores.

Permeabilidad de los fenómenos Web 2.0 (III): La red social se instancia en dispositivos móviles

imagen de oneconnect de yahoo

Todos hemos leído textos sobre la importancia que en el futuro tendrán las redes sociales sustentadas por teléfonos móviles. Personalmente, cuando leo este tipo de trabajos soy muy escéptico, por varias razones (excesivo coste de las comunicaciones con este tipo de telefonía, la madurez de las redes de Internet y la escasa imaginación a la hora de relacionar estas últimas con el espacio físico). Sin embargo, algo se mueve. En un post anterior comenté que el navegador Flock suponía un primer intento de hacer navegación social. Ahora se anuncia una prometedora herramienta, un dispositivo móvil que puede hacer móvil las vivencias del usuario en sus redes sociales. Se trata de oneconnect de Yahoo. En esta entrada de mashable lo describen brevemente. La potencialidad del dispositivo es enorme. Por ejemplo, podría avisar de la vecindad física de un vecino virtual (un amigo de la misma red virtual), o de cualquier evento de los que se anuncian en Facebook, lo que hace que pueden emerger actividades muy distintas a las que uno lleva a cabo en Internet. Y lo más importante, se dispondrá de las APIs para que se generalice el uso de oneconnect por las redes.
Más precisamente, al hablar del futuro de este tipo de dispositivos, deberíamos cambiar “permeabilidad” por “impacto” de nuestras relaciones virtuales en nuestra forma de vivir en la ciudad.
Por último, una previsión: la Web geosemántica jugará un papel esencial en este tipo de proyectos. Los dispositivos sociales móviles se prestan a una geo-semantización sencilla, no muy expresiva (es decir, con ontologías poco expresivas) pero lo suficientemente atractiva (disponibilidad de interfaces usables en el móvil) para que hagan uso de sus aplicaciones de manera intensiva.

Primera aplicación de Web Semántica de la NASA

un logo de la NASALos desarrolladores de Pellet, Clark &Parsia, se hacen eco de la primera aplicación Web Semántica desarrollada en la NASA, que han desarrollado ellos mismos. Como en otras ocasiones, la NASA se convierte en pionera en la utilización de nuevos avances científicos. En este caso, la aplicación es un sistema experto de localización (donde tiene que integrar muchos tipos de información). Esta aplicación, junto con otras como Twine (que combina Web Semántica y Web 2.0) hacen preveer que las aplicaciones Metaweb se pueden popularizar pronto.