Externalización del conocimiento en comunidades mediante tecnología wiki y ontologías

Ciclo de Nonaka y takeuchi

Ciclo de Nonaka y takeuchi
En el Fourth Metadata and Semantics Conference (MTSR 2010) presentamos el el trabajo Social Ontology Documentation for Knowledge Externalization  La idea, en el contexto del tratamiento del conocimiento en organizaciones, es ayudar a externalizar (hacer explícito y público) el conocimiento y el perfil de lo que la ontología representa para la empresa (por ejemplo, los casos de uso y las experiencias con conceptos y herramientas en biotecnología o genética). Para hacer eso, en primer lugar debemos proyectar el ciclo de Nonaka y Takeuchi de creación de conocimiento en Empresas (figura de arriba) donde el conocimiento es un activo importante (aunque usualmente intangible). La proyección contempla ciertas actividades de Ingeniería Ontológica, como se ve en la figura:

Proyección semántica del ciclo de Nonaka y Takeuchi

Para que esta proyección implique una verdadera externalización del conocimiento, se necesita una herramienta que permita semantizar lo que los usuarios aporten sobre el conocimiento. Con ese objetivo, presentamo el prototipo OntoxicWiki un plugin para Protégé que permite documentar y reportar casos de uso de ontologías en comunidades de práctica, y que permita ejecutar el ciclo:

El ciclo usando Ontoxicwiki

Ontoxicwiki presenta en formato wiki la posibilidad de documentación social de la ontología, de manera que los usuarios contribuyen en formato wiki comentando caracterísiticas de los elementos de ésta, así como describiendo los casos de uso. Sin embargo, realmente están poblando una ontología de documentación, OSMV, una extensión social de Ontology Metadata Vocabulary para contemplar la documentación mediante wiki. Lo aportado por la comunidad en la wiki se integra de manera natural en la ontología de la empresa expandida con OSMV (gracias a que OntoxicWiki es plugin de Protégé).

Finalmente, debo hacer notar que OntoxicWiki no es una wiki semántica aunque lo parezca, es otra cosa: una tecnología wiki para documentar socialmente ontologías.

Ontologías sobre seguridad: reclama tu información y comprende cómo la manejan

screenshot de Paella

Supongamos que una agencia de seguridad gubernamental decide -con buen criterio- transformar su información en conocimiento usando tecnologías de la Web Semántica. Una de las fases más importantes será el diseño y construcción de una ontología sobre su dominio. En esa ontología, conceptos como identidad o amenaza deberían estar especificados de tal forma que no supongan un peligro para nadie (ni para ciudadanos ni para el estado). Una mala especificación podría, por ejemplo, llevar a deducir incorrectamente que un ciudadano es un delincuente internacional, o que ciertas personas potencialmente peligrosas tienen acceso a bases de datos confidenciales. Este problema tiene varios niveles de tratamiento, desde la corrección de los problemas de diseño de la ontología hasta la localización de relaciones entre las clases no pretendidas.

Sin embargo, el desafío de asegurarnos que la ontología de seguridad es segura es mucho más complejo de lo que parece. Aunque muchos de los defectos que se encuentran provienen de  pensar -inconscientemente- en esquemas de bases de datos en vez de en ontologías (con el mundo abierto), la realidad es que es difícil encontrar algunas de las relaciones no deseadas. Téngase en cuenta que ciertas relaciones no deseadas no son posibles en el mundo real, pero son consistentes con la ontología, y por tanto los razonadores automáticos no son capaces de distinguirlas de las correctas. De ahí que sea dificil depurar esas anomalías. Es aquí donde entra en juego Paella.

Paella es un plugin para Protégé que ha programado Gonzalo (como parte sustancial de su tesis) que ha adaptado con éxito la interpretación mereotopológica de las relaciones conceptuales que presentamos en el Congreso Europeo de la Web Semántica de 2006. Con Paella cualquiera puede comprender las relaciones ocultas (algunas no pretendidas) entre las clases de una ontología, bajo la idea: dos conceptos están conectados si existe un modelo de la ontología donde tienen elementos comunes. Bajo esa premisa, y a golpe de ratón, el usuario puede bosquejar una solución de cualquier anomalía que detecte. Y lo que es más importante, el usuario puede entender cómo la ontología trata sus datos, su información. Es más, herramientas de este tipo permiten la comprensión de los datos que usan las administraciones. Incluso, a la adopción de estrategias de OpenData al facilitar su análisis a los no expertos en ontologías.

En el Tercer Congreso Internacional  sobre Inteligencia Computacional en Seguridad en Sistemas de Información (CISIS 10) presentaremos una trabajo (Mereotopological Analysis of Formal Concepts in Security Ontologies, que aparecerá en un volumen de la serie Advances in Intelligent and Soft Computing de Springer) sobre cómo aplicar Paella a ontologías de seguridad, e ilustramos su utilidad detectando algunas anomalías en ontologías de seguridad, potencialmente peligrosas. Por ejemplo,la ilustrada en la siguiente imagen: en la ontología estudiada, una tarjeta de crédito es potencialmente una identificación válida para entrar en recintos militares:

Una anomalía

Fusionando ontologías mediante razonadores automáticos

imagen de Amsterdam utilizada en la página de los proceedings de Ontose 2009

La contribución que hemos presentado en el Workshop on Ontology, Conceptualization and Epistemology for Information Systems, Software Engineering and Service Science (celebrado en Amsterdam este año) titulada On the Use of Automated Reasoning Systems in Ontology Integration cierra la aplicación de la definición formal de ontología robusta que presentamos en el congreso EUROCAST 2005. De esta forma, hemos justificado plenamente que se puede especificar, en términos de lógica computacional, una definición práctica de ontología estable, que se puede determinar con métodos automáticos, y sobre la que se pueden considerar las gestiones usuales de mantenimiento de ontologías (extensión -bottom-up y top-down- revisión y fusión).

Sistemas multiagente para gestionar débilmente el contenido en redes sociales móviles

Imagen de la página principal del congreso KES AMSTA 2009

El contenido de la charla que comenté en la entrada anterior se complementa con nuestro artículo Toward Semantic Mobile Web 2.0 through multiagent systems, presentado en 3rd International KES Symposium on Agents and Multi-agent Systems – Technologies and Applications donde se hace una descripción general de Mowento y de las decisiones de diseño que hemos tomado.

Web semántica, Sistemas multiagente y redes sociales móviles

Logo de las jornadas

El 29 de Junio impartí una charla en las jornadas de difusión de la tecnología multiagente en la Universidad de Sevilla sobre cómo combinamos esos tres elementos en Mowento. Las transparencias que usé las he almacenado en mi cuenta de Slideshare. Las citadas jornadas fueron una extraordinaria oportunidad para conocer no sólo al resto de los invitados, sino a otros investigadores en el área de sistemas multiagente en la Universidad. Es curioso como, estando tan cerca en investigación, estamos tan lejos en trato, pues ni siquiera nos conocíamos. Las charlas fueron interesantes y si demostraron algo es que la aplicabilidad de la tecnología de agentes es muy amplia. Personalmente creo que la discusión sobre la especificación del concepto de agente fue extraordinariamente interesante. Posturas tan lejanas a la mía como la que Carles Sierra defendía, cercana a la indefinición que causa la autonomía eran, en cierto sentido, coincidentes cuando pensamos en que la especificación de un agente limita el concepto (aunque, a la vez, proporciona la noción de verificación).

Otra de las cuestiones que quedaron patentes en las intervenciones es que la modelización como agentes no implicaba, en principio, la implementación de un sistema multiagente. El mero hecho de modelizar rasgos de manera computacional-matemática-lógica proporcionaba formas de implementación en sistemas clásicos (es decir, el proceso de desagentificación produce de manera natural programas no autónomos). Esta forma de aplicar la ciencia de los agentes racionales es muy prometedora en ámbitos donde la recitencia a usar sistemas multiagente (impredecibles en muchos casos) limita la aplicabilidad de resultados.

Aprendiendo propiedades mediante el Análisis Formal de Conceptos

Un retículo de conceptos

Nos han aceptado una contribución en el Workshop on Concept Lattices 2008 en la que presentamos, mediante una regla de inferencia que hemos diseñado (y que es algo así como una traducción lógica del problema de la proyección de variedades algebraicas en característica positiva), un método para aprender (definir) un atributo nuevo a partir de los atributos presentes en el Análisis Formal de Conceptos (AFC). La idea -y su justificación- son completamente originales. Curiosamente, para ilustrar el artículo, hemos experimentado con propiedades de grafos, obteniendo como resultado -conjetura aprendida, pues las definiciones son locales, necesitamos verificarlas mediante una demostración, claro- un antiguo resultado de teoría de grafos de Gliviack.

Las limitaciones del método: debemos intuir que la definición es una combinación booleana de los atributos existentes. La ventaja: proporciona conjeturas que, si el contexto es representativo, son prometedoras. Téngase en cuenta que el AFC es una potentísima herramienta para la minería de ontologías, y que está sustentada en una teoría matemática sobre la que confrontar la validez de los procedimientos.

Aunque en el trabajo no lo hemos remarcado, la traducción algebraica de las propiedades del contexto formal nos ha permitido conseguir una compilación automática de todo el conocimiento (de carácter proposicional) del contexto, más allá de la caracterización de las implicaciones válidas a partir de bases stem (o, desde el punto de vista de cálculo, a partir de las reglas de Amstrong). Este resultado tiene una importancia que intuimos aunque, por ahora, no sabemos atisbar su alcance. El dilema es: ¿Puede ser más eficiente la codificación algebraica y el uso de bases de Gröbner que el uso de las técnicas clásicas en Análisis Formal de Conceptos? El uso de las bases de Gröbner como herramienta de razonamiento automático en bases de conocimiento de relativo tamaño ya ha sido demostrado en multitud de trabajos y aplicaciones (por ejemplo, véase éste). Queda por observar su comportamiento ante grandes bases de datos con relativamente pocos atributos, como las que se tratan con el AFC.

Semántica emergente: principios básicos para el tratamiento del conocimiento en comunidades Web

Imagen que describe las capas semánticas usadas en semántica emergente

Estos últimos días he estado investigando sobre varios problemas de inteligencia colectiva relacionados con nuestro proyecto, y he recordado algunos principios sobre semántica emergente que se enunciaban en el artículo Emergent Semantics Principles and Issues:

  1. Principle 1: Agreements as a Semantic Handshake Protocol.
  2. Principle 2: Agreements emerge from negotiations
  3. Key Principle 3: Agreements emerge from local interactions

y el título de una sección: Agreements are dynamic and self-referential approximations. Resulta que es exactamente lo que he observado cuando he seguido durante unos días algunas comunidades Web de distinta índole. Y este hecho debería ser aprovechado para monitorizar y organizar la ontología implicita (fundamentalmente comunicacional) que emergen en esas redes, y no específicamente las ontologías por consenso (donde se pueden aplicar técnicas de minería de datos y medidas de similaridad). Dicho de otro modo, en nuestro proyecto intentaremos monitorizar el crecimiento de ciertos aspectos de semántica oculta que pueden ser muy interesantes a la hora de diseñar buscadores ad-hoc, semánticos, para la plataforma. Creo que es factible como proyecto de innovación, pero, desde el punto de vista del lanzamiento de nuestra plataforma no lo es tanto (pues es costoso en tiempo y no andamos sobrados de éste).

Una posible solución para la escalabilidad del razonamiento automático con ontologías

explicación gráfica de una fórmula en lógica descriptiva

En lógica matemática, una teoría T es una extensión conservativa de T’ cuando toda consecuencia lógica de T en el lenguaje de T’ es demostrable también en T’. En el campo de la Ingeniería Ontológica, la aplicación de esta noción a la hora de construir extensiones ontológicas permitiría desarrollar herramientas de razonamiento contextual con el fin de pensar en las ontologías como un conjunto de módulos.

De hecho, se puede pensar que la teoría de E-conexiones desarrolladas para el razonamiento automático es una forma práctica de pensar en ese tipo de módulos. En un artículo que vamos a enviar, hemos desarrollado un método para retraer de manera conservativa las teorías, de forma que la teoría (ontología) original sea una extensión conservativa de la que obtenemos (que se localiza en un lenguaje concreto). Este primer método está diseñado para la lógica proposicional, y esperamos extenderlo para sublenguajes de lógica descriptiva susceptibles de ser usados en el razonamiento con taxonomías o folksonomías. De hecho, disponemos de una aplicación del método para resolver problemas en el Análisis Formal de Conceptos, la teoría sobre la conexión de Galois establecida entre objetos y atributos.

Ficción cartográfica: el engaño de Google Earth, variedades de Riemann y el negocio de la imagen por satélite

Señalización en satélite de dos matanzats durante el genocidio de Ruanda

La deficiencia (y el peligro) fundamental de las fotos por satélites es que están desprovistas de semántica. El proyecto de la Web Semántica Geoespacial pretende paliar esa ausencia de interpretación. Esta idea es el corazón de la conferencia a la que asistí ayer en el evento zemos98. Fue una interesantísima conferencia de Lisa Parks donde criticó ferozmente, argumentándolo con ejemplos, el negocio y el movimiento (muchas veces con motivaciones espúreas) en torno a los satélites, la tecnología y las fotografías obtenidas. En cierto modo, complementa a la que Jean Oliver impartió en Inclusiva-Net y que comenté en esta entrada. Este último se centró en la cartografía, y Lisa Parks en la tecnología de las imágenes proporcionadas por los satélites.
Por ejemplo, la imagen que presento en la cabecera de este post se puede intuir que representa una selva africana. Pero si no informo que lo que marca realmente son dos lugares donde ocurrieron matanzas durante el genocidio de Ruanda (los dos círculos sombreados de verde) y el impacto sobre la vegetación de éste, quedaría desprovista completamente de interés. La he enlazado desde el portal de estudios de genocidios de la Universidad de Yale. Es esa ausencia de interpretación el gran peligro: puede ser malinterpretada intencionadamente con fines políticos, criminales, económicos (véase cómo ha conseguido una famosa compañía de comida rápida dejar su huella en Google Earth), etc.

el logo de KFC visto desde Satélite

En la conferencia se presentaron imágenes más realistas donde, mediante información asociada, se detectaban fosas comunes en la antigua Yugoslavia, en Sbrenica (fotografías que EEUU, “inexplicablemente”, tardó en interpretar). Una de las cuestiones que planteó, que me resulta tremendamente interesante, es porqué las imágenes por satélite deben estar monopolizadas por corporaciones e instituciones que las usan de acuerdo a intereses particulares, cuando están fotografiando nuestros espacios públicos y nuestra vida diaria a una resolución que es, realmente, una intromisión. Es decir, en nuestro contexto, ¿Dónde está la Web 2.0 cuando se la necesita?

Otra cuestión que planteó, muy interesante y que ya conocía, es la mentira que representa, para muchas utilidades, Google Earth. Las fotos de satélite que usa están destemporizadas, por lo que representan un mosaico de la tierra completamente inexacto y susceptible, por presiones gubernamentales, a ser incompatibles con la situación actual de ciertos lugares. En la sesión de preguntas, un oyente expuso el ejemplo de la manipulación en las imágenes de Google Earth sobre un lugar de la costa canaria que ha sido urbanizado salvajemente.

imágenes a las que se hace referencia en la denuncia

Evidentemente, este tipo de cuestiones rebasan el ámbito de este blog, pero hay una cuestión relacionada muy interesante, sugerida por este hecho, y que podría ser muy útil. Lo que en realidad dijo Lisa Parks es que las imágenes de Google Earth siempre son antiguas, y el usuario no puede controlar su antigüedad. Por otro lado, los satélites encargados de esas fotografías están constantemente obteniendo imágenes. Para un matemático, la única posible representación de esas imágenes de manera fiable es mediante un espacio fibrado, o, creo que con mayor exactitud, una superficie de Riemann (la obtenida a partir de la función compleja raíz cuadrada, o del logaritmo).

gráfica de la superficie de Rieman asociada  a la raíz cuadradaotra imagen de la misma superficiie
De esa forma cualquier punto de la tierra tiene asociado una fibra de fotografías y las huellas fotográficas de los satélites nunca formarían un ciclo (en la segunda imagen, la fibra consistiría en cortar a perpendicular al plano trazada desde el punto de interés con la superficie mostrada). Un proyecto muy interesante sería la construcción de un portal donde se representara esa estructura, mostrando la fotografía del entorno buscado dentro de esa variedad y en un momento concreto (en las variedades de Riemann, un entorno es difeomorfo a un entorno del plano real, luego es posible). Este portal representaría un competidor muy fuerte para Google Earth dentro del oscuro negocio de la imagen por satélite, si para el cliente es muy importante la dimensión temporal de la información. Por supuesto, para que la interpretación de las imágenes sea fiable, sería necesario asociar a los distintos tipos de tags utilizados una ontología geográfica adecuada.