Mahalo, ¿El primer buscador Web 2.0?

Mahalo es un proyecto (en fase embrionaria) que pretende ser un buscador/directorio creado por los usuarios. En el espíritu ortodoxo de la Web 2.0, su responsable, J.M. Calacanis (cofundador de Weblogs Inc. y GM de Netscape) , afirma que el mejor buscador basado en indexación será el que la gente haga (C&P):

“It’s my belief that humans can play a significant role in the development of search results and we’re going to try to figure out exactly what that role is over the next couple of years. I am really looking forward to hearing what people think of the Alpha”

La apuesta parece muy seria (basta ver en la nota de prensa las empresas y fondos implicados en el proyecto). Se basa en el trabajo constante de guías, empleados que filtraran los recursos y componen la información, junto con las sugerencias que los usuarios enviarán. Se basa en una jerarquía de tipo top level (de todos modos, su objetivo declarado es construir el top de los 10000 términos de búsqueda), muy simple ahora mismo (evidentemente, llevan unos cinco meses). Véase la búsqueda de Iphone en Mahalo para hacerse una idea de cómo será el servicio. Es evidente que, por ahora, los sitios indexados estarán filtrados por autoridad, y me temo que las sugerencias de los usuarios no serán tenidas en cuenta por ahora. Al estilo wikipedia, se podrá discutir la conveniencia de añadir ciertos enlaces.

Desde el punto de vista de este blog, creo que la filosofía de Freebase está mejor enfocada para la generación de un producto realmente “metaweb”. Es decir, creo que la idea de Mahalo adolece de una ontología inicial, extensible y “maleable”, en el que apoyar la ingente tarea que les queda por hacer a los guías y con la que ayudar a los usuarios para que participen en poblar la ontología. La oportunidad de comenzar un proyecto de envergadura con semántica formalizada no se tiene todos los días, y más si tiene vocación de abrirse camino entre Google y Yahoo (no metafóricamente, pues se aprovecha de ideas de ambos, utilizando la confianza social en el resultado o directorio). Por eso, no establecer inicialmente una ontología en la que apoyar los datos (como población de ésta), condena la gestión del conocimiento que almacene a técnicas no fundamentadas en la confianza lógica.

Parece que acerté

Sin querer, parece que acerté cuando hablé de Panoramio como una composición ambiciosa de servicios Web 2.0. Me acabo de enterar que la ha comprado Google, vía el blog de Eduardo Manchón, uno de los creadores del servicio. Enhorabuena. Y no será la última. El proceso de concentración y compras se está acelerando (posiblemente, sobrevalorando servicios, pero eso siempre es así). Otro caso es el de LastFm, adquirido por la CBS (más detalles sobre esta adquisición aquí)

Aprovechando los buscadores para la construcción, tratamiento y comparación de jerarquías de conceptos

Una de las grandes líneas de investigación en la Web Semántica es el tratamiento de la semántica débil, es decir, aquellas jerarquías de conceptos, taxonomías, etiquetas, etc. para poder aplicar tecnologías nuevas. En particular, cómo establecer relaciones entre ese tipo de ontologías débiles. Este problema se ha tratado de manera general (como concept matching, por ejemplo) como problema específicamente en el caso de los sistemas de información geográfica (véase por ejemplo este trabajo de Rodríguez y Egenhofer). Una aproximación interesante al problema de la relación entre jerarquías de conceptos es el tratamiento de la similaridad. Este es un problema muy difícil de resolver, básicamente porque los usuarios tienen una noción vaga de lo que significa esa relación. Sin embargo, la relación “similar” se usa extensiva e intensivamente en proyectos Web 2.0 como por ejemplo, para relacionar artistas o géneros en lastfm. En este sitio, la búsqueda de un tipo de artista o tipo de música siempre es enriquecida con artistas o tags similares.

¿Cuál es el problema, si todo parece que funciona bien? El problema, básicamente, es que la similaridad no subroga propiedades, no es una identidad. Por ejemplo, el grado de transitividad es muy malo (con un poco de navegación -por la relación similar a- por los tags llegas a artistas ni remotamente similares al original que buscabas). Una posible solución es recabar ayuda del todopoderoso Google, para relacionar tipos de música mediante la distancia de similaridad de Google (DSG), con las oportunas modificaciones. Véase este articulo al respecto, que pone como ejemplo precisamente la comparación de conceptos musicales.

Composición de servicios Web 2.0: La lulupedia y otros similares

++…Una de las grandes virtudes de la mayoría de los proyectos Web 2.0 con éxito es la libertad de uso, lo que facilita la generación de nuevas aplicaciones sobre ese servicio. Así, proyectos ambiciosos como panoramio, u otros más modestos como jazztube se basan en exitosas aplicaciones de la Web 2.0. ¿Cuál es el límite de esa composición de servicios? El límite está determinado, fundamentalmente, en varios aspectos:

  1. Usabilidad. Cualquier experimento de este tipo debe ser fácil de utilizar, tanto que no induzca a otro a programarlo mejor.
  2. Valor añadido: La composición de esos servicios debe ser más valiosa que la simple combinación “a mano” de éste por parte del usuario.
  3. Famoso: debe componer servicios de contrastada solvencia, o lo que es más difícil, convertirse en un éxito a partir de otros menos conocidos.
  4. Viabilidad computacional: aunque disfrute de ancho de banda y potencia computacional, una composición de este tipo de aplicaciones depende mucho de la complejidad de la composición (si se basa en componer servicios existentes muy potentes).
  5. Aspectos adicionales:
  • Ofrecer un valor añadido a una (o varias) de las empresas sobre las que se ha montado el nuevo servicio
  • Viabilidad económica

Pero, ¿queda nicho para nuevos servicios? La respuesta obvia es sí, lo difícil es idear uno nuevo. Por ejemplo, una idea: la lulupedia, un servicio que consistiría en la elaboración colectiva, partiendo del guión sobre un tema de la wikipedia, de obras (de carácter científico o de ficción) que quedarían ofertadas en Lulu. Sólo necesitaríamos integrar el sistema wiki en la gestión de obras de lulu. Téngase en cuenta que lulu es una empresa web 2.0 que gana dinero desde prácticamente su inicio, y por tanto bastante fiable en la gestión de la edición, admitiendo incluso la publicación sin remuneración de libros (sólo gastos de envío e impresión). Véase la interesante entrada de E. Dans sobre su encuentro con Bob Young, CEO de lulu (y desarrollador de Red Hat, por supuesto).

Se me ocurren más composiciones, pero me las guardo para otra ocasión (o para ofertarlas como proyectos informáticos aquí en la escuela).

Sobre la necesidad de ontologías en la comunicación entre agentes

Cuando un alumno me pregunta por la necesidad de utilizar ontologías en la comunicación entre agentes, algo que no le parece necesario en otros ámbitos, la respuesta usual que doy es: para retratar el conocimiento común. Si los agentes que intervienen en la comunicación utilizan contextos distintos (es decir, ontologías distintas) o términos ambiguos, la comunicación puede ser un desastre. El mejor ejemplo que he encontrado de esto es este sketch de la serie Padre de Familia. Una sonrisa para el fín de semana.

Otro ejemplo que ilustra la importancia del contexto, aunque este es mucho más sutil, es en la comunicación humana en las comunidades virtuales. En éstas, mouchos de los comentarios están, usualmente ausentes de contexto. Esto significa que la interpretación de la performativa intencional del mensaje no esta disponible por el receptor (a menos que el emisor lo haga explícito). Las consecuencias de una mala interpretación de la performativa implícita en el mensaje están, además de la mala interpretación de la información, son la existencia de discusiones sobre el contenido del mensaje (por ejemplo, entender un mensaje irónico como informativo, y por tanto que está presentando la opinión personal del emisor). Véase este post de Enrique Dans al respecto, que analiza el problema desde una perspectiva más general.

Tim Berners-Lee y el bus RDF

La transparencia n. 15 de la charla de T. Berners-Lee en International Semantic Web Conference 2005, en la sesión de Industria, representa la clave, en un futuro próximo, para la aplicación de tecnologías de la Web Semántica. Hablemos por partes:

  1. La visualización es el problema central de mi investigación junto con A. Chávez (ya comenté las ideas y resultados con los que trabajamos en este post).
  2. Las reglas conforman uno de los grandes desafíos.
  3. La inferencia es otro de los grandes problemas, y por ahora sólo se han obtenido resultados relevantes para la inferencia monótona.
  4. El análisis estadístico de los datos combinará estadística con características propias de la lógica (como se hace ya con el análisis formal de conceptos).

Y finalmente, en la transparencia 17 de esa misma presentación hace referencia al problema comentado en un post anterior, incidiendo en que la adaptación se hará con los sistemas en ejecución.

El entorno empresarial y la Web Semántica

Este post se aleja un poco del carácter académico de este blog, pero la idea está muy relacionada. Cuando los alumnos me preguntan la razón fundamental para construir una ontología para una empresa, la respuesta evidente, “académica”, no les convence. Y tienen razón, en cierto modo. Construir una ontología cuesta dinero, y no se percibe a corto plazo grandes beneficios para las medianas y pequeñas empresas (por lo tanto, sería un lujo), mientras que las medianas-grandes de nuestro entorno tienen pánico a un proceso de integración semántica que les llevaría una cantidad ingente de trabajo. Las dificultades, en ese caso, son enormes. No sólo por la disparidad de bases de datos y otros documentos, también por la necesidad de cabezas pensantes que sean capaces de evaluar globalmente el proceso de integración o interoperabilidad semántica. Relacionado, este artículo de Cinco Días y este post.

La única solución que se me ocurre es que el proceso lo lidere, aquí, la administración pública, pero eso significaría que la oleada de contratos a empresas requiriendo tecnología semántica desbordaría, con mucho, el tejido establecido en Andalucía. La pescadilla que se muerde la cola. Solución: formación específica (en forma de máster) para añadir ese valor a las empresas.

Programación orientada a agentes y conocimiento común

Existen varios lenguajes orientados a agentes basados en el cálculo de situaciones de J. McCarty (y en las extensiones de otros como R. Reiter), como GOLOG y extensiones o FLUX. La importancia de estos lenguajes es que, desde el punto de vista de la Inteligencia Artificial, pueden ser considerados como lenguajes para la programación de agentes basados en el conocimiento, es decir, técnicamente programar un agente en estos lenguajes es simplemente insertar el conocimiento del mundo que tiene el agente (principalmente, con respecto a las acciones que puede realizar).

Desde el punto de vista de la Web semántica, proporcionan un valioso fundamento lógico para el análisis de los servicios web semánticos, su especificación y su comprensión como acciones en un mundo con ontologías como referentes semánticos (véase Adapting Golog for Composition of Semantic Web Services de S. McIlraith y T. Son). El problema fundamental de esta aproximación es cómo se maneja la(s) ontología(s) que intervienen en este contexto. Incluso, cómo la propia acción de los agentes puede inducir revisión de alguna de estas ontologías. En nuestra ponencia Learning services based on Formal Concept Analysis (aceptado en el ISA 2007) presentamos una aproximación débil pero factible basada en el Análisis Formal de Conceptos. Por supuesto, esto no resuelve el principal problema, a saber, cómo manejar ontologías en la ejecución de agentes basados en conocimiento. Esto es un problema debido fundamentalmente a que será habitual que el tamaño de la ontología sobrepase con creces el programa GOLOG del agente, lo que provocará mucho ruido en la computación.

Recomendación social e Inteligencia Colectiva

Esta entrada está sugerida por el auge que los sistemas de recomendación social (como pueden ser menéame o CoRank) tienen actualmente, así como por su análisis como fenómeno de Inteligencia Colectiva. El estudio de la evolución de estas redes como redes de confianza es una de las fronteras de la IA para este siglo. Muchos investigadores (entre los que se encuentra J. Golbeck, por ejemplo) son de la opinión de que es posible aislar ciertos factores en los que se basan los usuarios para otorgar confianza, para después integrarlo en sistemas lógicos de razonamiento (no monótonos, seguramente), así como ayudar al diseño de interfaces socialmente inteligentes. Esta última idea es innovadora, pues, actualmente, el diseño de esas herramientas se hace por aceptación social (la famosa frase “siempre estamos en beta”).

La introducción contínua de nuevas utilidades en sistemas de recomendación social, o la transformación menor de herramientas ya exitosas es usual, pero no parece conveniente sin un estudio previo del impacto sobre la red. Por ejemplo, un pequeño cambio en el sistema de valoración (como la función karma en el citado meneame) podría provocar que el sistema de confianza se desequilibrara. Básicamente, porque por ahora debemos considerar estas redes como sistemas dinámicos no predecibles, aunque existan herramientas de física teórica para analizar asintóticamente (o probabilisticamente) redes de este tipo. Este problema puede considerarse como un problema del nuevo siglo para la IA, un desafío para el que se tienen herramientas poderosas pero no sabemos, por ahora, cómo combinarlas.

Buscadores Web 2.0 con algo de semántica

Me refiero a Kartoo y UJIKO. La descripción de Kartoo de su página da una idea de las pretensiones del proyecto:

KartOO es un meta-buscador de Información Web que presenta sus resultados en forma de mapas. Los sitios encontrados son representados por esferas más o menos grandes según su pertinencia. Su búsqueda puede ser afinada con los temas y expresiónes propuestos.

Tiene un uso muy intuitivo, se basa en tags, básicamente, aunque no exactamente. Las búsquedas pueden ser muy entretenidas debido al GUI que utiliza. Es Web 2.0 básicamente porque dejaría confeccionar mapas a los subscriptores.

UJIKO parte de una filosofía parecida, utilizando en este caso un aspecto jukebox, utilizando el uso por el usuario como medida para aumentar el nivel de utilidades que éste puede utilizar.

¿Son estos buscadores buenas aproximaciones a una navegación por tags con espíritu Web 2.0? El tiempo lo dirá. El primero, Kartoo, es extremadamente interesante. Téngase en cuenta que los roles (objectproperty) serían representables de manera adecuada en los mapas que ofrece Kartoo. Una empresa que cuente con expertos en usabilidad, como ésta, podría conseguir fácilmente una representación adecuada.