Twitter (y otras redes sociales) como recurso para predecir el futuro

Texto que sale en la secuencia inicial de Matrix en el pc de Neo

En estos días han llegado a los medios cuatro proyectos/resultados que suenan a Ciencia Ficción:

  • Nell, un sistema que está contínuamente  aprendiendo del contenido que lee de la Web.
  • Recorded Future empresa que hace análisis temporal y que se vende como que predice el futuro. En ésta han invertido empresas serias como Google, la CIA y Yahoo!
  • Uso de twitter para predecir y estimar epidemias de gripe. Aron Culotta y dos estudiantes analizaron 500 millones de tuits entre Agosto de 2009 y Mayo de 2010 y consiguieron aproximar la evolución de la gripe mejor y antes que el tradicional método de recolectar la información de los hospitales.
  • Uso de twitter para predecir el éxito de un película. Investigadores de HP labs demuestran que monitorizando twitter pueden predecir si un film va a ser un éxito de taquilla o no.

Lo interesante de los cuatro proyectos es que aplican minería de datos y análisis temporal a datos provenientes de redes sociales o de toda la WWW. Es decir, somo nosotros los que proporcionamos los datos, y se interpretan adecuadamente, se produce cierta singularidad (no la singularidad de Vernon Vinge, que es de carácter global).En el caso concreto de twitter, existen multitud de aplicaciones que facilitan el análisis del flujo de las actividades de microblogging de sus usuarios.
La idea de explotar esos datos (muchos accesibles mediante simples APIs) es antigua. La novedad es que la fiabilidad de los datos no se pone en entredicho, la confianza en éstos se basa en la gran cantidad de datos disponibles que hace difícil que comportamientos virales desvirtúen los comportamientos globales. La cuestión importante que me plantean estos ejemplos es porqué no hace algo parecido en España. Modestamente, un alumno y yo hemos diseñado un sistema para acertar las quinielas en base a datos públicos que se pueden encontrar en la red, y ya ha acertado una de 11. Y eso sin profundizar y refinar el proceso de análisis y refinamiento del razonamiento que hacemos con los datos. Pero me refiero a un proyecto que se convierta en empresa, que obtenga resultados y atraiga la inversión. Vale que aquí no somos tan atrevidos, pero tenemos los datos, tenemos las herramientas, la ciencia que está detrás. Entonces… ¿falta emprendimiento?

El ejemplo más parecido que conozco a los cuatro que mencionamos es el proyecto Sonar de Indra, que intenta predecir el mercado bursátil, pero su base es semántica y es un prototipo. Y no es un proyecto emprendedor. Finalmente, la aparición del linked data como herramienta de semantización débil proporciona una capa intermedia entre los datos y la Web Semántica factible de ser procesada de manera más fina de lo que se hace en los ejemplos anteriores, lo que es una oportunidad para lanzar proyectos innovadores en ese área.

Externalización del conocimiento en comunidades mediante tecnología wiki y ontologías

Ciclo de Nonaka y takeuchi

Ciclo de Nonaka y takeuchi
En el Fourth Metadata and Semantics Conference (MTSR 2010) presentamos el el trabajo Social Ontology Documentation for Knowledge Externalization  La idea, en el contexto del tratamiento del conocimiento en organizaciones, es ayudar a externalizar (hacer explícito y público) el conocimiento y el perfil de lo que la ontología representa para la empresa (por ejemplo, los casos de uso y las experiencias con conceptos y herramientas en biotecnología o genética). Para hacer eso, en primer lugar debemos proyectar el ciclo de Nonaka y Takeuchi de creación de conocimiento en Empresas (figura de arriba) donde el conocimiento es un activo importante (aunque usualmente intangible). La proyección contempla ciertas actividades de Ingeniería Ontológica, como se ve en la figura:

Proyección semántica del ciclo de Nonaka y Takeuchi

Para que esta proyección implique una verdadera externalización del conocimiento, se necesita una herramienta que permita semantizar lo que los usuarios aporten sobre el conocimiento. Con ese objetivo, presentamo el prototipo OntoxicWiki un plugin para Protégé que permite documentar y reportar casos de uso de ontologías en comunidades de práctica, y que permita ejecutar el ciclo:

El ciclo usando Ontoxicwiki

Ontoxicwiki presenta en formato wiki la posibilidad de documentación social de la ontología, de manera que los usuarios contribuyen en formato wiki comentando caracterísiticas de los elementos de ésta, así como describiendo los casos de uso. Sin embargo, realmente están poblando una ontología de documentación, OSMV, una extensión social de Ontology Metadata Vocabulary para contemplar la documentación mediante wiki. Lo aportado por la comunidad en la wiki se integra de manera natural en la ontología de la empresa expandida con OSMV (gracias a que OntoxicWiki es plugin de Protégé).

Finalmente, debo hacer notar que OntoxicWiki no es una wiki semántica aunque lo parezca, es otra cosa: una tecnología wiki para documentar socialmente ontologías.

Reconciliando etiquetados humanos mediante agentes inteligentes

 

Algoritmo de conciliacionRecientemente hemos publicado un trabajo, Reconciling Knowledge in Social Tagging Web Services en el que resolvemos un interesante problema asociado a la hetereogeneidad semántica de los etiquetados que usamos en muchas de nuestras redes de práctica (como Mendeley o Delicious, entre otros). Es bien sabido que el etiquetado de recursos en la Web es una poderosa herramienta de organización del conocimiento (social tagging), si bien su uso es tan variado que es necesario considerar el problema de la interoperabilidad entre distintas formas de etiquetar. En el libro Tagging: People-Powered Metadata for the Social Web se hace un estudio muy interesante de las distintas tradiciones y las implicaciones de éstas en la arquitectura de la información del portal y los servicios asociados.

La solución que ofrecemos se basa en delegar la conciliación de los etiquetados de dos usuarios (tomamos como ejemplo mis bookmarks y las de Gonzalo Aranda en Delicious) a dos agentes. Estos agentes, mediante Análisis Formal de Conceptos, extraen las conceptualizaciones ocultas en nuestros etiquetados, las reglas de composición de éstos, y mediante un diálogo en la plataforma (en JADE), son capaces de “entender” el etiquetado de cada uno mediante preguntas y respuestas obtenidas por un sistema experto que usa las reglas anteriormente citadas. El resultado es muy interesante, pero es más excitante pensar en nuestro próximo proyecto: hacer una conciliación masiva de etiquetados en Delicious (no global, pero sí conteniendo a miles de usuarios), permitiendo a la plataforma multiagente exhibir su potencialidad para problemas de carácter distribuido y autónomo.

Computación Urbana (Urban Informatics) y Web 2.0 semántica móvil

imagen sobre la ciudad y móviles

Nota: Esta entrada recoge un fragmento -adaptado- de un trabajo sobre Web 2.0 móvil semántica en proceso de aceptación, desarrollado conjuntamente con Gonzalo A. Aranda.

La Informática Urbana (IU) es un campo de investigación emergente, que trata sobre el uso (y generación) de información física y digital sobre la ciudad como fuente de nuevas aplicaciones que puedan ser usadas por el ciudadano, a traves de dispositivos fijos o móviles que leen esa información -datos o conocimiento- sobre lugares de la ciudad. La utilización de esos datos permite el rediseño de políticas de urbanismo y el estudio de comportamiento sociales en las urbes. La IU emerge como una línea donde la Informática, el urbanismo, el e-gobierno, (incluso el media art) son aplicables o pueden sacar partido de los resultados. Mi interés en este área de investigación viene de hace tiempo, pero se vio fuertemente incentivado por la asistencia al ciclo de conferencias sobre la ciudad híbrida que organizó, dentro del Espacio-Red de prácticas y Cultura digital, la Universidad Internacional de Andalucía. Concretamente, me interesa cómo la Web 2.0 semántica móvil (SMW2.0) puede interrelacionar con la información accesible de la ciudad y/o de sus lugares.

Los datos que interesan en la IU son generados, usualmente, a partir de la propia ciudad, y tradicionalmente eran el gobierno local u otras instituciones quienes recolectaban, digitalizaban- si fuese necesario- y ofrecían -esto no es tan frecuente- esos datos. Con la instauración masiva de los teléfonos (y otros dispositivos) móviles, los ciudadanos pueden recolectar, como agentes de un sistema de interacciones muy complejo, información digital muy interesante. Incluso, el poder y la calidad de esa generación de información es mucho mayor que los de autoría oficial. En un contexto de Web 2.0 móvil, los dispositivos de bolsillo pueden ser considerados como agentes que usan apis locales que compañías e instituciones ofrecen de manera local en la ciudad. Desde el punto de vista de la Representación del Conocimiento, esos agentes representan una oportunidad única para determinar contextos de conocimiento en los que los habitantes de las redes sociales móviles pueden disponer de servicios avanzados y sensibles al contexto (como ofertas personalizadas, compartición de costes en servicios urbanos, etc.)

Existen varios proyectos que adaptan principios sociales Web 2.0 para investigar experiencias sociales, humanas, en las ciudades. La premisa de muchos de estos proyectos es que, en un futuro próximo, la IU será el origen de nuevas tecnologías y aplicaciones móviles que resolverán más eficientemente problemas de localización, contextualización, identificación de recursos y sociabilidad. En Urbane-ing the City: Examining and Refining the Assumptions Behind Urban Informatics, A. Williams, E. Robles y P. Dourish objetan -no sin razón- que las nuevas aplicaciones móviles no deberían centrarse sólo en la experiencia urbana y la vida personal y deberían extenderse (e implementarse de manera nativa) al ámbito de la vida social. Esa dimensión social, que parece tan facilmente generada en la Web 2.0, es una dimensión crítica y difícil en la Web 2.0 móvil. El propio concepto de identidad debe ser revisado. En la Web 2.0, la identidad es, realmente, una distancia ontológica entre entidades parcialmente definidas por la traza de su actividad en la plataforma. En la telefonía móvil, la identidad es crítica y las compañías tienen perfectamente caracterizada la de cada usuario. Con esto no quiero decir que no se puedan proponer experimentos que indaguen en las relaciones entre ciudadanos, y especialmente entre extraños habituales (es decir, gente con la que se comparte espacio habitualmente pero con la que no se contacta). Tres ejemplos de proyectos con “claros indicios de Web 2.0 móvil” que intentan salvar la brecha social urbana mediante la tecnología son Jabberwocky, Serendipity y Digidress.

En general, ese tipo de proyectos están basados en interacciones de baja obligación, es decir, no requieren una implicación fuerte -ni comercial- en la actividad. Muchos de los problemas de interacción entre agentes y de organización del conocimiento inducido por agrupaciones y contactos que se plantean en la SMW2.0 se podrían resolver como en la Web Semántica (por ejemplo, como en Groupme!). Pero existe la posibilidad de construir SMW2.0 basada en inteacciones con obligación alta (para empresas, negocios e instituciones) en las que la organización del conocimiento representado y/o generado es crítica para la eficiencia y fiabilidad de la red dentro de la organización. Sin embargo, organizar conocimiento íntimamente relacionado con el contexto (físico y lógico-computacional) donde se ha generado o utilizado es un desafío para el que es necesario, en primer lugar, entender qué tipos de espacios digitales urbanos pueden encontrarse y/o construirse. Para este tipo de problemas, la Web Semántica no ofrece soluciones claras si deseamos combinarla con la tradición de la Web 2.0, fundamentalmente porque es muy difícil representar la idea de espacio urbano que el usuario maneja cuando genera y/o utiliza el conocimiento. De hecho, sería necesario consensuar una ontología sobre los espacios digitales urbanos entre los diseñadores y los usuarios de la red.

En su trabajo Urban Informatics and Social Ontology (capítulo del libro Handbook of Research on Urban Informatics: The Practice and Promise of the Real-Time City), R.J. Burrows arguye, que, en realidad, en la IU se está gestando (está emergiendo) una nueva ontología social, donde las relaciones entre usuarios, espacios, entidades espaciales, contextos (entendidos como en Inteligencia Artificial y como en la computación ubicua) son muy complejas, crecen rápidamente y son muy necesarias para entender los resultados. Cita el trabajo de M. Crang y S. Graham Sentient Cities: Ambient intelligence and the politics of urban space donde se muestra una incipiente clasificación de regiones en esa ontología: el espacio aumentado (augmented space), el espacio promulgado (enacted space) y el transducted space (no sé como traducirlo correctamente). Este último trata de la automatización de lo espacial, que puede convertirse en servicios tecnológicos móviles que el usuario maneja y consume de manera inconsciente. Por tanto, estudia la relación transparente y ubicua de ciertos flujos de información y el usuario. Esta característica representa, por ejemplo, en una formidable oportunidad para desarrollar nuevos proyectos que se basen en las pantallas de espera (idle) de nuestros teléfonos móviles, un terreno relativamente poco explotado. En la SMW2.0, aplicaciones en el tercer tipo de espacio no estarían diseñadas sólo para el usuario, el móvil será un dispositivo con autonomía que atrapa flujos de información locales (via bluetooth, RFID, wifi, 3G u otras), convirtiendo al usuario en un prosumer inconsciente. Las primeras aplicaciones de este tipo separaban (quizás forzadamente) al usuario de la tarea (véase, por ejemplo, la recolección de información sobre contaminación urbana que se podría combinar con datos propios de la Informática del transporte).

Estas reflexiones sólo sirven para constatar la complejidad del problema de organizar y razonar con ese conocimiento. Y no hemos hablado de que las relaciones entre usuarios, agentes móviles (alojados en dispositivos móviles) y dispositivos son complejas y estarán a distintos niveles, dependiendo de la accesibilidad y autorización para realizar tareas de cada uno de esos elementos.

Dicho lo cual, parece muy atrevido pensar en cómo se desarrollará la relación entre la UI y la SMW2.0. En una primera etapa, el análisis que hace la UI de la información y sus flujos en la ciudad debe ser considerado no como una sola piel digital que intentamos visualizar para entenderla; más bien un conjunto de pieles que albergan flujos de información de distinta naturaleza y que los habitantes pueden interconectar con acciones tan simples como pagar mediante el teléfono móvil, usar el gps, etc. En una segunda etapa se desarrollarán proyectos Web 2.0 móvil que conecten de manera natural las distintas pieles (ya estamos en los primeros momentos). Y, cuando los dispositivos avanzados sean de uso generalizado, se podrá conectar esas capas con tecnologías que conviertan esa información en conocimiento (es decir, tecnologías de la Web Semántica). Es lo que, atrevidamente, denomino espacios digitales semánticos urbanos. Es en ese tipo de espacios donde la SMW2.0 se implantará como la ubicuidad semántica (es decir, donde la conciencia y el razonamiento sobre el contexto donde trabajamos será una tarea de confianza lógica como en la Web Semántica).

Web semántica, Sistemas multiagente y redes sociales móviles

Logo de las jornadas

El 29 de Junio impartí una charla en las jornadas de difusión de la tecnología multiagente en la Universidad de Sevilla sobre cómo combinamos esos tres elementos en Mowento. Las transparencias que usé las he almacenado en mi cuenta de Slideshare. Las citadas jornadas fueron una extraordinaria oportunidad para conocer no sólo al resto de los invitados, sino a otros investigadores en el área de sistemas multiagente en la Universidad. Es curioso como, estando tan cerca en investigación, estamos tan lejos en trato, pues ni siquiera nos conocíamos. Las charlas fueron interesantes y si demostraron algo es que la aplicabilidad de la tecnología de agentes es muy amplia. Personalmente creo que la discusión sobre la especificación del concepto de agente fue extraordinariamente interesante. Posturas tan lejanas a la mía como la que Carles Sierra defendía, cercana a la indefinición que causa la autonomía eran, en cierto sentido, coincidentes cuando pensamos en que la especificación de un agente limita el concepto (aunque, a la vez, proporciona la noción de verificación).

Otra de las cuestiones que quedaron patentes en las intervenciones es que la modelización como agentes no implicaba, en principio, la implementación de un sistema multiagente. El mero hecho de modelizar rasgos de manera computacional-matemática-lógica proporcionaba formas de implementación en sistemas clásicos (es decir, el proceso de desagentificación produce de manera natural programas no autónomos). Esta forma de aplicar la ciencia de los agentes racionales es muy prometedora en ámbitos donde la recitencia a usar sistemas multiagente (impredecibles en muchos casos) limita la aplicabilidad de resultados.

Cuarto Encuentro internacional Inclusiva-net: Redes y procesos P2P

Figura del cuarto inclusiva-Net

Acaba de publicarse la convocatoria para trabajos del Cuarto Encuentro internacional Inclusiva-net: Redes y procesos P2P. Participo como miembro del comité de selección, junto con Antonio Lafuente del CSIC y el director de la iniciativa Inclusiva-Net, Juan Martín Prada. En este enlace está la llamada a participar con comunicaciones. La elección del tema y de los núcleos temáticos de esta edición del encuentro ponen de relieve la extraordinaria importancia de los procesos y redes P2P en unos tiempos en los que algunos de sus mayores exponentes (las redes P2P de compartición de archivos en Internet) están siendo atacadas por diversos sectores que no entienden (o no les interesa aceptar) que la consolidación de las redes entre pares como mecanismo de producción e intercambio de conocimiento, cultura e información es uno de los mayores logros de Internet (quizás por encima de la propia Web 2.0 en muchos aspectos).
Reproduzco aquí dichos núcleos:

  • Redes P2P y paradigmas sociales participativos y de cooperación en red.
  • Redes y proyectos basados en estructuras y procesos “entre iguales”.
  • Aplicación de los modelos de organización P2P a diferentes ámbitos del conocimiento y de la vida social.
  • Los conceptos de “panarquía” y de “gobierno P2P”.
  • Economías y formas de producción P2P.
  • Historia, tipologías y aplicaciones de las redes P2P.
  • Conflictos y controversias legales entre instituciones (gobiernos, entidades privadas, etc.) y redes P2P.
  • Uso del P2P en la educación.
  • Uso del P2P como fuente de conocimiento. Su papel en el contexto de los países emergentes.
  • Formas de organización, arquitecturas y funcionamiento de las redes P2P.
  • Nuevas aportaciones en el diseño de redes, protocolos y aplicaciones. El futuro del P2P.
  • Redes P2P en telefonía móvil.
  • Sistemas complejos y redes P2P.
  • Calidad de la información en las redes P2P. Web semántica y P2P.
  • Relación entre las redes P2P y la Web 2.0.
  • Metaversos P2P.
  • Proyectos artísticos basados en estructuras o redes P2P

Infoxicación amiga, ruido en tu creciente vecindario digital

Me han publicado una entrada, como firma invitada, en el blog del Evento Blog España, titulada Infoxicación amiga, ruido en tu creciente vecindario digital.
Algunas de las ideas que expongo están muy relacionadas con proyectos futuros de nuestro grupo de investigación. Pueden resultar un poco pesimistas, pero, como siempre, una situación de necesidad de nuevas herramientas tecnológicas hace crecer e incentivar la investigación y búsqueda de nuevas soluciones (en este caso, en el campo de la Inteligencia Emergente).

calla de Dhaka

EEUU toma posiciones en la próxima oleada de aplicaciones sociales frente a Europa (y por supuesto, frente a España)

un combate de boxeo entre un peso pesado y un hombre débil

Esta entrada es una reflexión provocada por las últimas aplicaciones que he analizado (siempre desde la perspectiva de la Inteligencia Artificial), así como por los temas en los que estoy trabajando. Me da la sensación, viendo los nuevos proyectos, que Silicon Valley toma otra vez la delantera en innovación a Europa. Más concretamente, en la utilización masiva (y con valor añadido) de tecnología de la Web Semántica. Por supuesto, si nos centramos en España, nos encontramos con un desierto. A continuación enumero las diferencias que más me han sorprendido a la hora de afrontar los proyectos más interesantes:

  1. Aquí seguimos hablando de redes sociales clásicas mientras allí hablan de sociedades y aplicaciones semánticamente aumentadas: Freebase, Twine, zigtag, Powerset… Excepciones: En Europa hay algunas, pero no se han lanzado todavía.
  2. Aquí seguimos analizando fenómenos como youtube y los vídeos en las redes, mientras que allí hablan de web semántica ubicua, aplicaciones “listas” para móviles a partir de la experiencia acumulada, etc. Excepciones: proyectos interesenates como Kimia.
  3. Aquí nos fascina la geolocalización y allí ya la tienen saturada de aplicaciones y trabajan en aplicaciones sociales que se basan en eversión…
  4. Aquí no hablan -todavía- claramente de modelos de negocio mientras que Youtube, Twitter, ya tienen opciones sobre la mesa…
  5. Aquí se hacen cientos de conferencias donde se habla de blogs, periodismo ciudadano, consecuencias sociales de la Web 2.0, etc. mientras que allí abundan conferencias de tecnología semántica y empresas. En éstas se está gestando la nueva Web .
  6. Allí los nuevos gurus tienen una importante empresa detrás. Aquí eso es raro.
  7. El crowdsourcing es, en España, una obra de beneficiencia (por ahora). Allí tienen importantísimos proyectos como Innocentive.
  8. Allí la Inteligencia Colectiva prometedora se basa en considerar a la gente como neuronas aumentadas (zigtag.com, gwap.com ). Aquí sólo se aplica la versión clásica,

Pos supuesto, existen muchas más excepciones en Europa. Una de las iniciativas más interesantes que he encontrado se basa en considerar una ciudad (sociedad) entera como laboratorio de nuevas aplicaciones. Por mantener un poco de optimismo, y dejando a un lado la crónica dependencia de las instituciones europeas para la investigación, mi opinión es que existe margen para obtener ventaja competitiva en algunos campos, pero para eso se necesita una apuesta más fuerte por proyectos que parecen completamente inviables a medio plazo, pero con una potencialidad enorme.

El procesamiento del lenguaje natural no es el camino para obtener aplicaciones semánticas, según Peter Norvig

un montoón de letras desordenadas

Peter Norvig rebaja las espectativas sobre la búsqueda en lenguaje natural. De esta forma -no sé cuanto de corporativo hay en su opinión, pues ahora trabaja para Google- desinfla la noticia sobre el buscador Powerset sobre la Wikipedia. En cierto modo, estoy de acuerdo: si este buscador tiene éxito es porque se localiza en un repositorio de conocimiento organizado. La Wikipedia no es internet, y el proyecto DBpedia ya ha mostrado la potencialidad que tiene el tratamiento del conocimiento contenido en la Wikipedia. Sin embargo, fuera de la Wikipedia hay poca organización del conocimiento (salvo en proyectos como Freebase), lo que hace muy difícil que cualquier aproximación que use el lenguaje natural sea superior a la búsqueda actual con Google. Aunque, por otro lado, sí existen otras opciones, como el tratamiento de la búsqueda mediante el aprovechamiento de la anotación social por etiquetas o la navegación lingüística. La primera se enfrenta con la absoluta libertad de los usuarios en la etiquetación, lo que hace hace el problema muy difícil de resolver. La segunda consistiría en la navegación visual sobre la información con enlaces etiquetados mediante relaciones lingüísticas (como “sirve para”, “creado por”). Es decir, aprovechar (visualmente) RDF pero a alto nivel, donde los roles correspondieran a conexiones lingüísticas.

Semántica emergente: principios básicos para el tratamiento del conocimiento en comunidades Web

Imagen que describe las capas semánticas usadas en semántica emergente

Estos últimos días he estado investigando sobre varios problemas de inteligencia colectiva relacionados con nuestro proyecto, y he recordado algunos principios sobre semántica emergente que se enunciaban en el artículo Emergent Semantics Principles and Issues:

  1. Principle 1: Agreements as a Semantic Handshake Protocol.
  2. Principle 2: Agreements emerge from negotiations
  3. Key Principle 3: Agreements emerge from local interactions

y el título de una sección: Agreements are dynamic and self-referential approximations. Resulta que es exactamente lo que he observado cuando he seguido durante unos días algunas comunidades Web de distinta índole. Y este hecho debería ser aprovechado para monitorizar y organizar la ontología implicita (fundamentalmente comunicacional) que emergen en esas redes, y no específicamente las ontologías por consenso (donde se pueden aplicar técnicas de minería de datos y medidas de similaridad). Dicho de otro modo, en nuestro proyecto intentaremos monitorizar el crecimiento de ciertos aspectos de semántica oculta que pueden ser muy interesantes a la hora de diseñar buscadores ad-hoc, semánticos, para la plataforma. Creo que es factible como proyecto de innovación, pero, desde el punto de vista del lanzamiento de nuestra plataforma no lo es tanto (pues es costoso en tiempo y no andamos sobrados de éste).