El Mito de Tántalo en la Sociedad de la Información


Tántalo, rey de Lidia e hijo mortal de Zeus y de la oceánide Pluto, cometió varias afrentas contra los dioses del Olimpo, siendo una de las más graves aquella en la que, habiendo invitado a los dioses a un banquete y habiéndose terminado la comida, mandó cocinar a su hijo Pélope para servirlo en el banquete. Los dioses fueron alertados y no lo comieron, e impusieron a Tántalo un castigo terrible: lo condenaron a sufrir en el Tártaro hambre y sed eternas a pesar de estar rodeado de abundante comida y bebida. Cuando Tántalo intentaba alcanzar la comida, esta se alejaba, y cuando intentaba beber del agua en la que estaba parcialmente sumergido, esta se apartaba de su boca.
Siempre me ha recordado este mito a uno de los problemas más importantes de nuestro tiempo: estamos rodeados de abundante información pero, cuando intentamos alcanzar un fragmento determinado, parecería que esa información concreta se aleja de nosotros oculta en un vastísimo mar de otras informaciones.
Este problema ha sido caracterizado por la psicología como «sobrecarga informativa», y genera lo que se denomita «estrés informativo». El estrés informativo no es ninguna idea teórica, sino que tiene un efecto bien claro en nuestra sociedad: se estima que sólo en Estados Unidos provoca cada año unas pérdidas de 900.000 millones de dólares en en baja productividad y falta de innovación.
Los intentos (no excluyentes) de solución a este problema son al menos de tres tipos:
  • Relacionados con el modo en el que se presenta la información.
  • Dando a los usuarios del sistema herramientas para canalizar la información de interés hacia otros usuarios.
  • Construyendo métodos automáticos de filtrado de la información.
Hoy vamos a hablar del primero de ellos.
Hay dos modos básicos de distribuir información en la era digital, conocidos como distribución “pull” y distribución “push”. Estos modos tienen que ver con quién inicia la comunicación. En el modo pull el usuario “tira” de la información, es decir, inicia el proceso. Es lo que hacemos cuando ponemos una url en un navegador, o cuando buscamos algo en Google. En el modo push, por el contrario, es la máquina u otro usuario quien inicia la comunicación. Es lo que sucede cuando recibimos un SMS o una solicitud de chat. El problema del modo push es que nos interrumpe, requiere nuestra atención y nos aparta de la tarea que estuviéramos realizando, por lo que genera muchísimo más estrés informativo que la distribución pull.
Desgraciadamente el push está de moda, especialmente en las aplicaciones móviles, lo que no es de extrañar puesto que el mundo de la telefonía es un mundo push. Mi consejo en este sentido es que limitemos su uso en la medida de lo posible.
Otro ejemplo de cómo la presentación influye en el estrés viene del mundo de los lectores de noticias. Sorprendentemente poco utilizados, los lectores de RSS permiten recuperar noticias y artículos publicados en diferentes sitios y presentarlos al usuario de modo integrado, añadiendo además facilidades de organización, etiquetado y gestión de los artículos.
Lo habitual en estos programas es que se presente una lista de titulares y cuando el usuario elige un titular la noticia se amplía y accedemos al contenido completo. Desgraciadamente, el titular casi nunca da información suficiente como para saber si el artículo va a interesarnos o no, de modo que uno termina abriendo casi todas las noticias.
Sin embargo, hace un tiempo surgió Flipboard, un programa para iPad que construye con las noticias una especie de periódico, mostrando el titular, un resumen de la noticia e incluso, si puede obtenerla, una fotografía tomada del cuerpo de la noticia.
Parece una tontería, pero esta característica aparentemente tan simple ha multiplicado mi estrés informativo por 0,1.
En el próximo artículo hablaremos de los otros intentos de solución…

El Mito de Tántalo en la Sociedad de la Información (II)

En el último artículo comentamos que había una serie de intentos (no excluyentes) de solución al problema de la sobrecarga informativa, y analizamos el primero de ellos:
  • Relacionados con el modo en el que se presenta la información.
  • Dando a los usuarios del sistema herramientas para canalizar la información de interés hacia otros usuarios.
  • Construyendo métodos automáticos de filtrado de la información.
Hoy vamos a continuar con el segundo.
Dando a los usuarios del sistema herramientas para canalizar la información
Antes de la web 2.0, existían algunas herramientas que conectaban a los usuarios con aficiones o gustos similares: lo grupos de discusión (usenet, yahoo groups, google groups…). Lo fascinante de la idea de grupo es que permitían conectar a personas que no se conocían en el mundo real pero que tenían mucho en común a nivel intelectual.
Con el nacimiento de la web 2.0 esta vertiente social se plasma en un conjunto de ideas, y generan un fenómeno conocido como crowdsourcing, algo así como el “poder de la multitud”. Estas ideas son el desarrollo colaborativo de contenidos (cuyo mejor ejemplo es la wikipedia), la valoración de ítems asignando un número, un “me gusta” o un número de estrellas, y los comentarios. Surgen multitud de iniciativas a partir del año 2000 que vinculan comunidades de usuarios en torno a ciertos temas: cine, cultura, turismo, literatura…
Al final alguien cae en la cuenta de que también existen las comunidades de gente “que se conoce”, y aparecen las redes sociales. Sin embargo, desde el punto de vista del descubrimiento y filtrado de la información las redes sociales son mucho menos importantes. ¿Veríais cualquier película que os recomendara un amigo? Depende del amigo, ¿verdad?
El camino de la web social como herramienta de difusión cultural e intelectual no está ni mucho menos agotado. La aparición reciente de Google+ demuestra además que es posible mantener redes “intelectuales” junto con redes “de amistad”, uno de los grandes handicaps de Facebook, por un lado, y del uso que se le estaba dando a Twitter, por otro. Ya veremos a dónde llega.
Construyendo métodos automáticos para canalizar la información
Vamos a hablar de otro viejo conocido por todos los usuarios, los motores de búsqueda, y dejaremos algunos otros sistemas para un próximo artículo que cerrará esta “miniserie tantálica”.
Los motores de búsqueda nacen en los albores de la Web cuando sus primeros usuarios se dan cuenta de la dificultad de localizar contenidos (¡y hablamos sólo de unos pocos miles de páginas en un centenar de servidores universitarios!). Seguir enlaces no es escalable. Uno puede moverse dentro de un entorno local pero se vio que hacían falta herramientas más potentes para buscar información.
En 1993 se crean los primeros motores de búsqueda, cuyo modo de funcionamiento era similar al de los buscadores actuales:
  • Los webmasters registran sus dominios en el buscador.
  • Un robot parte de esos dominios y los añade a un índice, obteniendo además los enlaces que aparecen en esos documentos y continuando el proceso con las páginas a las que apuntan esos enlaces, y así sucesivamente, hasta un cierto nivel de profundidad.
  • Para cada página, se crea una entrada en un fichero invertido (índice), en el que para cada término posible (podemos entender aquí para cada palabra, aunque no tiene por qué ser estrictamente así) se asocian todos los (miles o millones de) enlaces a páginas web que contienen ese término.
  • Cuando el usuario busca un término, el sistema lo localiza en el índice y devuelve la lista de enlaces a páginas que contienen ese término. También existen métodos algorítmicos para el caso de que se busquen varios términos o frases entrecomilladas (no entraremos en detalles).
A lo largo de la historia, se ha demostrado que un asunto clave a la hora de devolver esta lista de enlaces es el orden que demos a los mismos. Es fundamental disponer de algún criterio para colocar en primer lugar aquellos enlaces que son de más calidad.
El criterio usado para determinar esta calidad ha variado en la breve historia de los buscadores, y podemos asegurar que esa fue exactamente la clave del éxito de Google frente a los buscadores anteriores (Altavista dominaba el mercado en esa época).
El éxito de Google parte de una idea de un proyecto anterior, que fue el proyecto Clever de IBM (empresa que decidió no explotar los resultados de esta investigación ¡! ), y que a su vez no es más que la aplicación de un viejo concepto utilizado en la comunidad científica desde hace muchísimos años: un artículo es más importante cuanto más veces haya sido referenciado en otros artículos posteriores. Pero ¿qué es una referencia en la web? De cajón, ¿no? Los chicos del proyecto Clever pensaron: una referencia es un link, un enlace a otro documento.
A partir de ahí el proceso, aunque algo matemático (no voy a describirlo aquí) es más o menos sencillo: se trata de computar la influencia que cada página tiene en las demás en un proceso iterativo que converge a un valor concreto para cada sitio web. Eso es el famoso PageRank.

El mito de Tántalo en la sociedad de la información (III)

Para terminar con esta seríe, comentaremos algunos métodos de filtrado de la información al margen de los motores de búsqueda: los webbots, el filtrado bayesiano y el filtrado colaborativo.
Webbots
El verdadero potencial de la Web está subexplotado si accedemos a ella desde un navegador. Este es un uso “manual” de la red. Sería el equivalente a ir de una ciudad a otra a pie: es un trabajo lento y costoso. Los webbots, softbots, spiders, crawlers o como queramos llamarlos, nacen para automatizar ciertas tareas, y por tanto multiplican la capacidad para obtener información y potencialmente alivian al usuario de hacer el trabajo por sí mismo.
Por dar un ejemplo, imaginemos que una persona lee todos los días el Boletín Oficial del Estado para ver si se publica una convocatoria de oposiciones. Podemos programar un webbot para que recupere el BOE y lo analice por sí mismo, buscando cierta cadena de texto o cierto patrón.
Esto puede hacerse porque, en su momento, Tim Bernenrs Lee y colegas pensaron en una arquitectura de la Web abierta, en la que el suministro de información es independiente del programa (agente) con el que se accede, de tal modo que no es obligatorio hacerlo con un navegador.
La verdadera potencia de los Webbots surge del hecho de que podemos combinarlos. Por ejemplo, podemos recuperar todas las películas que emiten hoy en la televisión y, extrayendo el nombre y el año, buscar en una web de cine, como imdb o filmaffinity, para obtener la nota media de esa película. Finalmente, podemos filtrarlas para enviar al usuario sólo las que superen cierta nota, número de votos o porque en ellas aparezca determinado actor.
Filtrado bayesiano
El teorema de Bayes nos da herramientas para que, dados una serie de ejemplos positivos y una serie de ejemplos negativos, podamos en el futuro calcular qué propiedades tiene un fragmento de información (en en problema que nos ocupa) de ser positivo o negativo.
Pongamos un ejemplo con el spam, aunque puede utilizarse también para predecir ítems que nos puedan interesar, etc. Supongamos que tenemos ejemplos de correos que son spam (porque el usuario los ha marcado como tales) y de otros que no lo son.
Los correos contienen palabras, así que con nuestro “conjunto de entrenamiento” podemos determinar fácilmente la probabilidad que tiene una palabra de aparecer en un mensaje de spam, dividiendo el número de veces que la palabra apareció en un mensaje considerado spam entre el número total mensajes en que apareció palabra.
Bayes nos proporciona la herramienta básica para “darle la vuelta a la tortilla”, y calcular la probabilidad que tiene un mensaje de ser spam combinando las probabilidades de aparición de cada una de sus palabras en mensajes spam (calculada según el párrafo anterior).
De este modo tenemos una interesante herramienta, que además se adapta a cada usuario (porque depende de los que cada usuario etiquete como spam), para filtrar información que le pueda interesar.
Filtrado colaborativo
Pero, ¿qué pasa cuando no hay información de texto en los ítems? Podemos recomendar (filtrar) cosas que no pueden describirse con palabras, o en los que las palabras que los describen no son suficientes para captar la esencia del motivo por el que nos gusta?
Tenemos otra herramienta para estos casos: el filtrado colaborativo.
En este caso, se trata de encontrar personas registradas en el sistema que tienen gustos similares a los nuestros. ¿Cómo? En este tipo de sistemas, cada usuario valora una serie de ítems asignándoles una puntuación, por ejemplo las famosas “estrellas” que pululan por la Web.
Con estas valoraciones, el sistema puede calcular qué usuarios son los más parecidos a uno dado, simplemente realizando alguna operación con los votos, por ejemplo que la diferencia entre ellos sea lo más baja posible.
La web filmaffinity.com, que aplica filtrado colaborativo al caso del cine, denomina a estos usuarios parecidos con el apodo, muy bien elegido, de “almas gemelas”.
Una vez tenemos las almas gemelas de un usuario, si queremos recomendar películas basta buscar películas que no haya visto y que sus almas gemelas hayan valorado bien.
Epílogo
Hasta aquí llegó esta seríe de tres artículos dedicados al problema de la sobrecarga informativa y modos de aliviarla, que, sin la pretensión de haber agotado el tema, han querido hacer ver que, al menos, hay vías de escape al problema. Y es que en muchos casos, los males generados por la tecnología pueden ser aliviados por la tecnología misma.
Ya saben, la tecnología no es un bien ni un mal en sí misma, tan sólo es una potente herramienta; el buen o mal uso depende del humano que la utiliza.
Francisco Serradilla | 25 de septiembre de 2011

Publicar un comentario

0 Comentarios