Un grupo de investigadores israelíes creó un software que predice cuándo y dónde pueden ocurrir brotes de enfermedades en base a dos décadas de artículos de «The New York Times» y otros datos en línea. La investigación fue llevada a cabo por el Instituto Tejnión de Tecnología, en Israel, en colaboración con Microsoft.
«El sistema podría asesorar a organizaciones de ayuda y otros colectivos a ser más proactivos en la lucha contra brotes de enfermedades u otros problema», señaló Eric Horvitz, científico y codirector del Centro de Investigaciones de Microsoft. «Realmente veo todo esto como un presagio de lo que está por venir», afirmó.
«En última instancia, este tipo de trabajo comenzará a tener una influencia en el día a día de la gente», indicó Kira Radinsky, investigadora doctorada en el Tejnión, que realizó la investigación en colaboración con Horvitz.
El sistema proporcionó resultados sorprendentes cuando se probó con datos históricos. Por ejemplo, los informes de las sequías en Angola en 2006 provocaron una advertencia sobre posibles brotes de cólera en el país, ya que otros eventos anteriores habían enseñado al sistema que los brotes de cólera son más probables en los años posteriores a sequías.
Una segunda advertencia sobre el cólera en Angola fue provocada por noticias sobre grandes tormentas en África a principios de 2007. Menos de una semana después, aparecieron informes de que el cólera se había establecido. En pruebas similares con previsiones de enfermedades, violencia y un número significativo de muertes, los avisos del sistema fueron correctos entre el 70 y el 90% de las veces.
Radinsky aseguró que el rendimiento es lo suficientemente bueno para sugerir que una versión más refinada podría ser utilizada en entornos reales, para por ejemplo ayudar a expertos en agencias gubernamentales dedicados a la planificación y preparación de ayuda y respuesta humanitaria. «Realizamos algunos contactos y tenemos pensado hacer un trabajo de seguimiento con esas personas», informó.
El sistema fue construido utilizando 22 años de archivos de «The New York Times», de 1986 a 2007, aunque también tomó datos de Internet para aprender acerca de los hechos que conducen a las noticias más importantes.
«DBpedia es una fuente que nos pareció útil, ya que se trata de una forma estructurada de información dentro de Wikipedia construida utilizando crowdsourcing», añadió Radinsky. «Podemos entender, o ver, la ubicación de los lugares en los reportajes de noticias, cuánto dinero gana la gente del lugar, e incluso información acerca de la política». Otras fuentes incluyen WordNet, que ayuda al programa a entender el significado de las palabras, y OpenCyc, una base de datos de conocimientos comunes.
Toda esta información ofrece un valioso contexto que no está disponible en un artículo de prensa, y que es necesaria para averiguar normas generales sobre qué eventos preceden a otros. Por ejemplo, el sistema podría inferir conexiones entre acontecimientos en Ruanda y ciudades angoleñas basándose en el hecho de que ambos se encuentran en África y tienen PIB similares, además de otros factores. Este enfoque hizo que el software llegara a la conclusión de que, a la hora de predecir los brotes de cólera, debía considerar la ubicación de un país o ciudad, la proporción de tierra cubierta por agua, la densidad de población, el PIB y si había habido una sequía el año anterior.
Radinsky y Horvitz no son los primeros en considerar el uso de noticias en línea y otros datos para predecir acontecimientos futuros, aunque señalan que hacen uso de más fuentes de datos (más de 90 en total), lo cual permite que su sistema tenga un uso más general.
Ya existe un pequeño mercado para las herramientas de predicción. Por ejemplo, una start-up llamada Recorded Future hace predicciones sobre eventos futuros recogidas de declaraciones en línea y otras fuentes que hagan referencia al futuro, y entre sus clientes se encuentran varias agencias de inteligencia del Gobierno de EE.UU.
Christopher Ahlberg, director general y cofundador de la compañía, aseguró que la nueva investigación es un buen trabajo que muestra cómo se pueden hacer predicciones con datos firmes, pero también señaló que convertir el sistema prototipo en un producto requerirá un mayor desarrollo.
Microsoft aún no tiene planes para comercializar la investigación de Radinsky y Horvitz, pero el proyecto continuará, declaró la primera, que quiere utilizar más archivos de periódicos, así como libros digitalizados.
«Muchas cosas cambiaron en el mundo en las últimas décadas, pero la naturaleza humana y muchos aspectos del medio ambiente se mantienen iguales», indicó Radinsky. «Por lo tanto, el software podría ser capaz de aprender patrones a partir de datos incluso de gran antigüedad que puedan sugerir lo que está por suceder. Personalmente estoy muy interesada en obtener datos más antiguos», añadió.
Notas relacionadas:
Tejnión demanda a Microsoft
El Tejnión construirá un campus universitario en Nueva York
Nuevo sello conmemora 100 años de la primera piedra del Tejnión