Los límites del «Big Data»

Actualizado:

El mundo es cada vez más un gigantesco yacimiento de información digital, en el que el 90% de los datos existentes se han generado en los dos últimos años. Y como en todas las fiebres del oro, los mineros toman posiciones para extraer el mayor beneficio al nuevo manantial. Bienvenidos al «Big Data». Así denominan los expertos a este «oro negro» invisible de la era digital, albergado en enormes bases de datos donde almacenamos la huella virtual de casi todas las dimensiones de nuestra existencia: nuestra vida privada, nuestra actividad pública, laboral y económica, y nuestras andanzas en Internet y las redes sociales.

Gran parte de este océano de datos consiste en vídeos subidos a YoutubeGran parte de este océano de datos consiste en realidad en los cientos de miles de vídeos que cada día se suben a Youtube -72 horas de vídeo cada minuto- y la información recabada por Google, que concentra el 90% de las búsquedas online en Europa y el 67,5% en Estados Unidos. Por eso, cada vez más investigaciones científicas y académicas hurgan en sus buscadores para ampliar el conocimiento de nosotros mismos.

La rama filantrópica del gigante de Mountain View, google.org, mantiene desde hace años dos proyectos estadísticos que permiten detectar «casi en tiempo real» brotes nuevos de gripe en 25 países, incluido España, y de dengue en diez naciones a partir de las variaciones en el volumen de búsquedas sobre estas enfermedades. La gran premisa de esta utilización de Google Trends -la herramienta de analítica web del buscador- como repositorio de «Big Data» sería que, en contra de la fórmula bíblica, todo empieza con una búsqueda en Internet.

Así, un grupo de investigadores británicos y estadounidenses concluyó en un llamativo trabajo publicado el año pasado que los usuarios de países con mayor PIB tienden a realizar búsquedas sobre el futuro, mientras que los de economías menos avanzadas hacen más consultas online sobre el pasado. Para la elaboración de su Índice de Orientación Futura [puedes consultar aquí el artículo en inglés] compararon el número de búsquedas en Google relativas a “2009” y a “2011” realizadas en 2010 por los usuarios de 45 países. Los españoles figuran solo en el puesto 26 de una tabla encabezada por Alemania, Suiza, Japón, Reino Unido y Francia, los países más orientados al futuro, si aceptamos esta manera de identificarlo.

«Alertas tempranas», en Google Trends

El mismo equipo de investigadores, liderado por Tobias Preis -especialista alemán de la Boston University adscrito a la Warwick Business School británica- y su colega Susannah Mota -proveniente igualmente del departamento de Física de la Boston University y profesora ahora en el University College of London-, acaba de publicar a finales de abril en una publicación de «Nature» un estudio en el que concluyen que las búsquedas online de términos financieros actúan como «alertas tempranas» de sacudidas en los mercados como la crisis de 2008 [puedes consultar aquí el estudio en inglés]..

«Los datos de mercado capturan las acciones de los traders, pero no nos dicen nada sobre cómo toman sus decisiones, por eso decidimos usar Google para intentar encontrar claves en esos momentos iniciales en los que los traders recopilan información», nos explica Preis en conversación telefónica. «Tenemos a nuestro alcance un volumen masivo de datos online con un alto potencial para ofrecernos información sobre la actividad en los mercados», cree este entusiasta de la utilidad científica del Big Data.

En su investigación, seleccionaron 98 términos de búsqueda de entre los más empleados por el «Financial Times» y los sugeridos por Google Trends y simularon en función de la evolución de búsquedas online estrategias de inversión de distintos portafolios entre 2004 y 2011. La estrategia basada en la evolución de búsquedas en Google del término «deuda» resultó ser la que mejor se comportó, incrementando la rentabilidad de la cartera en un 326% en el periodo, frente al 19% de media.

«Sugerimos que los datos de Google Trends no solo reflejaron el estado de los mercados financieros [en ese momento determinado], sino que podrían también haber sido capaces de anticipar tendencias futuras», aseguran en su trabajo. ¿Entonces, podría haberse «anticipado» la crisis de 2008? «La estrategia basada en el término deuda fue exitosa en el pasado, y para aplicar el modelo en el mundo real tendríamos que adaptar esos términos de búsqueda de forma dinámica», explica Preis. «Pero estoy bastante convencido de que podría haberse detectado antes de la crisis», concluye.

Sus propios resultados ilustran también, sin embargo, las limitaciones del «Big Data» como bola de cristal omnisciente sobre el comportamiento humano. Las estrategias que más rentabilidad aportan en su modelo, después de la basada en “deuda”, eran las construidas a partir de las búsquedas de “color”, “acciones”, “restaurante” y “economía”, en ese orden.

Ruido estadístico

La presencia de “color” y “restaurante” muestra los elevados niveles de «ruido» estadístico, en el sentido de resultados irrelevantes, que acarrean a menudo este tipo de investigaciones. El que es quizás el gran «gurú» del momento en estadística, Nate Silver –convertido en «celebrity» del mundo académico y político tras predecir la victoria de Obama el año pasado-, expresaba hace poco su escepticismo sobre este afán de emplear el Big Data para predecir los movimientos de la economía.

«Soy muy escéptico de que se avance mucho en las predicciones de la actividad en los mercados, porque tendemos a encontrar correlaciones [relaciones estadísticas] válidas en un momento determinado que pueden fácilmente invertirse», explicaba durante la presentación en Londres de su libro, «La señal y el ruido», organizada por el club de debate Intelligence Squared.

El poder del «Big Data» parece imparable. Según los últimos datos, el «stock» global de datos alcanzó en 2012 los 2,8 zettabytes (un ZB equivale a diez megabytes a la decimoquinta potencia). Y se prevé que en 2020 alcance los 40 ZB. «De aquí a 2020, el universo digital se duplicará cada dos años», según el Digital Universe Study, publicado en diciembre por IDC, la gran empresa de análisis del sector. «No hay duda de que es útil aprovechar volúmenes enormes de datos para encontrar cosas», nos explicaba Philip Campbell, director de la revista «Nature», en un reciente encuentro con ABC. Y cita el ejemplo de la secuencia del genoma humano. «Pero no creo que el Big Data vaya a darnos el equivalente a la teoría de la relatividad de Einstein», concluye.

Algunos expertos prefieren el encanto del «small data»Los expertos discuten, además de sobre su calibre explicatorio, sobre la arquitectura de estos enormes volúmenes de datos. Rufus Pollock, director de la Open Knowledge Foundation por el acceso al conocimiento científico, defiende el «small data» o datos pequeños como «la verdadera revolución», una visión compartida por el estadounidense Silver. «La sabiduría de la masa funciona mejor con el mayor número de actores independientes compartiendo sus datos entre ellos», explica el último fichaje de los blogs del «New York Times».

Pero, en el ámbito privado, las empresas dedican cada vez más recursos a explotar y monetizar bases de datos de clientes cada vez más grandes al servicio de sus estrategias de marketing o de negocio. Una fiebre del oro digital que no hará más que crecer, ya sea con fines científicos o comerciales, si tenemos en cuenta que, en la actualidad, solo el 1% del volumen global de datos es analizado, y que el 80% de esos datos no están protegidos (por razones de privacidad, como nuestras comunicaciones, de seguridad, como nuestros datos bancarios, o de confidencialidad, como nuestros documentos), según el Digital Universe Study.

El incentivo económico es evidente, de ahí que cada vez más voces reclamen una regulación de los términos de uso y propiedad de ese caudal informativo. Como advierte el propio Silver, «Google podría hacer mucho mal si quisieran», en referencia al enorme volumen de información que recaban sobre cada uno de nosotros, y al lema oficioso de la empresa de Mountain View: «No hagas el mal» (Do No Evil).