Big Data, venta de datos y el lado oscuro por @IgnacioBustillo
El martes pasado, tuve la suerte de poder asistir a la charla que Ignacio Bustillo (un gran amiguete) impartió sobre Big Data™ dentro del Ciclo de charlas en el ámbito de la Informática que viene organizando la Universidad de Cantabria los últimos años.
A modo de breve resumen os diré que soltó tal cantidad de información que a cualquiera no iniciado le habrá explotado el cerebro. Dividió la charla en dos partes, la primera en la que hablaba del mundo Big Data™, tecnología, herramientas, etc.; y la segunda que presentaba un caso real de la última empresa por la que pasó (lo que yo llamo su «época Black Hat») en la que se dedicaban a captar y vender datos, explicando como es todo el proceso de obtención, manipulación, venta y uso abriendo la puerta al debate sobre el estado actual y el futuro del negocio del Big Data.
Obviamente no voy a replicar aquí todo lo que dijo, porque ni estoy capacitado, ni tendría sentido, y si os interesaba tanto todo ¡haber ido! Además así podríais haber venido después a tomar unas cañas y compartir vuestra propia sabiduría.
La parte que a mi más me gustó fue en la que habló de la historia. Ya sabéis que me gusta entender el pasado, los porqués, de dónde vienen las cosas…
Hace muchos años, cuando tenía obligación de ir a la universidad, ya había clases de Minería de Datos y Nacho explicó que el Big Data™ no deja de ser Data Mining 2.0 (y ya llega el 3.0 con la computación cognitiva). La minería de datos se basa en la estadística, cosa muy antigua y que se ya se empleaba ¡incluso antes de la existencia de los ordenadores! En el 96 aparece la primera definición de minería de datos en la que apuntaba hacia la búsqueda de patrones. Pero más atrás incluso, ya existían herramientas que ahora están muy de moda como R o Weka, que se vienen usando para estadística computacional desde el 93.
La gran barrera de entrada de estas materias era la capacidad de cómputo, ya que no se habían preparado las cosas para hacerlas de un modo distribuido, así que te veías limitado a lo que te permitiese hacer tu máquina y si tenías acceso a un supercomputador pues genial pero si no, era difícil que pudieses trabajar. Sin embargo, en 2004 un equipo de Yahoo creó una implementación del MapReduce planteado por Google que permitió la ejecución de estos procesos de minería en multiples nodos pudiendo emplear clusters de comodity hardware, haciendo que todo fuese más accesible y divertido; esa implementación se llamó Hadoop.
Tuvimos nuestra pequeña diatriba personal (aunque sobre todo «off the record») sobre la parte que estuvo contando sobre las bases de datos, en las que las clasificaba y exponía sus características. Varias veces dijo que MongoDB escala (aunque también en la segunda parte, explicando su proyecto, comentó que por los problemas de Mongo sólo lo usaban para almacenar 5 días de histórico). Cuando no tuvimos gente delante y pudimos hablar, estuvimos de acuerdo con que Mongo escala dentro de una instancia simple, pero más te vale que no necesites distribuirlo porque vas a estar fucking jodido. También es cierto que con una instancia tocha tienes Mongo para rato. Al final todo depende de lo que tengas en mente cuando pienses en escalar.
Pasando por la historia de las herramientas, vimos que muchas estaban lanzadas por grandes compañías que las habían liberado a la comunidad (Hadoop de Yahoo, Hive de Facebook, HBase de Google, Storm de Twitter, Kafka de Linkedin, …). El camino del Big Data™ es largo como para intentar afrontarlo tú sólo. El Hadoop, que ya por fin parece que conoce todo el mundo, está siendo sustituido por Spark que a su vez está siendo sustituido por Flink. Además no sólo hay múltiples herramientas para hacer cada cosa, si no que hay múltiples versiones de cada herramienta e incompatibilidades entre unas y otras, lo cual hace que el día a día sea muy complejo. Comentaba Nacho, que en entornos profesionales nadie se instala las herramientas de una en una: usan Cloudera, Hortonworks, o inlcuso la española Stratio.
La segunda parte causó mucho interés, supongo que por el componente de todos los potenciales modelos de negocio que pueden surgir de ahí. A mi puede que no me apasionara tanto porque es una visión que ya conocía en general y porque conozco bien el caso particular, ya que han sido muchas cañas con Nacho compartiendo ideas y dándole vueltas a las cosas. Por este motivo y porque seguro que no lo voy a contar muy bien voy a preferir pasar de puntillas por esta mitad, y si acaso que sea él u otro asistente quien os lo cuente.
Por poneros la miel en los labios, os diré que el caso de uso que presentó, empleaba muchas de las tecnologías comentadas en la primera parte y que captaban datos de usuarios y luego los vendían a través de las plataformas de real time bidding en las que en menos de un segundo se comercia con la cookie que te acaba de implantar una web para que las plataformas de publicidad (u otros con fines más perversos) puedan saber tus intereses y categorizarte.
Supongo que el mayor efecto Wow! vino cuando enseñó los resultados que ofrecía Ghostery al entrar en ciertas webs, sorprendiendo a la gente con todas las empresas y entidades que están recopilando y comerciando con nuestra información.
Esto es lo que dio de si la charla, aunque la tarde no se quedó ahí y siguió en unas cañas en las que unos poquitos discutimos sobre tecnología, empresas y modelos de negocio… ¡un gustazo!
No comments yet.