26/06/2016
Big data: el poder de la información a gran escala
Con el término big data se designa a aquellos conjuntos de datos tan voluminosos que no pueden ser procesados a través de tecnologías tradicionales. Los datos pueden ser o no estructurados; es decir, pueden estar o no almacenados en estructuras como arrays, archivos, registros, tablas y árboles. Y aunque no está escrito qué tan grande debe ser un conjunto de datos para entrar en esta definición, generalmente se incluye a aquellos que están en el orden de los petabytes (1.000.000 GB) o los exabytes (1.000.000.000 GB).
La acumulación de datos a gran escala no es algo nuevo. Por ejemplo, en la industria del gas y el petróleo, desde hace décadas se almacenan datos históricos sobre actividad sísmica, tasas de producción y rendimiento de perforación como base para optimizar los procesos de extracción. Sin embargo, recién en 2001, cuando la evolución de la tecnología empezaba a ampliar los horizontes del big data, el investigador Douglas Laney terminó de popularizar el concepto al definirlo como la combinación de tres aspectos diferentes, conocidos como «las tres V»:
- Volumen: Las organizaciones recolectan datos de numerosas fuentes, incluyendo transacciones comerciales, redes sociales e información proveniente de sensores.
- Velocidad: Los datos viajan a una velocidad sin precedentes y deben ser manejados a través de tecnologías acordes, como etiquetas RFID, sensores y medidores inteligentes.
- Variedad: Los datos vienen en todo tipo de formatos, desde bases de datos tradicionales hasta documentos de texto, audio o video.
Para la gran mayoría de las empresas, el manejo de semejantes volúmenes de datos es inalcanzable, ya que no poseen la capacidad de procesamiento requerida y utilizan motores de bases de datos relacionales (como MySQL), que pueden resultar insuficientes. En cuanto al hardware, el big data requiere de equipos con memoria y CPU de alto rendimiento y capacidades avanzadas de procesamiento en paralelo, virtualización, escalabilidad y seguridad. En cuanto al software, el big data exige soluciones especiales, como Apache Hadoop, que no utiliza una tradicional base de datos sino un sistema de archivos distribuido.
Herramientas de data mining pueden analizar estos grandes bloques de datos y sintetizarlos en información relevante, que sirva para predecir cambios y tomar decisiones inteligentes. Este enfoque es utilizado en los más diversos ámbitos:
- Marketing. Empresas con varios millones de usuarios analizan los datos de actividad de sus clientes para predecir su comportamiento futuro y anticiparse a sus necesidades, pudiendo así acercarles las ofertas que más les interesen en cada momento. Otras aplicaciones en este campo son utilizar datos sobre la demanda de un producto para fijar su precio en distintas zonas; usar datos de encuestas, reviews, conversaciones telefónicas y otras fuentes para conocer los gustos de los consumidores antes de lanzar un producto; y analizar diversos datos geográficos (de tráfico, de población, de actividad comercial, etc.) para determinar el mejor lugar donde abrir una nueva sucursal.
- Salud. IBM desarrolla varios proyectos en este campo, como un sistema para predecir ataques cardíacos a partir de los patrones hallados en un enorme volumen de historias clínicas. Además, tres organizaciones de Pittsburgh se unieron para crear la Health Data Alliance, destinada a promover sistemas de prevención y diagnóstico de enfermedades basados en big data.
- Agricultura. El futuro de esta industria está directamente ligado al desarrollo del big data, que permite planificar mejor los cultivos a partir de información histórica sobre el clima y la productividad del suelo de cada región.
- Gobierno. Los datos recogidos por organismos oficiales pueden analizarse a través de distintas herramientas software para diseñar políticas públicas. Por ejemplo, la policía de tránsito de Tennessee usa un programa llamado Crash Reduction Analyzing History (CRASH), que procesa grandes cantidades de datos sobre patrones climáticos, historial de accidentes, fechas de partidos de fútbol y otros eventos y hasta la ubicación de los lugares que venden alcohol. A partir de esta información, pueden determinar con gran exactitud los momentos y lugares donde es más probable que ocurra un accidente. Entonces, envían oficiales allí para vigilar el tránsito y brindar asistencia inmediata en caso de producirse un siniestro.
- Ciencia. El Gran Colisionador de Hadrones, el mayor acelerador de partículas del mundo, produce al menos 30 petabytes al año, con el objetivo de poner a prueba distintas teorías del campo de la física de partículas.
Si bien las aplicaciones del big data son fascinantes, se trata de un enfoque no apto para la mayoría de las empresas:
- La infraestructura hardware y software necesaria para implementarlo tiende a ser extremadamente costosa.
- No es fácil encontrar data scientists o expertos en business intelligence, es decir, recursos humanos con la formación necesaria para analizar semejantes volúmenes de datos. Esta competencia es importante, porque, si no contamos con ella, terminaremos sacando conclusiones erróneas a partir de nuestros datos, lo que nos llevará a tomar decisiones equivocadas.
- La mayoría de las empresas no registran una cantidad de operaciones mensuales tan grande como para almacenar un volumen de datos en el orden de los petabytes.
Sin embargo, la toma de decisiones basada en datos es un enfoque a considerar por empresas de cualquier tamaño: herramientas de business intelligence, marketing automation y análisis web pueden aportarnos grandes ideas a partir de volúmenes de datos fácilmente manejables, que, desde esta perspectiva, son considerados como small data.
0