• 01 800-286-84-64 (222) 409-05-87

  • Instagram
  • Facebook
  • Twitter
  • youtube
  • Linkedin
Big data: El poder de la información

iconito Autor: Diana Bautista Villagómez
Julio de 2018


“Tenemos tantos datos y tanta capacidad de procesarlos, de identificar correlaciones, que podemos hacer a la sociedad muy predecible. Y cuando puedes predecir, puedes programar.”

Martin Hilbert
Asesor Tecnológico de la Biblioteca del Congreso de Estados Unidos.

En la actualidad, el concepto Big Data cobra fuerza e interés en las empresas, en la academia y en el marketing, sin embargo, según una encuesta realizada por LogLogic, el 38% de las personas no entienden lo que es y el 27% dice que tiene una comprensión parcial, mientras que un 59% de las organizaciones carecen de las herramientas necesarias para gestionar los datos de sus sistemas de Tecnologías de la Información. Por lo anterior, para entender el potencial de la Big Data, primero es necesario definir el concepto.


La traducción literal de la expresión Big Data es: “Datos Masivos” o “datos a gran escala”. Según Ziff Davis, fundador de ZDNet, Big Data es un término que aplica a toda la información que no puede ser procesada o analizada mediante procesos tradicionales; es decir, las cantidades masivas de datos que se acumulan con el tiempo que son difíciles de analizar y manejar utilizando herramientas comunes de gestión de bases de datos. Así mismo, algunas definiciones más extensas también incluyen al tratamiento y análisis de estos enormes repositorios de datos (Dans, 2011).

Si bien, aún no existe un consenso sobre una definición exacta de Big Data, muchos expertos coinciden en que dicho término se relaciona con volumen, variedad y velocidad de datos.

¿De dónde proviene toda la información?

Se estima que la información digital disponible en el mundo, actualmente, es de 5 Zetabytes (cien trillones de bits), y esta se duplica cada dos años y medio; el volumen es tal que se dice que, si se pone toda esta información en libros, se lograrían 9 mil pilas de libros que llegarían hasta el sol.1

Esta información se encuentra en todo el ciberespacio, sin embargo no sirve de nada sin la tecnología necesaria para manejar tal cantidad de datos no estructurados o semiestructurados, por ello se han desarrollado tecnologías de procesamiento como MapReduce o Hadoop.

Hadoop es un software para aplicaciones intensivas de datos distribuidos y actualmente es una de las tecnologías más populares para el almacenamiento de los datos estructurados, semiestructurados y no estructurados que forman el Big Data. Por su parte, MapReduce funciona para procesar grandes cantidades de petabytes de información.

Google Cloud Platform ofrece la forma más amplia y sencilla del software Hadoop al alcance de todos, para recoger, procesar, almacenar y analizar datos en una única plataforma. Google Cloud Dataproc es un servicio Hadoop de bajo costo, administrado para procesar sin esfuerzo grandes conjuntos de datos mediante las potentes herramientas abiertas del ecosistema de Big Data de Apache (creadores de Hadoop).

Tipos de datos

Si bien, existen muchas categorías de información dentro del Big Data, el International Business Machines Corporation (IBM) clasifica cinco tipos de datos dentro del Big Data:


  1. Web y Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, Instagram, Uber, etc.
  2. Máquina a máquina (M2M): Se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa.
  3. Gran transacción de datos: Incluye registros de facturación, en telecomunicaciones como los registros detallados de las llamadas telefónicas que realizamos.
  4. Biométrica: Información en la que se incluyen huellas digitales, escaneo de la retina, reconocimiento facial y genética. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.
  5. Generada por humanos: Nosotros generamos grandes cantidades de datos por el almacenamiento que utilizamos, por ejemplo, una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, entre otros.

¿Para qué sirve el Big Data?

El uso y análisis del Big Data sirve tanto para crear nuevos productos, como para predecir comportamientos y tendencias de marketing, hasta para facilitar una búsqueda en Google.

Algunas empresas llevan años manejando el Big Data. Por ejemplo, las empresas de telecomunicaciones recopilan miles de millones de registros detallados de llamadas, procedentes de sistemas y establecimientos diferentes; o la industria del petróleo analiza terabytes de información geológica; otras le han encontrado uso en las bolsas de valores, que procesan millones de transacciones por minuto.

En el mundo deportivo, han encontrado en la Big Data a un aliado, puesto que ayuda a predecir aspectos como tácticas de juego gracias al análisis de datos. Por ejemplo, la NFL tiene una base de análisis de datos que les ayuda a conocer las cuestiones climatológicas que afectan el césped, la dirección o velocidad del balón o incluso hay información que permite prevenir lesiones en los jugadores.

Sin embargo, la función más conocida de la Big Data es en el marketing, cuya finalidad es crear bases de datos de los consumidores para posicionar un producto o servicio en el mercado, favoreciendo a las grandes empresas alrededor del mundo.

Los usos de los datos masivos pueden ser ilimitados e inimaginables, sin embargo, necesitan un proceso de recolección y análisis para que sean útiles.

Datificación y Analytics

Como se mencionó al principio, la expresión Big Data también hace referencia al tratamiento de grandes volúmenes de datos mediante algoritmos matemáticos con el fin de establecer correlaciones entre ellos, predecir tendencias y tomar decisiones.

Los algoritmos que se utilizan actualmente son capaces de encontrar patrones comunes en los datos con la finalidad de obtener la información y, de ser posible, que puedan procesarse de forma rápida y en tiempo real.

Es por ello, que nace la necesidad de recopilar información sobre cuanto existe bajo el sol y transformarla a datos para cuantificarla, a esto se le denomina datificación, esta nos permite darle usos nuevos a la información, tal es el caso del análisis predictivo que, por ejemplo, nos permite detectar si un motor es proclive a fallos mecánicos basándonos en las vibraciones que emite.

Un ejemplo aún más claro, es que gracias a esta datificación se logra el Deep Learning o lo que hoy en día conocemos como inteligencia artificial. Siri de Apple y Cortana de Microsoft usan la datificación como si se tratara de redes neuronales, sólo que la inteligencia artificial utiliza el Big Data y la datificación para lograr sus principales funciones.

Después de la datificación llega el análisis de la información recopilada, que va de la mano con la forma actual de almacenar y procesar macrodatos. La palabra anglosajona Analytics comenzó a cobrar fuerza a inicios de este nuevo milenio para las empresas, principalmente, entendiéndose como el descubrimiento y la comunicación de patrones significativos de la información, o concebido como un método de análisis lógico de la información (Meier & Donze, 2012).

Las técnicas informáticas utilizadas en la detección, extracción y análisis de datos empresariales, tienen por objetivo principal, ayudar a mejorar la toma de decisiones empresariales. Sin embargo, el uso del Big Data y su análisis con fines comerciales, políticos y/o económicos, sitúa a la mayoría de la población frente a enormes riesgos en cuestión de protección de la privacidad.

Por ejemplo, Google, cuyo número de usuarios sobrepasa los mil millones, dispone de un impresionante número de sensores para reconocer el comportamiento de cada usuario, y su motor de búsqueda le permite saber dónde se encuentra el internauta, qué busca y en qué momento.

Es decir, con cada “clic” que hacemos, desbloqueo de nuestro teléfono móvil, pagos con tarjetas de crédito o débito, y con las búsquedas que realizamos a través de la navegación por internet, suministramos una gran cantidad de información sobre cada uno de nosotros, información que, como veremos, puede ser usada para propósitos poco éticos.

Cambridge Analytica

Cambridge Analytica era una empresa londinense que usaba el análisis de datos para conocer el comportamiento de las personas y, a partir de ello, desarrollar campañas políticas y comerciales.

El diario The New York Times presentó una investigación en la que señalaba que, durante las elecciones de 2016, Cambridge Analytica trató de influir en los votantes estadounidenses usando información recopilada en Facebook.

En el reporte del diario, se explica que la empresa de análisis de datos obtuvo información de 50 millones de usuarios de Facebook, que al completar un test -que previamente requería un permiso para acceder a la información personal- generó una base de datos. El objetivo era crear perfiles psicológicos de cada votante para saber cuál tenía que ser el contenido, tema y tono de un mensaje para influir en la decisión de voto a favor de Donald Trump.

La base de datos ayudó a crear un argumento concreto e individualizado y los algoritmos crearon 175 mil versiones de un mensaje que se envió de manera personalizada a cada usuario.

Por ejemplo, si Trump mencionaba su apoyo al derecho a poseer armas, algunos en redes sociales recibieron publicidad con esa aseveración, acompañada de la imagen de un supuesto criminal irrumpiendo a una casa, porque de acuerdo al algoritmo, es gente que busca la seguridad de su familia; otros, con un perfil más “patriota”, recibieron la imagen de un padre que va a cazar con su hijo. Es la misma propuesta pero envuelta en dos argumentos distintos, sin embargo, este ejemplo palidece con la realidad, pues Cambridge Analytica creó 175 mil variantes de una misma propuesta.

“Te lavan el cerebro. No tiene nada que ver con democracia. Es populismo puro, te dicen exactamente lo que quieres escuchar.”

Hilbert, 2017

Barak Obama, ex presidente de Estados Unidos, fue el pionero en utilizar el análisis de datos para influir en los votantes. En la campaña de 2012, para su reelección, invirtió mil millones de dólares en este rubro, mucho más que en comerciales de TV.

Según datos de la agencia de noticias EFE, el equipo de Obama obtuvo información de 16 millones de votantes indecisos. Incluso, se cree que tuvieron acceso a las Setup-Boxes, que registran algunos comportamientos del usuario al ver la televisión, esto les permitió crear comerciales más individualizados.

Protección de datos personales

Los macrodatos generan beneficios incontables, pero también vulneran la información personal y el pleno cumplimiento de los derechos constitucionales a la privacidad y a la protección de datos personales.

En consecuencia, en Europa ya se debate sobre las violaciones al derecho fundamental a la intimidad y la nula seguridad en la red. El claro ejemplo es la invasión de la privacidad –por medio de permisos engañosos- de algunas herramientas de metabuscadores en las redes sociales.

Por otro lado, en nuestro país la conceptualización del Derecho a la Intimidad, se materializa en la Ley General de Protección de Datos Personales en Posesión de Sujetos Obligados. Dicha ley no impide la publicación de aquello que es de interés público o general, sino que garantiza la protección de los datos personales en posesión de cualquier autoridad, entidad, órgano y organismo, con la finalidad de regular su debido tratamiento.

En el caso particular de México, en 2009 se reformó el artículo 73 constitucional para legislar en materia de protección de datos personales en posesión de particulares, y los artículos 7 y 16 constitucionales, establecen criterios tutelares de la privacidad e Intimidad de las personas. El artículo 7 prevé como límite a la libertad de imprenta, el respeto a la vida privada; mientras que en el artículo 16 se regulan dos aspectos relevantes de la garantía protectora del Estado: la inviolabilidad domiciliaria y de las comunicaciones privadas.

El Big Data resulta ser mucho más revolucionaria hoy en día, gracias a los mecanismos que aparecen con las nuevas tecnologías; sin embargo, siempre debemos contemplar que la revolución no estriba en que las máquinas calculen y analicen los datos existentes en el mundo, sino en el uso que le demos al conocimiento que obtengamos de dichos datos. Está en nuestras manos que esta gran cantidad de datos genere cambios sociales y avances tecnológicos o, por el contrario, sirvan para manipular y crear una dictadura de la información.


___________________________
1IBM. (2017) Big Data y el crecimiento de datos. Recuperado de: www.ibm.com

Referencias:

Aprenda más acerca de Apache Hadoop en http://hadoop.apache.org

Cisco, Internet será cuatro veces más grande en 2016, Artículo Web www.cisco.com

Colegio de México. (2017) Ley General de Protección de Datos Personales en Posesión de Sujetos Obligados.
Disponible en: www.colmex.mx

Cortes, R. (2018) Ética Periodistíca, Fake News y Big Data.

Dans, L. (2011) Simple demographics often identify people uniquely. Carnegie Mellon Univesrity, editor. Data Privacy Working Paper 3, 2000. Disponible en: dataprivacylab.org

González, I. (2016) Protección de datos, La gestión de datos personales en la PRL y la aplicación de la LOPD. Lefebvre-El derecho, 13 de abril de 2016. Disponible en: http://tecnologia.elderecho.com

Lizardo, G. (2017) Martín Gilbert: La democracia no está preparada para la era digital. BBC. Disponible en: www.bbc.com/mundo

Mayer-schönbergen (2012) Big data: A revolution that will transform how we live, work, and think. Houghton Mifflin Harcourt, 2013.

Mayer-Schönberger, 2013, Big data : la revolución de los datos masivos. Madrid. Turner.

Woody, Todd. “Automakers, Tech Companies Mining Electric Car Big Data to Plot Industry’s Future.” Forbes. 18 de junio de 2012. Disponible en www.forbes.com

Si quieres profundizar más sobre este y otros temas, especialízate en políticas públicas con las maestrías en línea de IEXE. Para obtener más información regístrate en el siguiente formulario:
-

Suscríbete para recibir las entradas nuevas en tu correo