El blog de Juan Pedro Cabrera

El Marketing del futuro no se entenderá sin Big Data

Escrito en co-autoría con Curro Villarejo.

 

Hace tiempo ya que oímos hablar del término Big Data y aún hoy parece que es algo ajeno a nosotros y percibido como algo del futuro. Nada más lejos de la realidad, los datos proporcionados por el  INE para el 4º trimestre 2015-1er trimestre 2016 nos mostraban que un 3% de las empresas censadas usaban técnicas de Big Data para explotar sus datos, y el porcentaje aumentaba, considerablemente, hasta el 21% del total si nos centramos en empresas de más de 250 empleados.

Ahora bien, ¿qué entendemos por Big Data? Hay muchas posibles definiciones y ninguna parece obtener un consenso suficiente. Partiendo de la definición dada por Gartner (2012) que define Big Data como “gran volumen, gran velocidad y gran variedad de información y datos que necesitan nuevas e innovadoras formas para su procesado con el fin de obtener nuevos y valiosos patrones que nos permitan mejorar la toma de decisiones”, en la propia definición van implícitas las características que ha de tener el Big Data que son las conocidas como V’s del Big Data: volumen, velocidad y variedad.  Algunos autores (Gandomi & Haider, 2015) han añadido tres más: veracidad, valor y variabilidad, si bien esta última no es mayoritariamente reconocida por la literatura científica.

Es necesario profundizar un poco en cada una de las características. Por  volumen entendemos la cantidad de datos a tratar al estar  hablando de varios Terabytes (TB=1012  bytes) e incluso Petabytes (PB=1015 bytes) o más. Aquí se parte de la idea que varios ordenadores son más rápidos que el más rápido de los servidores y además tal cantidad de datos ha de estar físicamente en más de un ordenador por lo que el paradigma de un CRM o ERP en local empieza a desaparecer y hay que empezar a pensar en otro tipo de arquitecturas para soportar tal volumen de datos.

Otra característica importante es la variedad y por lo tanto, la heterogeneidad de los datos. Esto nos obliga a usar otro tipo de bases de datos. Las “antiguas” bases de datos relacionales funcionan muy bien con estructuras claras y definidas de los datos, pero no funcionan cuando los datos no tienen estructura predefinida. Lo mismo podemos almacenar un tuit, que una imagen, un documento, una reseña en una red social o un vídeo, entre otros.

Asimismo, la proliferación de dispositivos digitales con conexión a internet (o a ordenadores de una empresa) genera datos a tal velocidad que hay que estar preparados para analizarlos en tiempo real si queremos sacar el máximo provecho de ellos.

Por otra parte, hay que tener en cuenta que hay que tratar con datos inciertos y dudosos como por ejemplo, el sentimiento hacia una marca en una red social, por lo que hay que usar herramientas adecuadas para constatar la veracidad de estos. También hay que saber tratar con la variabilidad ya que los datos se pueden generar en diferentes momentos con picos muy altos de diferente periodicidad y todo lo expuesto anteriormente ha de generar valor, que suele ir correlacionado con el volumen de datos analizado.

Resumiendo, el Big Data tiene que dar respuesta a todos los retos que surgen del  llamado ciclo de vida de los datos: datos propiamente dichos, su procesado y su gestión (Akerkar, 2014; Zicari, 2014).

Estos retos tienen que ver con las características de:

  • Los propios datos: volumen, variedad, velocidad, veracidad, volatilidad, valor y también su visualización.
  • Los procesos: todas las técnicas relacionadas con la captura de datos, su integración en bases de datos, cómo limpiarlos y transformarlos, la selección correcta de modelos y cómo proporcionar los resultados.
  • La gestión: no nos hemos de olvidar de la privacidad, seguridad y aspectos éticos en la gestión de los mismos.

 

PROCESOS DE BIG DATA

Y todo esto no tendría sentido si no ayudara a que la toma de decisiones empresariales esté basada en datos. Así que por ello, las empresas han de ser capaces de sacar información valiosa de forma eficiente de toda esta maraña de datos rápidamente cambiantes. El proceso detallado es el que se muestra en la figura 1: procesos Big Data

FIGURA Nº  1: Procesos Big Data (Agrawal, Bernstein & Bertino, 2011)

Podemos comprobar que hay dos grandes subprocesos: a) la gestión de datos y b) la analítica de datos. El primer gran bloque está más relacionado con el ámbito de la ingeniería y el segundo es el que más nos interesa desde el punto de vista de marketing: la analítica. Conocida como Big Data Analytics o BDA es la parte encargada de obtener el valor de los datos, sacar patrones ocultos y, en definitiva, ayudar a la toma de decisiones de las empresas basada en datos.

a) Gestión de datos

Los datos han de aportarnos valor ya que por sí mismos no sirven de nada. Ahora bien, analizar un grandísimo volumen de datos en muy poco tiempo no es una tarea fácil. Hay que hacer uso intensivo de capacidad de procesamiento, canales de comunicación, acceso a discos,  etc., que dependiendo de la cantidad de datos a procesar puede que incluso no sea posible realizar.

Por tanto, para poder realizar esta tarea hemos de recurrir al procesamiento en paralelo. Es decir, dividir la tarea global en tareas más pequeñas para que  cada tarea sea realizada en un ordenador diferente. Técnicamente podríamos hablar de nodos de una red que bien coordinados pueden hacer la tarea de procesado de datos mucho más rápida que el más rápido de los servidores. Es aquí donde aparecen las nuevas técnicas de cloud computing o procesamiento en la nube, que podríamos definir de acuerdo con el National Institute of Standards and Technology (NSIT) como: “un modelo para permitir un acceso ubicuo, conveniente y bajo demanda a un conjunto compartido de recursos de computación configurables (por ejemplo, redes, servidores, almacenamiento, aplicaciones y servicios) que pueden ser rápidamente provisionados y puestos en marcha con un mínimo de esfuerzo de gestión o de interacción con el proveedor del servicio”.

Con esto relacionamos procesamiento en la nube, Big Data y procesamiento paralelo. Así, si disponemos de una serie de ordenadores conectados en red, podemos repartir la carga de trabajo entre cada uno de ellos y luego un ordenador central se encargará de combinar todos los resultados de cada uno de los ordenadores de la red obteniendo así el resultado final esperado. Este es uno de los algoritmos más importantes de Big Data y se conoce como MapReduce, desarrollado por Google.

Conocido cómo podemos procesar muchos datos si disponemos de una red de ordenadores, hemos de ver cómo almacenar estos datos. Debemos ser capaces de procesar datos provenientes de webs y medios sociales, del IOT (internet de las cosas) y sus múltiples sensores conectados, datos públicos u Open Data, datos biométricos, datos de aplicaciones en la nube, datos transaccionales, documentos legales, datos generados por humanos (videos, fotos, emails, grabaciones de voz, etc.), todos con una estructura distinta.

Para almacenar esta ingente cantidad de datos no es posible una base de datos relacional en la que cada tabla tenía unos campos y una estructura determinada. La solución al almacenamiento de datos no estructurados vino de la mano de las bases de datos NoSQL (Not Only SQL). NoSQL engloba una amplia variedad de tecnologías relacionadas con bases de datos desarrolladas para dar respuesta a la necesidad de almacenamiento, frecuencia de acceso y rendimiento y capacidad de procesamiento. Estas bases de datos suelen almacenar datos sin ningún tipo de esquema, suelen contar con una arquitectura distribuida y han de ser escalables en función de las necesidades. Los datos los suelen almacenar siguiendo los siguientes esquemas: clave-valor, orientadas a documento, orientadas a columna y orientadas a grafo; cada una de ellas con sus ventajas e inconvenientes. Hay bastantes bases de datos NoSQL y muchas de ellas son de código abierto. Se puede encontrar una gran cantidad de ellas en: http://nosql-database.org/

Si los datos se almacenan de diferente forma ya que no son estructurados y están distribuidos, hay que tener un sistema de archivos diferente a los que usamos habitualmente como el GFS (o Google File System) que junto con el algoritmo MapReduce son el germen de Hadoop. Hadoop es un proyecto de la fundación Apache que desarrolla software de código abierto para computación distribuida, confiable y escalable.

Hadoop es por antonomasia el marco de desarrollo para Big Data. Hadoop es un ecosistema de herramientas de código libre para escribir y ejecutar aplicaciones en sistemas distribuidos y para procesar grandes cantidades de datos y está formado por diferentes módulos como bases de datos NoSQL (Cassandra, Hbase o MongoDB), sistema de archivos HDFS, MapReduce y un largo etc., que podemos ver en la figura 2.

ecosistema Hadoop

FIGURA Nº  2: Ecosistema Hadoop

b) Analítica de datos

Hay diferentes métodos analíticos para extraer información valiosa de los datos que podemos agrupar tal y como muestra la figura 3:

tipos de analítica

FIGURA Nº  3: Clasificación de los diferentes tipos de analítica (Sivarajah, Kamal, Irani & Weerakkody, 2016)

 

Los diferentes métodos analíticos, tanto para datos estructurados como no, podemos aplicarlos para los siguientes grandes bloques:

  • Analítica de textos
  • Analítica de audio
  • Analítica de vídeo
  • Analítica de medios sociales
  • Analítica de datos
  • Inteligencia Artificial

Estos grandes bloques no son excluyentes entre sí ya que pueden usarse técnicas de aprendizaje automático (dentro de la Inteligencia Artificial) para distinguir fotografías o reconocimiento de voz aparte de patrones de comportamiento de consumidores o cualquier otro fenómeno del que dispongamos de datos. De hecho, son complementarios y la mayor parte de las veces se usan conjuntamente, aunque cada uno tenga algoritmos propios y específicos para obtener mejores rendimientos. Por lo tanto, y a efectos de obtener una mejor clasificación de estos métodos, podemos recurrir a la tabla 1:

Tipo Método Descripción
Aprendizaje automático Aprendizaje supervisado Los métodos de aprendizaje supervisado predicen eventos futuros desde modelos que aprenden y son entrenados usando datos con ciertas etiquetas. Estos modelos se entrenan y se testan con validación cruzada usando varios algoritmos. Los modelos de aprendizaje supervisado son muy usados para clasificar y para agrupar datos (clustering). Sin embargo, tienen la limitación de manejar rápidos cambios en Big Data.
Aprendizaje no supervisado Los modelos de aprendizaje no supervisado se entrenan con datos sin etiquetar y sirven para predecir eventos futuros. Se usan principalmente para agrupamiento de datos (clustering).
Aprendizaje semi-supervisado Los modelos de aprendizaje semi-supervisados se desarrollan inicialmente con datos etiquetados y se van actualizando constantemente con la información positiva producida por cada predicción correcta de eventos. La conducta adaptativa de estos modelos sí que permita manejar cambios en la información.
Aprendizaje profundo

(Deep Learning)

Los modelos de aprendizaje profundo (o deep learning) son una representación jerárquica de los modelos de aprendizaje supervisados y no supervisados. Estos modelos son los mejores para gran cantidad de datos de múltiples dimensiones. Son una gran elección para analizar Big Data.
Minería de Datos Clasificación Los clasificadores se construyen con o sin modelos de aprendizaje y se usan para predecir una clase nominal.
Reglas de asociación Los métodos de reglas de asociación funcionan en dos pasos. Primero, los elementos más frecuentes se resaltan poniéndolos como umbral mínimo de soporte y estableciendo entonces una asociación con los demás valores dando un valor mínimo de confianza.
Análisis de regresión Los métodos de regresión se basan en teorías estadísticas y se usan para establecer las relaciones entre diferentes tipos de datos.
Métodos estadísticos Estadística descriptiva Los métodos de estadística descriptiva se usan para realizar resúmenes estadísticos usando operaciones estadísticas básicas sobre todo el conjunto de datos.
Estadística Inferencial Los métodos de estadística inferencial ayudan a descubrir el comportamiento de toda la población analizando una muestra del total.

TABLA Nº 1: Métodos de análisis de datos para Big Data (Rehman, Chang, Batool & Wah, 2016)

Anteriormente, el responsable de llevar a cabo el análisis de los datos era el Analista de Datos, que tenía labores sobre la aplicación de las diferentes técnicas y su interpretación. Este analista de datos era el responsable de los almacenes de datos (no desde el punto de vista técnico) de donde se obtenía toda la inteligencia de negocio.

Hoy día, y en el ámbito del Big Data esto ya no es suficiente y es necesaria una nueva función: la del Científico de Datos (o Data Scientist). Esta nueva función es una de las más demandadas ya que aparte de las funciones del analista de datos, abarca la extrapolación y la predicción, así como la prescripción de acciones a realizar. Para poder realizar todo esto, el perfil del científico de datos ha de tener competencias no sólo estadísticas, sino también de programación y conocimiento de redes junto con un profundo conocimiento del negocio en sí. Así que es un perfil que aúna la estadística con la computación y la empresa.

El científico de datos normalmente trabaja sobre algún entorno computacional como el entorno que nos proporciona el lenguaje estadístico R o las bibliotecas científicas ScyPy (scikit-learn,…) sobre el lenguaje Python.

En la figura 4 podemos ver algunos de los algoritmos implementados en la librería de scikit-learn para Python en la que en función de una serie de características de los datos podremos hacer una clasificación, un agrupamiento, una regresión para predecir resultados o un análisis de componentes principales para reducir la dimensión de los datos.

 

Algoritmos scikit-learn

FIGURA Nº  4: Algoritmos implementados en scikit-learn

 

¿Y QUÉ PASA CON EL MARKETING?

Si hablamos de marketing, hablamos de marketing de relaciones, orientado al mercado y que requiere del exhaustivo conocimiento de los consumidores y competidores en mi mercado. Hablamos por ello de necesidad de información que sirva para tomar decisiones. Se trata pues de ver cómo incorporar el Big Data a esta toma de decisiones y cómo este ayuda en las decisiones del programa de marketing-mix ampliado (5 P’s). Para ello, usaremos el modelo de la figura 5 donde vemos cómo encaja el Big Data para cada una de las cinco variables.

marketing Big Data

FIGURA Nº  5: Marco de trabajo con el marketing mix para Big Data (Fan, Lau & Zhao, 2015)

El Big Data podrá utilizarse para las decisiones de marketing y permitirá a las empresas: 1) estudiar cómo seleccionar las fuentes de datos apropiadas para cada objetivo de marketing; 2) analizar cómo seleccionar los métodos de análisis de datos apropiados; 3) preguntar cómo integrar diferentes fuentes de datos para estudiar complejos problemas de marketing; 4) investigar cómo tratar la heterogeneidad de las fuentes; 5) examinar cómo balancear inversiones entre las diferentes técnicas de inteligencia de marketing; y 6) ir implementando mejoras conforme van desarrollándose nuevas tecnologías asociadas al Big Data.

Y lo mejor del Big Data es que casi todo el software necesario para su uso y explotación es de código libre por lo que el precio de las licencias no es un obstáculo para ningún tipo de empresa. Entonces, ¿a qué estáis esperando para empezar a usar Big Data en la vuestra?

 

Bibliografía

Agrawal, D., Bernstein, P., & Bertino, E. (2011). Challenges and Opportunities with Big Data 2011-1. Proceedings of the VLDB Endowment, 1–16. Retrieved from http://dl.acm.org/citation.cfm?id=2367572%5Cnhttp://docs.lib.purdue.edu/cctech/1/

Akerkar, R. (2014). Analytics on big aviation data: Turning data into insights. International Journal of Computer Science and Applications, 11(3), 116–127.

Fan, S., Lau, R. Y. K., & Zhao, J. L. (2015). Demystifying Big Data Analytics for Business Intelligence Through the Lens of Marketing Mix. Big Data Research, 2(1), 28–32. https://doi.org/10.1016/j.bdr.2015.02.006

Gandomi, A., & Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137–144. https://doi.org/10.1016/j.ijinfomgt.2014.10.007

Gartner. (2012). What Is Big Data? – Gartner IT Glossary – Big Data. Retrieved May 22, 2017, from http://www.gartner.com/it-glossary/big-data/

Rehman, M. H. U., Chang, V., Batool, A., & Wah, T. Y. (2016). Big data reduction framework for value creation in sustainable enterprises. International Journal of Information Management, 36(6), 917–928. https://doi.org/10.1016/j.ijinfomgt.2016.05.013

Sivarajah, U., Kamal, M. M., Irani, Z., & Weerakkody, V. (2016). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, 70, 263–286. https://doi.org/10.1016/j.jbusres.2016.08.001

Zicari, R. (2014). Big data: Challenges and opportunities. Big Data Computing. https://doi.org/doi:10.1201/b16014-5

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.