La importancia de la información no estructurada en el Big Data

Ese vídeo promocional en Facebook del nuevo producto de la compañía está teniendo millones de reproducciones, pero ¿debes considerarlo un éxito solo teniendo en cuenta esa cifra? Puede que su viralidad se deba a que los usuarios estén denunciando su contenido, en lugar de difundiéndolos por razones positivas. De ahí la importancia de analizar la información no estructurada como parte del Big Data.

La información no estructurada representa en torno al 90% del total de datos de una empresa, según el informe BI Trend Monitor 2016 de Barc. Con esta prevalencia, uno de los retos principales de las organizaciones es incluir la gestión de estos datos entre sus prioridades más acuciantes.

El Big Data y los datos

Dentro del Big Data, existen dos grandes tipos de datos:

  • Datos estructurados. Se trata de aquellos datos que, según define David López García en su trabajo fin de máster Análisis de las posibilidades de uso de Big Data en las organizaciones, “tienen bien definidos su longitud y su formato”. Hablamos, por tanto, de números y fechas sobre todo que pueden ser almacenados en estructuras de datos predefinidas (como hojas de cálculo). Pueden provenir de máquinas (el número de entradas a una piscina, facilitado por el sistema de apertura de barrera de acceso, por ejemplo) o por personas (como los generados por un contable en sus informes).
  • Datos no estructurados. Serían el caso opuesto, es decir, aquellos que no podemos registrar como una estructura. Proceden, igual que el caso anterior, de herramientas informáticas (como la imagen de una cámara de vigilancia) o por sujetos (como los comentarios de los usuarios de las redes sociales).

Así mismo, dentro de esta información no estructurada podemos observar dos grupos diferentes:

  • Datos textuales: consisten en mensajes, ya sea un correo electrónico, un documento o el contenido de la mensajería instantánea.
  • Datos no textuales: proceden de imágenes, audios o vídeos.

¿Para qué sirve la información no estructurada?

A pesar de su valor para las empresas, los datos estructurados no llegan a reflejar la realidad con el grado de exactitud que sí consigue la información no estructurada. Por ejemplo, mientras los indicadores de datos estructurados nos pueden decir cuántos clientes han accedido a la página web, es la información no estructurada la que nos dará a conocer por qué lo han hecho.

En definitiva, la información estructurada describe lo que está pasando y la no estructurada desvela la causa de esa situación, un origen que es necesario conocer si se quiere actuar sobre el foco del asunto.

Más, teniendo en cuenta el crecimiento exponencial que registra este tipo de datos. En concreto, según un informe de Gartner, mientras el Big Data aumenta anualmente entre un 40 y 60%, la información no estructurada lo hace en un 80%.

Por ello, como apunta Logicalis, empresa de soluciones TI, “es obvio que el crecimiento de datos no estructurados supera con creces el de datos estructurados, por lo que plantea un reto en términos de almacenamiento a las organizaciones, desafío que debe afrontarse ya que ambos tipos de datos son imprescindibles”