Data Lake es el concepto de poder almacenar todos los datos que genera una empresa en un sistema de bajo costo. En un pasado reciente, las organizaciones guardaban solamente ciertos datos, en la mayoría de los casos los más valiosos o los más frescos, porque era costos e inmanejable archivar la data generada durante largos periodos de tiempo. En ese contexto, como solo se procesaban los datos fundamentales (transacciones individuales, principales clientes, visitas recientes a la página web, etc.), se generaban métricas de negocio que no tomaban el grueso de la información en internet, por lo que la data para análisis era incompleta.
Lo peor es que, en ese proceso, mucha información original y valiosa se borraba de los ordenadores, debido a los elevados costos de almacenar la data. El problema con este esquema, advierte Luis Arellano, Program Director, Big Data & Data Science in the Cloud en IBM, es que se requiere saber de antemano cuáles son los datos que serán más útiles para las métricas, porque al borrar la información esta no se recuperará nunca más.
“Si bien Big Data se ha convertido en la herramienta clave para analizar datos, el problema es que no existía una tecnología que facilitara el acceso a toda la data necesaria”, reflexiona.
LLEGA DATA LAKE
Hoy, las empresas pueden almacenar información a bajo costo gracias a una tecnología llamada Hadoop, que es open source, y permite la creación de sistemas de archivos basados solamente en discos duros estándares, y no en los sistemas comerciales que dominaban el mercado previamente. Ahora, las empresas que necesitan basar sus decisiones en los datos y las acciones pasadas y presentes de sus clientes, podrán hacerlo con presupuestos más reducidos. En ese sentido, los expertos en minería de datos podrán elegir determinados segmentos para hacer el análisis de Big Data o hacer un barrido de toda la información si así lo necesitan, ya que tendrán acceso a todo.
Esta capacidad permitirá un conocimiento más profundo de los clientes y de los procesos de una empresa, para determinar acciones para desarrollar nuevos servicios, ofertas de valor, abrir nuevos negocios, incursionar en nuevos mercados y estructurar procesos para operar de manera más efectiva y rentable. La posibilidad de acceder a repositorios para guardar la información de manera plana, sin ser tabulada o clasificada, está convirtiendo a las empresas que ofrecen la tecnología de Data Lake en catálogos altamente escalables de confianza para almacenar información de una amplia variedad de orígenes.
Cabe preguntarse, ¿están las empresas peruanas preparadas para desarrollar estrategias de Big Data o Data Lake? Para Arellano, como sucede en el resto del mundo, son muchas las empresas que están utilizando estas tecnologías, sobre todo aquellas organizaciones más jóvenes vinculadas al campo digital. Pero, como parte de la tendencia, existen empresas más maduras que están explorando la posibilidad de utilizar estas tecnologías para temas específicos, con planes de crecer en la aplicación de herramientas en tanto se obtengan mejores resultados. El problema en el Perú no sería el presupuesto sino el desconocimiento, cometa Arellano.
“Lo que detiene el uso de Big Data en el Perú no son las ganas de las empresas, porque vemos a muchas ansiosas por usar estas aplicaciones. Lo que sí vemos es una preocupante ausencia de profesionales capacitados en Big Data. Esta falta de talento es a nivel mundial. Pasa en Estados Unidos y en otros países. Pero en América Latina es mucho más grave”, explica Arellano. Para él, otro problema es que las universidades apenas empiezan a montar programas de Big Data en sus mallas curriculares, los cuales ya existen desde hace ya varios años en universidades del exterior, lo que significa que en el Perú no vamos a contar con talento capacitado por unos años más.
PERO, ¿ES NECESARIO?
Cabe preguntarse si en un mercado pequeño como el peruano se necesita tomar decisiones basadas en un mar de datos. Es cierto que, en mercados menos maduros existen más opciones para el crecimiento y la rentabilidad, pero aunque el mercado peruano no tenga el suficiente tamaño, Arellano cree que Big Data todavía puede tener un impacto importante en el país. El único límite que existiría es la insuficiencia de datos para hacer un análisis profundo, lo que significa que solamente las empresas de cierto tamaño podrán obtener mejores resultados.
El reto actual para las empresas es tener un área potente de innovación y desarrollo, para poder establecer una estrategia clara de lo que se está buscando. Porque, como en todo negocio, lo más importante es saber qué se quiere y a dónde se piensa llegar.