El "Big Bang" de los datos

ROCA Sistemas
17 nov 2021
5 Min. de lectura

Integración de sus sistemas para beneficiarse plenamente del fenómeno del Big Data

Los datos eclipsan a la TI en tamaño, volumen y complejidad, y están creciendo a diario. El Big Bang de datos está aquí y, afortunadamente, la tecnología finalmente se está poniendo al día, lo que hace posible y factible, incluso para las empresas más pequeñas, aprovechar y transformar sus grandes datos en inteligencia empresarial verdaderamente útil y procesable.

Las organizaciones finalmente comprenden que siempre se han basado en datos valiosos que deben extraer y transformar en información para comprender mejor a sus clientes, proveedores y empleados. Solo hay un problema: los datos no suelen estar en una base de datos centralizada o en los formatos y estructuras adecuados para permitir un análisis "lo suficientemente rápido" para que se aproveche como información empresarial significativa.

Los avances significativos en la potencia de procesamiento y el almacenamiento han eliminado la mayoría de los desafíos del hardware. La arquitectura, la integración y el acceso a los datos son los problemas reales. Cada organización necesita examinar su infraestructura existente para determinar la mejor manera de conectar sus estructuras de datos para que, en última instancia, pueda utilizarla para ofrecer las respuestas necesarias para hacer crecer el negocio.

La naturaleza de Big Data

Además de sus datos estándar (ventas por trimestre, niveles de inventario, compra promedio por cliente), los macrodatos consisten en grandes cantidades de datos estructurados y no estructurados dinámicos, en crecimiento y cambiantes, donde las relaciones entre los datos se infieren con frecuencia en lugar de declararse, como como (en un ejemplo de datos no estructurados) menciones de productos y comentarios de clientes en Twitter y Facebook.

Según Gartner , el big data se entiende mejor por las 3 V: volumen, velocidad y variedad. El McKinsey Global Institute (MGI) se refiere a big data como "conjuntos de datos cuyo tamaño está más allá de la capacidad de las herramientas típicas de software de base de datos para capturar, almacenar, administrar y analizar". En otras palabras, los macrodatos son solo metadatos no estructurados que se encuentran alrededor de su negocio que puede analizar, organizar y utilizar para crear el beneficio comercial o un mejor valor.

La tendencia de manejar “conjuntos de datos más grandes” ha crecido porque es más fácil analizar un único conjunto grande de datos relacionados que conjuntos más pequeños separados con la misma cantidad total de datos. Un conjunto de big data permite mayores correlaciones y análisis de datos más profundos , lo que permite a las empresas obtener información rápida, detectar nuevas tendencias comerciales, descubrir relaciones ocultas, componer algoritmos predictivos y mucho más.

Un ejemplo de big data son los listados de bienes raíces. En cualquier momento, más de dos millones de anuncios inmobiliarios están activos en los Estados Unidos. El ochenta y cinco por ciento de los listados se agregan, restan y cambian en cualquier intervalo de 15 minutos, casi siete millones de actualizaciones por hora. Cada listado contiene el precio de la vivienda y las especificaciones básicas (que generalmente son estáticas), así como elementos de datos como los precios promedio en el vecindario, los datos de la comunidad y los promedios de la industria, que siempre están en constante cambio.

Integración: la "gran explosión de la integración"

La integración es el componente más crítico de su capacidad para aprovechar los macrodatos. Los silos de datos aislados no funcionan en la era del big data. Es difícil obtener una vista de 360 grados cuando sus datos de ERP y su CRM, SCM y otros datos residen en sistemas separados que no se comunican entre sí.

Necesita sincronizar o replicar datos estructurados y no estructurados entre sistemas y en un único almacén de datos para su visualización, uso o análisis. Los sistemas que no fueron diseñados para comunicarse ahora deben hacerlo y compartir datos de la manera correcta. Eso significa usar middleware que esté a la altura de la tarea, pero por su propia naturaleza, el middleware genera grandes cantidades de metadatos y, por lo tanto, se convierte en un candidato perfecto para enfoques de big data, como una cuadrícula de datos en memoria.

La creación de un verdadero “flujo” de big data requiere un flujo de información proveniente de sistemas de misión crítica como CRM, ERP, SCM y sistemas heredados; en resumen, todos los sistemas críticos. No es trivial sincronizar o replicar datos en una arquitectura orientada a servicios, en tiempo real e impulsada por eventos y pasarlos a un almacén de datos.

Se requieren herramientas de integración flexibles para construir y acceder a sistemas en un nivel de reglas comerciales utilizando adaptadores aprobados por el proveedor o API para lograr las mejores prácticas. La integración directa de base de datos a base de datos puede anular literalmente las obligaciones de soporte de su ERP y otros proveedores de sistemas críticos. No lo permiten.

Su herramienta de integración debe operar en el nivel de datos a datos y debe considerar las reglas comerciales y ser capaz de desencadenar procesos en tiempo real. Con la nube y la computación social que agregan latencia de comunicación y transporte a múltiples procesos, se vuelve esencial que la arquitectura de middleware se optimice para eliminar cualquier latencia de integración detrás de escena.

Integración y cuadrícula de datos

Las herramientas tradicionales de extracción, transformación y carga (ETL) son inadecuadas para la integración empresarial, especialmente en la era del big data. De hecho, los ETL pueden empeorar la situación. Aunque podrá recopilar los datos, es posible que el resultado sea ahora aún mayor y más complejo de manejar.

El acceso a big data requiere la gestión de grandes volúmenes de datos y debe manejar los datos no estructurados y entregar toda la información en tiempo real. La latencia es un desafío; las empresas deben proporcionar una recuperación de datos rápida para las aplicaciones que requieren tiempos de respuesta rápidos. Cuando un representante de servicio al cliente de una compañía de seguros está hablando por teléfono con un cliente que está esperando una cotización en tiempo real, la velocidad es esencial.

Un sistema de integración debe ofrecer rendimiento, escalabilidad y redundancia, así como el conjunto adecuado de herramientas para administrar los datos y tomar el control justo después de que se haya producido el big bang. La integración lograda con la computación en cuadrícula de datos en memoria proporciona una opción positiva para hacer precisamente eso, aprovechar los macrodatos y administrar los procesos comerciales de la empresa mediante técnicas de macrodatos.

Una cuadrícula de datos en memoria es un software de middleware compuesto por múltiples procesos de servidor que se ejecutan en múltiples instancias de máquinas (físicas o virtuales) que trabajan juntas para almacenar grandes cantidades de datos en la memoria, logrando así alto rendimiento, escalabilidad elástica y redundancia a prueba de fallas. La técnica le permite acceder a los datos de forma aleatoria y rápida con una latencia cercana a cero en lugar de los métodos de acceso al disco secuenciales que requieren acceso secuencial (lo que da como resultado una latencia subóptima).

La plataforma de integración garantiza que los datos relevantes para los requisitos comerciales se extraigan de las bases de datos maestras de todos los entornos y estén disponibles en el almacén de datos para OLAP y otras necesidades de inteligencia comercial. La base de datos en memoria entregará esta información más rápido que los entornos existentes, lo que permitirá el análisis en tiempo real de incluso terabytes de información.

Integración y liderazgo de TI

La integración mejora significativamente los flujos de trabajo y la eficiencia general dentro de la organización. Sin embargo, no todas las plataformas de integración son iguales. Para obtener el mejor rendimiento de integración para los desafíos de big data, necesita middleware que aproveche la computación en cuadrícula de datos en memoria, pero no pase por alto la necesidad de gestión y optimización de procesos comerciales para los sistemas empresariales que está integrando.

La integración que aprovecha la tecnología de big data acelera la recuperación de datos y, como efecto secundario positivo, la integración también proporcionará una plataforma para mejorar los procesos comerciales y el almacenamiento de datos. Es beneficioso para las empresas y la TI.