¡Participa de la Maratón Behind the Code, la competencia de programación más desafiante! Inscríbete aqui

Big data and data warehouse augmentation

Este artículo describe las tecnologías de big data, que se basan en Hadoop, que pueden implementarse para aumentar los almacenes de datos existentes. Los almacenes de datos tradicionales se construyen principalmente en las bases de datos relacionales que analizan los datos desde la perspectiva de los procesos de negocios.

La Parte 1 de estas series describe el estado actual del almacén de datos, su panorama, tecnología y arquitectura. Identifica los impulsores técnicos y de negocios para mover las tecnologías de big data e identifica los casos de uso para aumentar los almacenes de datos para incorporar las tecnologías de big data.

Mientras que las organizaciones buscan el valor empresarial que se oculta dentro de los datos no estructurados, encuentran el desafío de la forma de analizar los datos complejos. Dado que las decisiones de negocios están influenciadas por muchos factores, los modelos de análisis se vuelven cada vez más complejos para tomar en cuenta muchas facetas.

Una infraestructura de TI tradicional no es capaz de capturar, administrar y procesar big data dentro de un tiempo razonable. No puede alojar los conjuntos de datos con volúmenes que oscilan entre una docena de terabytes a muchos petabytes.

Almacenes de datos tradicionales

Tradicionalmente, los almacenes de datos analizan datos estructurados y transaccionales contenidos dentro de las bases de datos relacionales. Estos almacenes aplican indicadores claves de desempeño y arquitectura enfocada a los modelos.

Panorama de administración de datos

Hasta hace poco, el panorama de administración de datos que se muestra en la Figura 1 era simple.

  • Los sistemas de procesamiento de transacción en línea (OLTP) apoyaban los procesos de negocios de la empresa.
  • Los almacenes de datos operativos (ODSs) acumulaban las transacciones de negocios para dar soporte a los reportes operativos.
  • Los almacenes de datos empresariales (EDWs) acumulaban y transformaban las transacciones de negocios para dar soporte tanto a la toma de decisiones operativa como estratégica.

Usualmente, las empresas analizan las fuentes de datos estructurales que se generan dentro de la organización.

Arquitectura de referencia de almacén de datos tradicional

Diagrama a cinco columnas de arquitectura del almacenamiento de datos, con adquisición, integración, repositorio, analítica y presentación de los datos

Cada estrato realiza una función particular:

  • Estrato de adquisición de datos: Consiste de componentes para obtener datos de todos los sistemas fuente, tales como recursos humanos, finanzas y facturación.
  • Estrato de integración de datos: Consiste de los componentes de integración para el flujo de datos de las fuentes al estrato del repositorio de datos en la arquitectura.
  • Estrato del repositorio de datos: Guarda datos en el modelo relacional para mejorar el desempeño y capacidad de extensión de la consulta.
  • Estrato analítico: Guarda datos en un formato de cubo que facilita que los usuarios realicen un análisis de qué sucederá.
  • Estrato de presentación: Aplicaciones o portales que dan acceso a un diferente conjunto de usuarios. Las aplicaciones y portales consumen los datos a través de las páginas web y portlets que se definen en la herramienta de reportes o a través de los servicios de web.

La arquitectura de referencia de BI actual que se muestra en la Figura 2 se soporta por muchos productos:

  • Software IBM® InfoSphere® : Un conjunto de herramientas para la integración y la administración de la información.
  • IBM InfoSphere Metadata Workbench: Las herramientas, procesos y ambientes que se proporcionan para que las organizaciones puedan compartir, localizar y recuperar información de manera confiable y sencilla para estos sistemas.
  • IBM InfoSphere QualityStage® : Ayuda a crear y mantener vistas consistentes de entidades claves que incluyen clientes, proveedores, localizaciones y productos. Úselo para investigar, limpiar y administrar sus datos.
  • IBM® PureData™ Sistema para la Analítica: Simplifica y optimiza el desempeño de la analítica compleja para las aplicaciones analíticas, permitiendo algoritmos complejos para correrse en minutos no en horas.
  • IBM® DB2® : goza de un desempeño, escala y confiabilidad líder de la industria en su elección de plataforma desde Linux, UNIX y Windows a z/OS. Aprenda la forma en la que los clientes están transformando su centro de datos con DB2.
  • Software IBM SPSS: Prediga con confianza lo que sucederá después para que se puedan tomar decisiones más inteligentes, resolver problemas y mejorar los resultados.
  • Inteligencia de Negocios de IBM® Cognos® : Provee reportes, análisis, tableros y marcadores para ayudar a dar soporte a la forma en que piensa y trabaja la gente cuando están tratando de comprender el desempeño de los negocios.
Productos que están mapeados a la arquitectura de referencia

El gráfico anterior con dos barras inferiores, una para gerenciamiento de meta data y otra para el control de calidad

Cambios en el procesamiento de datos

Los cambios en la demanda para el análisis de datos está impulsando la necesidad de implementar la tecnología para manejar nuevos requerimientos. Los ejemplos de las nuevas demandas incluyen:

  • Una dependencia de la organización en el análisis de datos para obtener conocimiento sobre los clientes, patrones de compras de clientes y cadenas de suministro.
  • Un ambiente de negocios cada vez más habilitado e instrumentado por sensores, lo cual genera enormes volúmenes de datos no estructurados.
  • Datos que fluyen a través del sistema en grandes volúmenes
  • Aspectos técnicos que se relacionan al manejo de la complejidad de datos.
  • Demandas de computación intensivas en recursos

El movimiento a las tecnologías de big data

Las organizaciones construyeron almacenes de datos para analizar la actividad de negocios y producir ideas que permitan a aquellos que toman decisiones a actuar sobre y mejorar el desempeño empresarial y la efectividad operativa. A pesar de la madurez del mercado, la tecnología de inteligencia de negocios (BI) permanece a la vanguardia de la inversión en TI. En la medida que se crea más datos, los avances en la tecnología de bases de datos relacionales mejora el software de BI.

Los negocios tienden a adoptar la tecnología de big data por muchas razones:

  • La demanda de los negocios para analizar nuevas fuentes de datos
  • El crecimiento en la complejidad de los datos:

    • La variedad de los tipos de datos
    • El volumen de los datos
    • La velocidad de la generación de los datos
    • La veracidad de los datos a partir de las fuentes múltiples
  • El crecimiento en la complejidad analítica
  • Incrementando la disponibilidad de la computación efectiva en cuanto al costo y el almacenamiento de datos

Los requerimientos de negocios impulsan la demanda de una plataforma de big data

Los encargados de la toma de decisiones en las organizaciones se pueden hacer las siguientes preguntas para medir la necesidad de la tecnología de big data:

  • ¿Son grandes los conjuntos de datos actuales? ¿Se limita a su plataforma o ambiente actual porque no puede procesar la cantidad de datos que quiere procesar?
  • ¿El ambiente del almacén existente un repositorio de todos los datos se generan o adquieren?
  • ¿No se están usando muchos datos fríos o de bajo contacto para analizar y derivar información sobre el negocio?
  • ¿Quiere poder analizar datos no operativos?
  • ¿Quiere usar sus datos para la analítica tradicional y de nuevos tipos?
  • ¿No puede analizar nuevas fuentes de datos porque los datos no se ajustan perfectamente a las filas y columnas definidas por esquema sin sacrificar la fidelidad o los ricos aspectos de los datos?
  • ¿Necesita absorber los datos tan rápidamente como sea posible? ¿Su ambiente requiere la generación del esquema durante el tiempo de ejecución?
  • ¿Está buscando las formas de reducir su costo general en analítica?

Las situaciones que se describen con estas preguntas pueden mejorarse aumentando el ambiente del almacén de datos existentes con las tecnologías de big data.

La plataforma de big data de IBM e InfoSphere BigInsights™

Para muchas organizaciones, Apache Hadoop ofrece un primer paso para implementar el análisis de big data. Este software de fuente abierta permite el procesamiento distribuido de grandes conjuntos de datos a través de los agrupamientos de servidores de productos.

IBM InfoSphere BigInsights combina Apache Hadoop (incluyendo el framework MapReduce y Hadoop Distributed File Systems) con tecnologías y capacidades listas para la empresa únicas de todo IBM, incluyendo Big SQL, la analítica integrada, la visualización, BigSheets y la seguridad. InfoSphere BigInsights es una sola plataforma para administrar todos los datos. InfoSphere BigInsights ofrece muchos beneficios:

  • Provee soporte de clase empresarial, flexible para procesar grandes volúmenes de datos usando flujos de transmisión y recepción de datos por Internet de manera continua y MapReduce
  • Permite que las aplicaciones funcionen con miles de nodos y petabytes de datos de manera altamente paralela y efectiva en cuanto al costo.
  • Aplica analítica avanzada a la información en su forma nativa para permitir un análisis ad hoc
  • Se integra con un software empresarial.

IBM PureData Appliance para Hadoop

Para implementar Hadoop, se necesita dirección sobre la forma de construir, configurar, administrar y administrar agrupamientos a escala de alta calidad de Hadoop (más de 1,000 nodos, potencialmente). Con IBM® PureData™ para Hadoop, una plataforma integrada para la implementación de Hadoop, obtenga acceso a la información y recursos para ayudar a resolver los desafíos de implementación. PureData para Hadoop ofrece:

  • Pericia integrada

    • Se despliega ocho veces más rápido que las soluciones hechas a la medida
    • Visualización integrada, que ayuda a acelerar la obtención de ideas.
    • Aceleradores de aplicación analítica predeterminada para los datos sociales, los datos de máquina y la analítica de texto.
  • Experiencia simplificada

    • Una sola consola para la administración completa del sistema
    • Actualizaciones rápidas del sistema con automatización
    • Framework SQL, que ofrece el acceso simplificado a los datos no estructurados
  • Integrado por diseño

    • Capacidad de creación bidireccional de archivos y restauración
    • Herramientas robustas de seguridad
    • Arquitectura de alta disponibilidad
    • Integración con la plataforma InfoSphere BigInsights
    • Disponibilidad para ingerir datos hasta en 14 TB/hora

Casos de uso de big data

Para explorar e implementar un proyecto de big data, se pueden aumentar los ambientes de almacenamiento de datos existentes casos de uso a la vez, según lo requiera el negocio. Este enfoque permite que las organizaciones actúen con agilidad; reduzcan el costo de propiedad; y proporcionen un mayor tiempo para mercadearlo con un mayor valor de negocios y competitividad.

Considere aplicar las tecnologías de big data en las siguientes formas:

  • Caso de uso 1: Como zona de aprendizaje para los datos de fuente
  • Caso de uso 2: Para los datos históricos en el almacén.
  • Caso de uso 3: Para el análisis exploratorio

Resumen

En el pasado, las herramientas y tecnologías inadecuadas para mantener organizaciones forzadas de big data para construir soluciones analíticas que se basan en los datos estructurados. Por lo tanto, los motores de procesamiento de datos existentes y las soluciones de almacenamiento de datos ofrecen un bajo caudal para los datos, en lugar del volumen y la variedad de datos que constituye big data.

Al enfrentarse con un ecosistema analítico en expansión, los arquitectos de BI necesitan hacer muchas elecciones de tecnología. Quizá la más difícil involucre el seleccionar un sistema de procesamiento de datos para alimentar a varias aplicaciones analíticas.

Con las nuevas tecnologías tales como Hadoop, las organizaciones pueden consumir organizaciones de manera efectiva en cuanto al costo y analizar grandes volúmenes de datos semi estructurados. La tecnología de Big data complementa los métodos de entrega de datos tradicional, de arriba a abajo con unos enfoques de abajo para arriba más flexibles que promueven la exploración ad hoc y el rápido desarrollo de la aplicación.

La Parte 2 de esta serie describe el Caso de Uso 1: Usando las tecnologías de big data para construir una zona de aterrizaje empresarial. También explica la forma en la que la empresa puede reutilizar datos en bruto (estructurados y no estructurados) para dar soporte ad hoc y analítica en tiempo real.

Aviso

El contenido aquí presentado fue traducido de la página IBM Developer US. Puede revisar el contenido original en este link.