Digital Developer Conference: Hybrid Cloud 2021 | Capacitaciones gratuitas por expertos y partners | 21 de Setiembre ¡Inscríbete Ahora!

Cómo saber si una solución de Big Data es correcta para su organización

Introducción

Antes de tomar la decisión de invertir en una solución de big data, evalúe los datos disponibles para análisis; el conocimiento que puede obtenerse de ese análisis; y los recursos disponibles para definir, diseñar, crear y desplegar una plataforma de big data. Hacer las preguntas correctas es una buena forma de comenzar. Utilice las preguntas de este artículo para guiar su investigación. Las preguntas comenzarán a revelar más sobre las características de los datos y el problema que está tratando de solucionar.

Aunque las organizaciones generalmente tienen un vago entendimiento del tipo de datos que necesitan analizarse, es posible que las características específicas no sean tan claras. Después de todo, los datos pueden incluir claves de patrones que no han sido notados anteriormente, y una vez que un patrón es reconocido, la necesidad de un análisis adicional se vuelve obvia. Para ayudar a descubrir estos datos desconocidos, comience por implementar algunos casos de uso básicos, y en el proceso, recolecte datos que anteriormente no estaban disponibles. A medida que se cree el repositorio de datos y más datos sean recolectados, un científico de datos podrá determinar mejor los datos clave y crear modelos predictivos y estadísticos que generarán más conocimiento.

También podría darse el caso de que la organización ya conozca aquello que desconoce. Para atender estos desconocidos conocidos, la organización debe comenzar por trabajar con un científico de datos para identificar los orígenes de datos externos o de terceros y para implementar algunos casos de uso que se basen en estos datos externos.

Este artículo intenta, en primer lugar, responder algunas de las preguntas que surgen normalmente para la mayoría de los CIO antes de tomar una iniciativa de big data y después se centra en un enfoque basado en dimensiones que ayudarán a evaluar la viabilidad de una solución de big data para una organización.

¿Mi problema de big data requiere de una solución de big data?

Con la llegada de las tecnologías de big data, las organizaciones se están preguntando a sí mismas: «¿Es la big data la solución correcta para mi problema empresarial o me proporciona una oportunidad empresarial? ¿Las oportunidades empresariales se ocultan en la big data?» Estas son algunas de las preguntas típicas que escuchamos de los CIO:

Dimensiones para ayudar a evaluar la viabilidad de una solución de big data

Para responder estas preguntas, este artículo propone un enfoque estructurado para evaluar la viabilidad de una solución de big data de acuerdo con las dimensiones mostradas en la siguiente figura.

Las dimensiones que se deben considerar al evaluar la viabilidad de una solución de big data

La imagen muestra dimensiones a considerar cuando se evalúa la viabilidad de una solución: un circulo central con Big Data y alrededor de éste círculos menores indican personas, volumen, variedad, velocidad, veracidad, valor y gobierno

  • El valor empresarial de los conocimientos que pueden obtenerse al analizar los datos
  • Las consideraciones de gobernanza para los nuevos orígenes de datos y cómo los datos serán utilizados
  • Las personas con habilidades relevantes disponibles y el compromiso de los patrocinadores
  • El volumen de los datos que se están capturando
  • La variedad de orígenes de datos, tipos de datos y formatos de datos
  • La velocidad a la cual los datos son generados, la velocidad con la que se necesita actuar después o el ritmo al que están cambiando
  • La veracidad de los datos o, más aún, la incertidumbre o la confiabilidad de los datos

Para cada dimensión, incluimos preguntas clave. Asigne un peso y una prioridad para cada dimensión, de acuerdo con el contexto empresarial. La evaluación variará en cada caso empresarial y con cada organización. Considere trabajar a través de estas preguntas en una serie de talleres con la empresa pertinente y las partes interesadas de TI.

Valor empresarial: ¿qué conocimientos son posibles con tecnologías de big data?

Muchas organizaciones se preguntan si los conocimientos empresariales que están buscando pueden atenderse por una solución de big data. No existen guías definitivas que definan los conocimientos que pueden derivarse de la big data. Los escenarios necesitan identificarse por la organización y evolucionan con el tiempo. Un científico de datos es clave para determinar e identificar los casos empresariales de uso y los escenarios que, si son implementados, brindarán un valor significativo a la empresa.

El científico de datos debe poder entender los indicadores de rendimiento clave que apliquen algoritmos estadísticos y complejos a los datos para obtener una lista de casos de uso. Los casos de uso son distintos para cada industria y empresa. Es útil estudiar el mercado para conocer lo que está haciendo la competencia, qué fuerzas de mercado están en funcionamiento y, principalmente, qué están buscando los consumidores. La siguiente tabla muestra ejemplos de casos de uso de diversas industrias.

Minoristas de e-commerce y en línea

Los minoristas electrónicos como eBay están creando constantemente ofertas dirigidas para impulsar el valor del ciclo de vida del cliente (CLV), entregar experiencias de cliente consistentes en todos los canales, conocer las iniciativas de los clientes a partir de ventas, marketing y otros orígenes, y optimizar continuamente los procesos de backend.

  • Motores de recomendación: incrementan el tamaño del pedido al recomendar productos de forma complementaria con base en análisis predictivo para ventas cruzadas.
  • Analítica en todos los canales: atribución de ventas, valor de pedido promedio y valor de por vida (por ejemplo, cuántas compras en la tienda resultaron de una recomendación, una publicidad o una promoción particular).
  • Analítica de eventos: ¿Qué series de pasos (el camino dorado) llevaron a un resultado deseado (compra de producto o registro, por ejemplo)?
  • «La oferta correcta en el momento correcto» y «La siguiente mejor oferta»: desplegar modelos predictivos en combinación con motores de recomendación que impulsan siguientes mejores ofertas automatizadas e interacciones personalizadas a través de múltiples canales de interacción.
Comercio minorista y enfocado en el cliente
  • Comercialización y análisis de la canasta básica
  • Gestión de campaña y programas de lealtad de clientes
  • Gestión y analítica de la cadena de suministro
  • Focalización basada en eventos y en comportamientos
  • Segmentaciones de mercado y de consumidores
  • Análisis predictivo: los minoristas desean predecir factores que pueden ser importantes para un comprador antes de que el producto sea ofrecido al público
Servicios financieros
  • Informes de conformidad y normativos
  • Análisis y gestión de riesgos
  • Detección de fraudes y analítica de seguridad
  • CRM y programas de lealtad de clientes
  • Riesgo, puntuación y análisis de créditos
  • Arbitraje comercial de alta velocidad
  • Vigilancia de transacciones
  • Análisis de patrones de transacciones anormales
Detección de fraudes

La gestión de fraudes ayuda a mejorar la rentabilidad del cliente al predecir las probabilidades de que una transacción dada o una cuenta de cliente estén experimentando un fraude. Las soluciones analizan transacciones en tiempo real y generan recomendaciones para acciones inmediatas, lo cual es crítico para detener el fraude de terceros, así como el fraude de primeras partes y el uso indebido y deliberado de privilegios de cuentas. Las soluciones están típicamente diseñadas para detectar y prevenir una amplia variedad de fraudes y tipos de riesgos a través de múltiples industrias, incluyendo:

  • Fraude de pago con tarjeta de crédito y débito
  • Fraude de depósito de cuenta
  • Fraude técnico y deuda incobrable
  • Fraude de cuidado de la salud
  • Fraude de asistencia médica y de cuidado médico
  • Fraude de seguros de propiedad y accidentes
  • Fraude de compensación laboral
  • Fraude de seguros
Web y medios digitales

Muchos de los datos con los que trabajamos actualmente son consecuencia directa de las crecientes redes sociales y el marketing digital. Los clientes generan un rastro de «polución de datos» que pueden ser minados y puestos en uso.

  • Analítica de secuencia de clics a gran escala
  • Focalización, análisis, predicción y optimización de publicidad
  • Prevención de abusos y fraude de clics
  • Análisis gráfico social y segmentación de perfiles
  • Gestión de campaña y programas de lealtad
Sector público
  • Detección de fraudes
  • Detección de amenazas
  • Seguridad cibernética
  • Análisis de conformidad y normativo
  • Consumo de energía y gestión de la huella de carbono
Ciencias de la salud y de la vida
  • Detección de fraudes de seguros de la salud
  • Optimización de campañas y de programas de ventas
  • Gestión de marca
  • Análisis de programas y calidad del cuidado del paciente
  • Gestión de la cadena de suministros de fármacos y de dispositivos médicos
  • Análisis de descubrimiento y desarrollo de fármacos
Telecomunicaciones
  • Garantía de utilidades y optimización de precios
  • Prevención de la deserción de clientes
  • Gestión de campaña y lealtad de clientes
  • Análisis de Registro de Detalle de Llamadas (CDR)
  • Rendimiento y optimización de la red
  • Análisis de la ubicación del usuario móvil
Servicios públicos

Los servicios públicos ejecutan sistemas grandes, costosos y complicados para generar energía. Cada red incluye sensores sofisticados que supervisan el voltaje, la corriente, la frecuencia y otras características operativas importantes. La eficiencia significa poner especial atención a todas las secuencias de datos de los sensores.

Los servicios públicos ahora están aprovechando los clústeres de Hadoop para analizar los datos de la generación de energía (la oferta) y el consumo de energía (la demanda) a través de medidores inteligentes.

La adopción de medidores inteligentes ha resultado en un diluvio de datos que están fluyendo a niveles sin precedentes. La mayoría de los servicios públicos están mal preparados para analizar los datos una vez que los medidores han sido encendidos.

Media

En la industria del cable, la big data puede ser utilizada para analizar datos de decodificadores diariamente por grandes operadores de cable tales como Time Warner, Comcast y Cox Communications. Estos datos pueden ser aprovechados para ajustar la actividad de publicidad o promocional.

Otras funciones
  • Mashups: ubicación del usuario móvil y focalización de precisión * Datos generados por máquina
  • Datos generados por máquina
  • Citas en línea: un servicio líder de citas en línea utiliza análisis sofisticado para medir la compatibilidad entre miembros individuales, de forma que pueda sugerir buenos emparejamientos
  • Videojuegos en línea
  • Mantenimiento predictivo de aeronaves y automóviles

Los clientes potenciales están generando enormes cantidades de datos nuevos en redes sociales y sitios de revisiones. Dentro de la empresa, los datos transaccionales y los registros web están creciendo a medida que los clientes se cambian a canales en línea para hacer negocios e interactuar con otras compañías.

Cuando estos nuevos datos son analizados en el contexto de los datos archivados sobre los clientes existentes, las empresas obtienen conocimientos sobre nuevas oportunidades empresariales.

La big data puede ofrecer una solución viable si:

  • El valor generado por los conocimientos desarrollados a partir de datos vale la pena en comparación con el costo de capital por invertir en una solución de big data
  • Los escenarios de cara al cliente demuestran el valor potencial obtenido del conocimiento

Al evaluar el valor empresarial que será obtenido por una solución de big data, considere si su entorno actual puede ser expandido y compárelo con el costo de esta inversión.

¿Puede mi entorno actual ser expandido?

Haga las siguientes preguntas para determinar si puede aumentar la plataforma del depósito de datos existente:

  • ¿Los conjuntos de datos actuales son muy grandes; hasta alcanzar los terabytes o petabytes?
  • ¿El entorno del depósito existente contiene un repositorio de todos los datos generados o adquiridos?
  • ¿Existe una cantidad significativa de datos fríos que no estén siendo analizados para derivar conocimiento empresarial?
  • ¿Tiene que desechar datos porque no es capaz de almacenarlos o procesarlos?
  • ¿Desea poder realizar exploración de datos en cantidades grandes y complejas de datos?
  • ¿Desea poder hacer análisis de datos no operacionales?
  • ¿Está interesado en utilizar sus datos para tipos de analítica nuevos y tradicionales?
  • ¿Está intentando retrasar una actualización para su depósito de datos existente?
  • ¿Está buscando formas de reducir su costo general de hacer analítica?

Si la respuesta a cualquiera de estas preguntas es sí, explore las formas para aumentar el entorno del depósito de datos existente.

¿Cuál es el costo de expandir mi entorno actual?

El costo y la factibilidad de extender una plataforma de depósito de datos existente o del entorno de TI en comparación con la implementación de una solución de big data depende de:

  • Las herramientas y la tecnología existentes
  • La escalabilidad del sistema existente
  • La energía de procesamiento del entorno existente
  • La capacidad de almacenamiento de la plataforma existente
  • El gobierno y las políticas que se están aplicando
  • La heterogeneidad de las aplicaciones de TI existentes
  • La tecnología y las habilidades empresariales que existen en la organización.

También depende del volumen de los datos que serán recolectados de nuevos orígenes de datos, la complejidad de los casos de uso empresariales, la complejidad analítica del procesamiento y qué tan costoso es obtener los datos y las personas con el conjunto de habilidades correcto. ¿La agrupación de recursos existentes puede desarrollar nuevas habilidades de big data o los recursos con habilidades especializadas pueden ser contratados de forma externa?

Tenga en mente que el efecto de una iniciativa de big data en otros proyectos está en camino. Adquirir datos de nuevos orígenes es costoso. Es importante identificar primero cualquier dato que exista internamente en los sistemas y en las aplicaciones y en datos de terceros que estén siendo recibidos actualmente. Si un problema empresarial puede ser solucionado con datos existentes, los datos de orígenes externos podrían no ser necesarios.

Evalúe el portafolio de aplicaciones de la organización antes de procurar nuevas herramientas y aplicaciones. Por ejemplo, una simple plataforma de Hadoop puede no ser suficiente para los requisitos y puede ser necesario comprar herramientas especializadas. O en contraste, una versión comercial de Hadoop puede ser costosa para el caso de uso actual, pero puede ser necesaria como una inversión a largo plazo para soportar una plataforma estratégica de big data. Considere el costo de infraestructura, hardware, software y mantenimiento necesario para las herramientas y tecnologías de big data.

Gobierno y control en los datos: ¿cuál es el impacto en el gobierno de TI existente?

Al decidir si debe implementar una plataforma de big data, una organización puede estar buscando nuevos orígenes de datos y nuevos tipos de elementos de datos donde la propiedad del día no está claramente definida. Ciertas regulaciones de la industria gobiernan los datos que son adquiridos y utilizados por una organización. Por ejemplo, en el caso del cuidado de la salud, ¿es legítimo acceder a datos del paciente para derivar conocimientos a partir de los datos? Normas similares gobiernan a todas las industrias. Además de los problemas del gobierno de TI, los procesos empresariales de una organización también pueden necesitar ser redefinidos o modificados para habilitar la organización para adquirir, almacenar y acceder datos externos.

Considere los siguientes problemas relacionados con el gobierno en el contexto de su situación:

  • Seguridad y privacidad – Al mantenerse en línea con las normativas locales, ¿a qué datos puede acceder la solución? ¿Qué datos pueden ser almacenados? ¿Qué datos deben ser cifrados durante el movimiento? ¿Y en reposo? ¿A quién se le permite ver los datos en bruto y los conocimientos?
  • Estandarización de los datos – ¿Existen estándares que gobiernan los datos? ¿Los datos están en un formato de propietario? ¿Algunos de los datos están en un formato no estándar?
  • Plazo durante el cual los datos están disponibles – ¿Los datos están disponibles durante un plazo que permita que se realicen acciones de forma oportuna?
  • Propiedad de los datos – ¿A quién pertenecen los datos? ¿La solución tiene acceso y permisos apropiados para utilizar los datos?
  • Usos permitidos: ¿Cómo se permite que se utilicen los datos?

¿Puedo implementar una solución de big data de forma incremental?

Una solución de big data puede ser implementada de forma incremental. Es útil definir con claridad el ámbito del problema empresarial y establecer, en términos medibles, la ganancia de ingresos empresariales esperada.

En el caso empresarial de financiamiento, tenga cuidado de señalar el ámbito del problema y los beneficios proyectados de la solución. Si el ámbito es muy pequeño, los beneficios empresariales no se conseguirán, y si es muy grande, será un reto obtener el financiamiento y completar el proyecto dentro de un plazo apropiado. Defina las funciones principales en la primera iteración del proyecto, de forma que sea fácil ganar la confianza de las partes interesadas.

Personas: ¿se cuenta con las habilidades correctas y con las personas correctas?

Se requieren habilidades específicas para entender y analizar los requisitos y mantener la solución de big data. Estas habilidades incluyen conocimiento de la industria, experiencia de dominio y conocimiento técnico en herramientas y tecnologías de big data. Los científicos de datos con experiencia en modelado, estadísticas, analítica y matemáticas son clave para el éxito de cualquier iniciativa de big data.

Antes de llevar a cabo un proyecto de big data, asegúrese de contar con las personas correctas:

  • ¿Cuenta con el apoyo de las partes interesadas y otros patrocinadores empresariales que estén dispuestos a invertir en el proyecto?
  • ¿Hay científicos de datos disponibles que entiendan el dominio, que puedan observar la cantidad masiva de datos y que puedan identificar formas de generar conocimientos significativos y útiles a partir de los datos?

¿Hay datos existentes que puedan ser utilizados para obtener conocimientos?

Todas las organizaciones tienen muchos datos que no están siendo aprovechados para obtener conocimiento empresarial. Los bolsillos incluyen archivos de registro, archivos de error y datos operacionales de aplicaciones. No pase por alto estos datos como un origen potencial de información valiosa.

¿La complejidad de los datos se está incrementando?

Busque pistas que indiquen que la complejidad de los datos se ha incrementado, especialmente con relación al volumen, la variedad, la velocidad y la veracidad.

¿El volumen de los datos se ha incrementado?

Tal vez quiera considerar una solución de big data si:

  • La dimensión de los datos alcanza los petabytes y exabytes y en el futuro cercano pueden crecer a zetabytes.
  • El volumen de los datos está presentando retos técnicos y económicos para almacenar, buscar, compartir, analizar y visualizar utilizando métodos tradicionales, tales como motores de base de datos relacional.
  • El procesamiento de datos actualmente puede utilizar poder de procesamiento paralelo masivo en el hardware disponible.

¿La variedad de los datos se ha incrementado?

La variedad de los datos podría demandar una solución de big data si:

  • El contenido y la estructura de los datos no pueden ser anticipados o predichos.
  • El formato de los datos varía, incluyendo los datos estructurados, semiestructurados y sin estructura.
  • Los datos pueden ser generados por usuarios y máquinas en cualquier formato, por ejemplo: Microsoft® Archivos de Word, hojas de cálculo de Microsoft Excel®, presentaciones de Microsoft PowerPoint, archivos PDF, redes sociales, registros web y de software, emails, fotografías y videos de cámaras, dispositivos móviles sensibles a la información, tecnologías sensoriales aéreas, genómica y registros médicos.
  • Han surgido nuevos tipos de datos de orígenes en los que anteriormente no se hacía minería para obtener conocimiento.
  • Las entidades de dominio adquieren distintos significados en distintos contextos.

¿Ha cambiado o se ha incrementado la velocidad de los datos?

Considere si sus datos:

  • Están cambiando rápidamente y deben ser respondidos inmediatamente
  • Tienen tecnologías y métodos tradicionales abrumadores, lo cual ya no es adecuado para manejar los datos que van llegando en tiempo real

¿Sus datos son confiables?

Considere una solución de big data si:

  • La autenticidad o precisión de los datos es desconocida.
  • Los datos incluyen información ambigua.
  • No está claro si los datos están completos.

Una solución de big data puede ser apropiada si existe una complejidad razonable en el volumen, la variedad, la velocidad o la veracidad de los datos. Para los datos más complejos, evalúe cualquier riesgo asociado con la implementación de una solución de big data. Para los datos menos complejos, se deben evaluar soluciones tradicionales.

¿Toda la big data es un problema de big data?

No todas las situaciones de big data requieren una solución de datos big data. Busque pistas en el mercado. ¿Qué está haciendo la competencia? ¿Qué fuerzas del mercado están involucradas? ¿Qué están demandando los clientes?

Utilice las preguntas de este artículo para ayudarle a determinar si una solución de big data es apropiada para su situación empresarial y para obtener el conocimiento empresarial que necesita. Si ha decidido que es tiempo de iniciar un proyecto de big data, vea el siguiente artículo que habla sobre la definición de una arquitectura lógica y la determinación de los componentes clave necesarios para su solución de big data.

Aviso

El contenido aquí presentado fue traducido de la página IBM Developer US. Puede revisar el contenido original en este link.