Introdução à Classificação e à Arquitetura de Big Data

Visão geral

Há muitas maneiras de armazenar, adquirir, processar e analisar big data. Cada fonte de big data tem características diferentes, incluindo frequência, volume, velocidade, tipo e veracidade dos dados. Quando big data são processados e armazenados, outras dimensões vêm à tona, como governança, segurança e políticas. Escolher uma arquitetura e construir uma solução apropriada de big data é um desafio, pois é preciso considerar muitos fatores.

Esta série “Arquitetura e padrões de big data” apresenta uma abordagem estruturada, com base em padrões, para simplificar a definição de uma arquitetura geral de big data. Como é importante avaliar se um cenário de negócios é um problema de big data, nós incluímos ponteiros para ajudar a determinar quais problemas de negócios são bons candidatos para soluções de big data.

De classificação de big data à escolha de uma solução de big data

Se você já investigou soluções de big data, sabe que não é uma tarefa simples. Esta série mostra como encontrar uma solução de big data adequada para suas necessidades.

Nós começamos examinando os tipos de dados que o termo “big data” descreve. Para simplificar a complexidade dos tipos de big data, nós classificamos essa categoria de acordo com vários parâmetros e fornecemos uma arquitetura lógica para as camadas e os componentes de alto nível envolvidos em qualquer solução de big data. Em seguida, propomos uma estrutura para classificar problemas de negócios de big data definindo padrões de classificação atômicos e compostos. Esses padrões ajudam a determinar o padrão de solução apropriado para aplicação. Incluímos exemplos de problemas de negócios de vários segmentos de mercado. Por fim, para cada componente e padrão, nós apresentamos os produtos que oferecem a função relevante.

A Parte 1 explica como classificar big data. Os demais artigos desta série tratam dos seguintes tópicos:

  • Definindo uma arquitetura lógica das camadas e dos componentes de uma solução de big data
  • Entendendo padrões atômicos de soluções de big data
  • Entendendo padrões compostos (ou mistos) para usar em soluções de big data
  • Escolhendo um padrão para uma solução de big data
  • Determinando a viabilidade de um problema de negócios para uma solução de big data
  • Selecionando os produtos certos para implementar uma solução de big data

Classificando problemas de negócios de acordo com o tipo de big data

É possível categorizar problemas de negócios em tipos de problemas de big data. Mais adiante, usaremos esse tipo para determinar o padrão apropriado de classificação (atômico ou composto) e a solução de big data apropriada. Mas o primeiro passo é mapear o problema de negócios para o tipo de big data. A tabela a seguir contém problemas comuns de negócios e atribui um tipo de big data a cada um.

Problemas de negócios de big data por tipo

Problemas de negócios Tipo de big data Descrição
Serviços públicos: Prever o consumo de energia Dados gerados por máquina Concessionárias de serviços públicos implementaram medidores inteligentes para medir o consumo de água, gás e eletricidade a intervalos regulares de uma hora ou menos. Esses medidores inteligentes geram enormes volumes de dados de intervalo que precisam ser analisados. As concessionárias também operam sistemas grandes, caros e complicados para gerar energia. Cada rede contém sensores sofisticados que monitoram voltagem, corrente, frequência e outras características operacionais importantes. Para ter eficiência operacional, a empresa precisa monitorar os dados entregues pelo sensor. Uma solução de big data pode analisar dados de geração de energia (fornecimento) e de consumo de energia (demanda) usando medidores inteligentes.
Telecomunicações: Analítica de perda de clientes Dados da web e sociais Dados de transação Operadores de telecomunicações precisam criar modelos detalhados de perda de clientes que incluam dados de mídias sociais e de transação, como CDRs, para estar à frente da concorrência. O valor dos modelos de perda de clientes depende da qualidade dos atributos (dados principais do cliente, como data de nascimento, sexo, local e renda) e do comportamento social dos clientes. Provedores de telecomunicações que implementam uma estratégia de analítica preditiva podem gerenciar e prever a perda analisando os padrões de chamada dos assinantes.
Marketing: Análise de sentimento Dados da web e sociais Departamentos de marketing usam feeds do Twitter para realizar análise de sentimento e determinar o que os usuários estão falando sobre a empresa e seus produtos ou serviços, especialmente após o lançamento de um novo produto ou release. O sentimento do cliente deve ser integrado aos dados de perfil do cliente para derivar resultados significativos. O feedback do cliente pode variar de acordo com seus aspectos demográficos.
Atendimento ao cliente: Monitoramento de chamada Gerado por humanos Departamentos de TI estão usando soluções de big data para analisar logs de aplicativo e obter insight que possa melhorar o desempenho do sistema. Arquivos de log de diferentes fornecedores de aplicativos estão em formatos diferentes e precisam ser padronizados para uso pelos departamentos de TI.
Varejo: Sistema de mensagens personalizado com base em reconhecimento facial e mídia social Dados da web e sociais Biométrica Varejistas podem usar tecnologia de reconhecimento facial combinada a uma foto da mídia social para fazer ofertas personalizadas a clientes com base no comportamento de compra e na localização. Esse recurso pode ter um impacto tremendo nos programas de fidelização dos varejistas, mas há sérias considerações sobre a privacidade. Os varejistas precisariam ser transparentes com relação à privacidade para implementar esses aplicativos.
Varejo e marketing: Dados de dispositivos móveis e direcionamento com base em localização Dados gerados por máquina Dados de transação Varejistas podem atingir seu público-alvo com promoções específicas e cupons com base em dados de localização. As soluções são geralmente projetadas para detectar a localização de um usuário ao entrar em uma loja ou através de um GPS. Dados de localização combinados a dados de preferência do cliente obtidos em redes sociais permitem que os varejistas direcionem campanhas de marketing online e nas lojas com base no histórico de compras. As notificações são entregues por meio de aplicativos remotos, SMS e email.
FSS, assistência médica: Detecção de fraude Dados gerados por máquina Dados de transação Gerados por humano A capacidade de gerenciamento de fraudes prevê a probabilidade de fraude em uma dada transação ou conta do cliente. Soluções analisam transações em tempo real e geram recomendações para ação imediata, o que é essencial para impedir fraudes de terceiros, fraudes pela própria pessoa e mau uso deliberado de privilégios de conta. As soluções são projetadas geralmente para detectar e evitar diversos tipos de fraude e risco em vários segmentos de mercado, incluindo: Fraude em cartões de crédito e débito Fraude em contas de depósito Fraude técnica Dívida em aberto Fraude em assistência médica Fraude em Medicaid e Medicare Fraude em seguro de propriedade e de vida Fraude em seguro-desemprego Fraude em seguros Fraude em telecomunicações

Quando problemas de big data são categorizados por tipo, é mais fácil ver as características de cada tipo de dados. Essas características ajudam a entender como os dados são obtidos, como são processados para o formato apropriado e com que frequência novos dados estão disponíveis. Dados de diferentes fontes possuem características diferentes; por exemplo, dados de mídia social podem ter vídeos, imagens e texto não estruturado, como postagens de blog, entrando continuamente.

Nós avaliamos dados de acordo com essas características comuns, das quais tratamos na seção a seguir:

  • O formato do conteúdo
  • O tipo de dados (dados de transação, históricos e principais, por exemplo)
  • A frequência de disponibilização dos dados
  • A intenção: como é preciso formatar os dados (consulta ad hoc nos dados, por exemplo)
  • Se o processamento deve ocorrer em tempo real, quase em tempo real ou em modo de lote.

Usando os tipos de big data para classificar suas características

É útil examinar as características de big data seguindo certas linhas — por exemplo, como os dados são coletados, analisados e processados. Após a classificação dos dados, é possível associá-los com o padrão apropriado de big data:

  • Tipo de análise — Se os dados são analisados em tempo real ou agrupados para análise posterior. Pense bastante antes de escolher o tipo de análise, pois isso afeta várias outras decisões sobre produtos, ferramentas, hardware, fontes de dados e a frequência estimada dos dados. Para alguns casos de uso é necessária uma mistura dos dois tipos:

    • detecção de fraude; a análise deve ser feita em tempo real ou quase.
    • Análise de tendência para decisões estratégicas de negócios; análise pode ser feita em modo de lote.
  • Metodologia de processamento — O tipo de técnica a ser aplicada para processar dados (por exemplo, preditiva, analítica, consulta ad hoc e relatórios). As necessidades de negócios determinam a metodologia de processamento apropriada. É possível usar uma combinação de técnicas. A escolha de metodologia de processamento ajuda a identificar as ferramentas e técnicas apropriadas para uso na solução de big data.
  • Frequência e tamanho dos dados — O volume estimado de dados e a frequência com que chegam. Saber a frequência e o tamanho ajuda a determinar o mecanismo de armazenamento, formato de armazenamento e as ferramentas necessárias de pré-processamento. Frequência e tamanho de dados dependem das fontes:

    • Sob demanda, como dados de mídia social
    • Feed contínuo, em tempo real (dados de clima ou transacionais)
    • Série temporal (dados com base em tempo)
  • Tipo de dados — Tipo dos dados a serem processados — transacionais, históricos, principais e outros. Saber o tipo de dados ajuda a segregar os dados no armazenamento.
  • Formato de conteúdo — Formato dos dados recebidos — estruturados (RDMBS, por exemplo), não estruturados (áudio, vídeo e imagens, por exemplo) ou semiestruturados. O formato determina como os dados recebidos precisam ser processados e é essencial para escolher ferramentas e técnicas e definir uma solução de uma perspectiva de negócios.
  • Fonte de dados — Fontes de dados (onde os dados são gerados) — web e mídia social, gerados por máquina, gerados por humanos, etc. Identificar todas as fontes de dados ajuda a determinar o escopo de uma perspectiva de negócios. A figura mostra as fontes de dados mais usadas.
  • Consumidores de dados — Uma lista de todos os possíveis consumidores dos dados processados:

    • Processos de negócios
    • Usuários corporativos
    • Aplicativos corporativos
    • Pessoas individuais em várias funções de negócios
    • Parte dos fluxos do processo
    • Outros repositórios de dados ou aplicativos corporativos
  • Hardware — O tipo de hardware no qual a solução de big data será implementada — hardware barato ou de ponta. Entender as limitações do hardware ajuda na escolha da solução big data.

Classificação de big data mostra as várias categorias para classificar big data. As principais categorias para definir padrões de dados de big data foram identificadas e destacadas em azul listrado. Padrões de big data, definidos no próximo artigo, derivam de uma combinação dessas categorias.

Classificação de big data

Tabela de classificação de big data

Conclusão e agradecimentos

No restante desta série, descreveremos a arquitetura lógica e as camadas de uma solução de big data, do acesso ao consumo de big data. Incluiremos uma lista abrangente de fontes de dados e apresentaremos padrões atômicos com foco em cada um dos aspectos importantes de uma solução de big data. Trataremos de padrões compostos e explicaremos como padrões atômicos podem ser combinados para solucionar casos particulares de uso de big data. Concluiremos a série com alguns padrões de solução que associam casos de uso muito usados a produtos.

Os autores gostariam de agradecer Rakesh R. Shinde por sua orientação em definir a estrutura geral da série e por ler e fazer comentários valiosos.

Aviso

O conteúdo aqui presente foi traduzido da página IBM Developer US. Caso haja qualquer divergência de texto e/ou versões, consulte o conteúdo original.