Participe da Maratona Behind the Code! A competição de programação que mais te desafia! Inscreva-se aqui

Introdução ao IBM Watson Studio

Introdução

O caminho de aprendizado do IBM® Watson™ Studio demonstra várias maneiras de prever o churn de clientes. Ele vai desde uma abordagem semiautomática usando a ferramenta AutoAI Experiment a uma abordagem diagramática usando SPSS Modeler Flows e um estilo totalmente programado usando Jupyter Notebooks para Python.

Todos os tutoriais neste caminho de aprendizado seguem as principais etapas dos métodos para ciência de dados (e mineração de dados), como Cross Industry Standard Process for Data Mining (CRISP-DM) e a Metodologia de Ciência de Dados da IBM. Os tutoriais se concentram em tarefas para compreensão de preparação de dados, modelagem, avaliação e implementação de um modelo de aprendizado de máquina para análise preditiva. Eles usam como base um conjunto de dados e notebook para churn de clientes — disponível no Kaggle (site em inglês) —, em seguida demonstram maneiras alternativas de resolver o mesmo problema usando o AutoAI, o SPSS Modeler e o serviço IBM Watson Machine Learning fornecido pelo conjunto de ferramentas do IBM Watson Studio. O caminho de aprendizado explica o uso da ferramenta de criação de perfil e os painéis do IBM Watson Studio para oferecer suporte ao entendimento de dados, bem como a ferramenta Refine para resolver tarefas simples de preparação e transformação de dados.

Metodologia de ciência de dados

A IBM definiu um método IBM Cloud Garage (site em inglês) que inclui um modelo de processo para mapear componentes de tecnologia individuais para a arquitetura de referência. Esse método não inclui nenhuma tarefa de engenharia de requisitos ou design thinking. Como pode ser difícil definir inicialmente a arquitetura de um projeto, esse método oferece suporte a mudanças arquitetônicas durante o modelo de processo.

Cada estágio exerce uma função vital no contexto da metodologia geral. Em um certo nível de abstração, pode ser visto como um refinamento do fluxo de trabalho descrito pelo método CRISP-DM (PDF, 531 KB) para mineração de dados.

Fluxo de trabalho do método CRISP-DM e a Metodologia de Ciência de Dados da IBM

Segundo as duas metodologias, todo projeto começa com o Entendimento do negócio, no qual o problema e os objetivos são definidos. No Método de Ciência de Dados da IBM, isso é seguido pela fase de Abordagem analítica, em que o cientista de dados pode definir a abordagem para resolver o problema. O Método de Ciência de Dados da IBM continua com três fases chamadas de Requisitos de dados, Coleta de dados e Entendimento dos dados. No CRISP-DM, eles são apresentados por uma única fase de Entendimento dos dados.

Depois que o cientista de dados compreende e tem dados suficientes para começar, ele passa para a fase de Preparação dos dados. Essa fase geralmente consome muito tempo. Um cientista de dados passa cerca de 80% do seu tempo nessa fase, realizando tarefas como limpeza de dados e engenharia de recursos. O termo “data wrangling” é frequentemente usado nesse contexto. Durante e após a limpeza dos dados, o cientista de dados geralmente realiza uma exploração, como estatísticas descritivas para obter uma visão geral dos dados, e clustering para examinar os relacionamentos e a estrutura latente dos dados. Esse processo costuma ser iterado várias vezes até que o cientista de dados esteja satisfeito com seu conjunto de dados.

No estágio de treinamento do modelo, o aprendizado de máquina é usado na construção de um modelo preditivo. O modelo é treinado e avaliado por medidas estatísticas, como precisão, sensibilidade e especificidade da previsão. Depois que o modelo é considerado suficiente, ele é implementado e usado para pontuação em dados não vistos. A Metodologia de Ciência de Dados da IBM adiciona um estágio de Feedback para obter informações referentes à utilização do modelo, para assim melhorá-lo. Ambos os métodos são altamente iterativos por natureza.

Neste caminho de aprendizado, vamos nos concentrar nas fases, começando com o entendimento dos dados. Em seguida, vamos preparar os dados, construir, avaliar e, depois, implementar e testar o modelo. O propósito é desenvolver modelos para prever o churn de clientes. Os aspectos relacionados à análise das causas desses churns para melhorar o negócio estão fora do escopo deste caminho de aprendizado. Isso significa que trabalharemos com vários tipos de modelos de classificação que podem, dada a observação de um cliente definido por um conjunto de recursos, indicar se esse cliente específico está em risco de churn.

IBM Watson Studio

Para todas as tarefas, usamos o IBM Watson Studio (site em inglês). Ele fornece o ambiente e as ferramentas para resolver problemas de negócios trabalhando com dados de forma colaborativa. Você pode escolher as ferramentas necessárias para analisar e visualizar dados, para limpar e moldar os dados, para ingerir dados de streaming, ou para criar, treinar e implementar modelos de aprendizado de máquina.

Tabela com informações sobre Colaboradores, Ativos e análises e Ferramentas para quem deseja trabalhar com Dados

Com o IBM Watson Studio, você pode:

  • Criar projetos (site em inglês) para organizar os recursos (como conexões de dados, ativos de dados, colaboradores e notebooks) para atingir um objetivo analítico.
  • Acessar dados de conexões (site em inglês) com suas fontes de dados locais ou na nuvem.
  • Fazer upload de arquivos (site em inglês) para o armazenamento de objetos do projeto.
  • Criar e manter catálogos de dados (site em inglês) para descobrir, indexar e compartilhar dados.
  • Refinar os dados (site em inglês) limpando e modelando os dados para prepará-los para análise.
  • Realizar tarefas de ciência de dados (site em inglês) criando Jupyter Notebooks para Python ou Scala, de modo a executar o código que processa dados e, em seguida, visualizar os resultados embutidos. Como alternativa, você pode usar o RStudio para R.
  • Ingerir e analisar (site em inglês) dados de streams com a ferramenta Streams Designer.
  • Criar, testar e implementar modelos de aprendizado de máquina (site em inglês) e deep learning.
  • Classificar imagens (site em inglês) treinando modelos de deep learning para reconhecer o conteúdo da imagem.
  • Criar e compartilhar painéis (site em inglês) de visualizações de dados sem codificação.

Tecnicamente, o IBM Watson Studio é baseado em várias tecnologias de software livre e produtos IBM, conforme mostrado na figura a seguir.

Variedade de produtos e tecnologias de código aberto que o IBM Watson Studio é baseado

No contexto da ciência de dados, o IBM Watson Studio pode ser visto como uma plataforma de colaboração integrada e multifuncional que oferece suporte ao desenvolvedor, engenheiro de dados, analista de negócios e cientista de dados no processo de resolução de um problema de ciência de dados. Para a função de desenvolvedor, outros componentes da plataforma IBM Cloud também podem ser relevantes na criação de aplicativos que usam serviços de aprendizado de máquina. No entanto, o cientista de dados pode criar modelos de aprendizado de máquina usando uma variedade de ferramentas, como:

Além desses três componentes principais, você também usará:

Serviço IBM Watson Machine Learning

Um componente importante do IBM Watson Studio é o serviço IBM Watson Machine Learning e seu conjunto de APIs REST, que podem ser chamados usando qualquer linguagem de programação para interagir com um modelo de aprendizado de máquina. O foco do serviço IBM Watson Machine Learning é a implementação. No entanto, é possível usar o IBM SPSS Modeler ou o IBM Watson Studio para criar e trabalhar com modelos e pipelines. Tanto o SPSS Modeler quanto o IBM Watson Studio usam Spark MLlib e Python scikit-learn. Além disso, oferecem vários métodos de modelagem baseados em aprendizado de máquina, inteligência artificial e estatísticas.

Use os links a seguir para obter informações mais detalhadas sobre o Watson Machine Learning:

Resumo

Este artigo forneceu informações básicas sobre a Metodologia de Ciência de Dados da IBM, a função que o IBM Watson Studio pode exercer e uma prévia do que será abordado neste caminho de aprendizado.

Um objetivo deste caminho de aprendizado é mostrar como o IBM Watson Studio oferece, além dos Jupyter Notebooks para Python, Scala ou R, formas alternativas de passar por um processo semelhante que pode ser mais rápido e alcançado sem habilidades de programação. Em essência, esses mecanismos são SPSS Modeler Flow, que permite a um cientista de dados criar um modelo de forma puramente gráfica definindo um fluxo, e a ferramenta gráfica IBM AutoAI dentro do IBM Watson Studio. Ela vai um passo além do SPSS, fornecendo uma abordagem semiautomática para a criação, avaliação, implementação e teste de um modelo de aprendizado de máquina. Ao mesmo tempo, o caminho de aprendizado mostra como o IBM Watson Studio fornece recursos prontos para a criação de perfil, visualização e transformação de dados, novamente sem a necessidade de programação.

Aviso

O conteúdo apresentado aqui foi traduzido da página do IBM Developer nos EUA. É possível conferir o conteúdo original neste link (site em inglês).