Objetivos do aprendizado
Nestas instruções, você irá preparar dados e criar um modelo preditivo usando o IBM SPSS Modeler para avaliar o risc de uma solicitação de empréstimo, aprovar a solicitação e conceder o empréstimo a um cliente ou rejeitar a solicitação.
O conjunto de dados de risco de empréstimo usado nestas instruções é gratuito, de software livre e está disponível no website BigML.
O conjunto de dados contém detalhes sobre clientes que solicitam empréstimos. Alguns dos detalhes disponíveis são o status da conta corrente, a duração, o histórico de crédito, a finalidade, a quantia de crédito, o status da poupança, o emprego e outros.
Pré-requisitos
- Uma conta do IBM Cloud
- Uma Instância de serviço do armazenamento de objeto em execução do catálogo do IBM Cloud
- Uma Instância de serviço de aprendizado de máquina em execução do catálogo do IBM Cloud
- Uma Instância de serviço do Watson Studio do catálogo do IBM Cloud
O IBM SPSS está disponível no IBM Watson Studio como uma de várias opções para criar modelos preditivos.
Se você deseja mais flexibilidade na preparação de seus dados e na construção de seus modelos do que o Modelador Automático do Watson Studio oferece, mas ainda deseja a facilidade de uso de uma interface de GUI e menos composição de código e complexidade, é possível usar o IBM SPSS Modeler.
Tempo estimado
Leva aproximadamente 1 hora para ler e seguir as etapas nestas instruções.
Etapas
Faça upload do conjunto de dados para o IBM Watson Studio
A primeira etapa é fazer upload do conjunto de dados para o IBM Watson Studio. Para fazer upload do conjunto de dados, certifique-se de que você possua um painel do lado direito aberto onde encontrará uma área solicitando que importe seus dados. É possível arrastar e soltar o conjunto de dados (arquivo .csv) de seu computador para essa área ou clicar em Procurar para abrir o explorador de arquivo em seu computador, onde é possível selecionar o arquivo desejado. Se você não tiver o painel do lado direito aberto por padrão, clique na guia Dados (penúltima acima à direita) na barra de ferramentas para acionar o painel para abrir.
Nota: o nome do conjunto de dados na captura de tela abaixo é diferente do conjunto de dados que você está usando.
Crie um novo fluxo
Acesse a seção Fluxos do modelador no painel principal do IBM Watson Studio.
Nomeie sua tarefa do Modelador
Digite um Nome para sua tarefa do Modelador, selecione Fluxo do modelador como o tipo de fluxo e selecione IBM SPSS Modeler como o tempo de execução, em seguida, clique em Criar.
Importe o conjunto de dados
Clique em Importar no painel esquerdo para expandir as opções dessa seção.
Inclua ativos de dados na tela Modelador
Arraste e solte o nó Ativos de dados na tela Modelador
Edite o nó Ativos de dados
Dê um clique duplo no nó Ativos de dados na tela para editar suas propriedades. Isso abre um painel do lado direito com todas as opções de configuração para o nó selecionado.
Defina a origem dos dados
No painel direito na seção Dados, clique em Mudar ativo de dados para definir a origem de dados.
Selecione o ativo de dados
Há uma lista de todos os ativos de dados disponíveis nesse projeto. Selecione o seu conjunto de dados pelo nome, neste exemplo eu nomeei o conjunto de dados como customers_credit_status.csv
.
Nota: os nomes dos conjuntos de dados nas capturas de tela podem ser diferentes do que você possui.
Após selecionar o conjunto de dados, clique em OK.
Se o nome de seu conjunto de dados estiver incluído na seção Dados sob Localização de origem, o conjunto de dados foi importado com sucesso. Clique em Salvar na parte inferior do painel.
Verifique a qualidade de dados
Antes de começar a trabalhar com seus dados, verifique sua qualidade e obtenha uma visão geral do seu interior. Para fazer isso, use a funcionalidade Auditoria de dados, localizada na seção Saídas no painel (esquerdo) dos nós. Arraste e solte o nó Auditoria de dados na tela.
Conecte os nós
Arrastar da extremidade direita do nó Ativo de dados para a extremidade esquerda do nó Auditoria de dados conecta os nós.
Execute o fluxo para obter os resultados da auditoria de dados
Clique com o botão direito no nó Auditoria de dados na tela e selecione Executar no menu.
Aguarde o processo ser concluído. Dependendo do tamanho de seus dados, isso pode levar alguns minutos. Esse exemplo deve levar um minuto.
Após o fluxo concluir a execução, abra a guia Saídas no painel direito, selecione a saída mais recente (mais recente está sempre visível) para visualizar os resultados da execução do fluxo até o momento.
Os resultados fornecem uma ideia sobre os campos contidos no conjunto de dados, algumas estatísticas de cada campo e a distribuição dos recursos. Observe que os dados precisam de normalização. A rolagem para baixo fornece mais insights sobre os problemas no conjunto de dados, incluindo valores omissos, valores discrepantes e extremos e os métodos usados para corrigir esses problemas.
Volte para o SPSS Modeler e continue trabalhando lá. Na barra de ferramentas superior e na trilha de navegação, navegue para o nome de seu modelador SPSS para voltar à tela. Na imagem abaixo, eu navego de volta para Loan Approval SPSS Modeler.
Particione os dados
Para dividir os dados em conjuntos de Treino e Teste, acesse a seção Operações de campo no painel (esquerdo) dos nós, em seguida, arraste e solte o nó Partição na tela. Conecte o nó Partição ao nó Ativo de dados.
Uma das etapas importantes para preparar os dados para o feed em um modelo para treinamento é dividi-los em conjuntos de Train e Test. Existem abordagens que dividem os dados antes do pré-processamento e outras abordagens dividem os dados após o pré-processamento. Eu divido os dados primeiro neste exemplo.
Dê um clique duplo no nó Partição para ver suas opções de configuração. Por enquanto, deixe tudo como está.
Localize e corrija os problemas
Agora, é hora de corrigir quaisquer problemas presentes no conjunto de dados e prepará-lo para a etapa de modelagem. No painel (esquerdo) dos nós, acesse a seção Operações de campo e arraste e solte o nó Preparação automática de dados na tela. Conecte o nó Preparação automática de dados ao nóPartição.
Conecte outro nó Auditoria de dados para acessar os resultados do processo de Preparação automática. Acesse Saídas na guia (esquerda) dos nós e selecione o nó Auditoria de dados. Arraste e solte o nó na tela e conecte-o ao nó Preparação automática de dados. Clique com o botão direito no nó Auditoria de dados para visualizar o menu, selecione Executar para iniciar a execução do fluxo que temos até o momento.
Para visualizar os resultados, acesse a guia Saídas no painel direito. Selecione os resultados da Auditoria de Dados mais recentes, que estarão no topo.
Observe que os dados estão normalizados (Média é 0 e Desvio Padrão é 1 para campos com valores contínuos) e os problemas no conjunto de dados foram corrigidos.
Selecione um modelo
Agora é hora das etapas de modelagem. Para selecionar um modelo, acesse a seção Modelagem no painel (esquerdo) dos nós. Há vários modelos listados. O modelo escolhido depende de seu conjunto de dados e do problema que você está tentando resolver. Para este exemplo, use LSVM que significa Linear Support Vector Machine Model e é usado para classificação de dados. Como estamos classificando requisições de empréstimo como aprovadas ou rejeitadas, o modelo LSVM é apropriado para esse caso de uso e bem adequado para uso com conjuntos de dados que possuem um grande número de campos preditores.
Arraste e solte o nó LSVM na tela e conecte-o ao nó Preparação automática de dados para que o modelo seja alimentado com a versão limpa e normalizada dos dados.
Dê um clique duplo no nó LSVM na tela para mudar sua configuração. A etapa mais importante aqui é definir o modelo, os campos preditores (recursos) e os destinos relacionados (rótulos). Na guia Campos no painel direito, marque Usar funções de campo customizadas, em seguida, selecione class_transformed
como a coluna de destino (rótulos) e clique em Salvar.
O campo class_transformed
contém a classe de clientes (bom tem mais probabilidade de pagar no prazo, ruim provavelmente não pagará no prazo) no conjunto de dados atual.
Selecione todas as outras colunas como Entradas, esses são os campos preditores ou dados que afetam a classe do cliente.
O modelo usa as entradas para encontrar uma fórmula que relacione todos os campos de entrada com a saída (classe do cliente) e usa essa mesma fórmula nos novos dados para prever resultados.
Execute o fluxo
Clique com o botão direito no nó LSVM na tela e, quando um menu abrir, escolha Executar.
Aguarde o processo ser concluído. Isso pode levar alguns minutos. O modelo está sendo alimentado com os dados e usando esses dados como entrada para treinamento.
Após o modelo concluir o treinamento, ele produz um novo nó contendo informações sobre o desempenho do modelo. O novo nó é colocado logo abaixo do nó do modelo relacionado e conectado a esse nó por padrão.
Analise a saída do modelo
Para consultar a saída do modelo, é necessário incluir um nó para extrair a saída em um formato legível. Acesse a seção Saídas no painel (esquerdo) dos nós e arraste e solte o nó Análise na tela.
Conecte o nó Análise ao nó de saída do modelo. Clique com o botão direito no nó Análise na tela e selecione Executar no menu. Isso executa o fluxo novamente, portanto, pode levar alguns minutos.
Para visualizar a saída, acesse a guia Saídas no painel direito e selecione o resultado da Análise que deve estar no topo (porque ele é a saída mais recente).
Agora é possível ver informações sobre o desempenho do modelo, o número de predições corretas e erradas em cada divisão de dados e a precisão do modelo que é mostrada como a porcentagem.
Eu incluí alguns outros modelos para comparação. Fique à vontade para testar suas próprias combinações e siga as etapas de Selecionando um modelo como um guia.
Compare modelos
Agora há vários modelos e você deseja selecionar o melhor para a implementação. Uma comparação dará a você informações detalhadas sobre cada modelo usado. Clique com o botão direito no nó do modelo LSVM e escolha Visualizar modelo para ver mais informações sobre diferentes métricas de desempenho.
Primeiro, na guia Avaliação de modelo, você verá detalhes sobre a precisão geral do modelo. Esses detalhes incluem falsos positivos, falsos negativos, precisão do modelo, rechamada e pontuação f1. A precisão geral do modelo LSVM aqui é de 80,9%, o que é razoável.
A guia Matriz de confusão mostra as porcentagens de predições corretas para cada classe.
Na guia Importância do preditor é possível ver a ordem dos campos que tiveram o maior impacto nas predições ou nas saídas.
Use as etapas acima na seção Analisar a saída do modelo para verificar o desempenho do modelo Classificador de Floresta Aleatória. Clique com o botão direito no nó do modelo na tela e selecione Visualizar modelo.
A avaliação de modelo mostra a precisão geral de 68,9%, o que não é tão bom.
Matriz de confusão.
Importância do preditor.
Salve o modelo
O primeiro modelo (LSVM) possui o melhor desempenho geral. Use a trilha de navegação superior para navegar de volta para o nome do seu modelador. Clique com o botão direito no nó LSVM e selecione Salvar ramificação como modelo.
Digite um nome para o seu modelo. Um serviço de aprendizado de máquina deve ser detectado (consulte a seção de pré-requisitos) e incluído automaticamente. Clique em Salvar.
O modelo é salvo com sucesso, o que significa que o modelo treinado é publicado em um repositório na nuvem vinculada e em sua conta do IBM Cloud. Sua conta do IBM Cloud também possui todos os modelos que você treinou e salvou anteriormente. Essa etapa é importante para permitir a implementação de modelo posteriormente.
É possível acessar seu modelo salvo no painel Modelos no painel principal. A implementação e o uso do modelo na nuvem estão a apenas alguns cliques de distância.
É possível iterar facilmente por essas etapas e fazer alguns ajustes nas opções de configuração de cada etapa/nó para atingir uma melhor precisão.
Resumo
Nestas instruções, você aprendeu como implementar um fluxo de trabalho de ciência de dados completo, que geralmente inclui a importação de dados, a limpeza dos dados e, em seguida, a seleção de um modelo adequado para treinar os dados. Você aprendeu como comparar modelos com base em suas métricas de avaliação para selecionar o modelo com melhor desempenho e salvá-lo como um predecessor na implementação de modelo na nuvem.