Desenvolva e compare modelos usando o IBM SPSS Modeler – IBM Developer

Desenvolva e compare modelos usando o IBM SPSS Modeler

Objetivos do aprendizado

Nestas instruções, você irá preparar dados e criar um modelo preditivo usando o IBM SPSS Modeler para avaliar o risc de uma solicitação de empréstimo, aprovar a solicitação e conceder o empréstimo a um cliente ou rejeitar a solicitação.

O conjunto de dados de risco de empréstimo usado nestas instruções é gratuito, de software livre e está disponível no website BigML.

O conjunto de dados contém detalhes sobre clientes que solicitam empréstimos. Alguns dos detalhes disponíveis são o status da conta corrente, a duração, o histórico de crédito, a finalidade, a quantia de crédito, o status da poupança, o emprego e outros.

Pré-requisitos

O IBM SPSS está disponível no IBM Watson Studio como uma de várias opções para criar modelos preditivos.

Se você deseja mais flexibilidade na preparação de seus dados e na construção de seus modelos do que o Modelador Automático do Watson Studio oferece, mas ainda deseja a facilidade de uso de uma interface de GUI e menos composição de código e complexidade, é possível usar o IBM SPSS Modeler.

Tempo estimado

Leva aproximadamente 1 hora para ler e seguir as etapas nestas instruções.

Etapas

Faça upload do conjunto de dados para o IBM Watson Studio

A primeira etapa é fazer upload do conjunto de dados para o IBM Watson Studio. Para fazer upload do conjunto de dados, certifique-se de que você possua um painel do lado direito aberto onde encontrará uma área solicitando que importe seus dados. É possível arrastar e soltar o conjunto de dados (arquivo .csv) de seu computador para essa área ou clicar em Procurar para abrir o explorador de arquivo em seu computador, onde é possível selecionar o arquivo desejado. Se você não tiver o painel do lado direito aberto por padrão, clique na guia Dados (penúltima acima à direita) na barra de ferramentas para acionar o painel para abrir.

Nota: o nome do conjunto de dados na captura de tela abaixo é diferente do conjunto de dados que você está usando.

fazendo upload do Watson Studio

Crie um novo fluxo

Acesse a seção Fluxos do modelador no painel principal do IBM Watson Studio.

painel principal: Criar novo fluxo

Nomeie sua tarefa do Modelador

Digite um Nome para sua tarefa do Modelador, selecione Fluxo do modelador como o tipo de fluxo e selecione IBM SPSS Modeler como o tempo de execução, em seguida, clique em Criar. tarefa do modelador: nomeie sua tarefa do modelador

Importe o conjunto de dados

Clique em Importar no painel esquerdo para expandir as opções dessa seção. spss: importe o conjunto de dados

Inclua ativos de dados na tela Modelador

Arraste e solte o nó Ativos de dados na tela Modelador spss: selecionar ativo de dados

Edite o nó Ativos de dados

Dê um clique duplo no nó Ativos de dados na tela para editar suas propriedades. Isso abre um painel do lado direito com todas as opções de configuração para o nó selecionado. spss: edite o nó Ativos de dados

Defina a origem dos dados

No painel direito na seção Dados, clique em Mudar ativo de dados para definir a origem de dados. spss: definir origem de dados

Selecione o ativo de dados

Há uma lista de todos os ativos de dados disponíveis nesse projeto. Selecione o seu conjunto de dados pelo nome, neste exemplo eu nomeei o conjunto de dados como customers_credit_status.csv. Nota: os nomes dos conjuntos de dados nas capturas de tela podem ser diferentes do que você possui.

Após selecionar o conjunto de dados, clique em OK. origens de dados: selecione o Ativo de dados

Se o nome de seu conjunto de dados estiver incluído na seção Dados sob Localização de origem, o conjunto de dados foi importado com sucesso. Clique em Salvar na parte inferior do painel. spss: verificar se dados foram carregados

Verifique a qualidade de dados

Antes de começar a trabalhar com seus dados, verifique sua qualidade e obtenha uma visão geral do seu interior. Para fazer isso, use a funcionalidade Auditoria de dados, localizada na seção Saídas no painel (esquerdo) dos nós. Arraste e solte o nó Auditoria de dados na tela. spss: verificar qualidade de dados

Conecte os nós

Arrastar da extremidade direita do nó Ativo de dados para a extremidade esquerda do nó Auditoria de dados conecta os nós.

spss: conecte os nós

Execute o fluxo para obter os resultados da auditoria de dados

Clique com o botão direito no nó Auditoria de dados na tela e selecione Executar no menu.

spss: execute o fluxo

Aguarde o processo ser concluído. Dependendo do tamanho de seus dados, isso pode levar alguns minutos. Esse exemplo deve levar um minuto. spss: fluxo em execução

Após o fluxo concluir a execução, abra a guia Saídas no painel direito, selecione a saída mais recente (mais recente está sempre visível) para visualizar os resultados da execução do fluxo até o momento. spss: selecionando a guia Saídas

Os resultados fornecem uma ideia sobre os campos contidos no conjunto de dados, algumas estatísticas de cada campo e a distribuição dos recursos. Observe que os dados precisam de normalização. A rolagem para baixo fornece mais insights sobre os problemas no conjunto de dados, incluindo valores omissos, valores discrepantes e extremos e os métodos usados para corrigir esses problemas. saídas: visualizar saída

Volte para o SPSS Modeler e continue trabalhando lá. Na barra de ferramentas superior e na trilha de navegação, navegue para o nome de seu modelador SPSS para voltar à tela. Na imagem abaixo, eu navego de volta para Loan Approval SPSS Modeler. saídas: voltar para tela

Particione os dados

Para dividir os dados em conjuntos de Treino e Teste, acesse a seção Operações de campo no painel (esquerdo) dos nós, em seguida, arraste e solte o nó Partição na tela. Conecte o nó Partição ao nó Ativo de dados.

Uma das etapas importantes para preparar os dados para o feed em um modelo para treinamento é dividi-los em conjuntos de Train e Test. Existem abordagens que dividem os dados antes do pré-processamento e outras abordagens dividem os dados após o pré-processamento. Eu divido os dados primeiro neste exemplo. spss: particione os dados

Dê um clique duplo no nó Partição para ver suas opções de configuração. Por enquanto, deixe tudo como está. spss: configure o nó de partição

Localize e corrija os problemas

Agora, é hora de corrigir quaisquer problemas presentes no conjunto de dados e prepará-lo para a etapa de modelagem. No painel (esquerdo) dos nós, acesse a seção Operações de campo e arraste e solte o nó Preparação automática de dados na tela. Conecte o nó Preparação automática de dados ao nóPartição. spss: preparação automática de dados

Conecte outro nó Auditoria de dados para acessar os resultados do processo de Preparação automática. Acesse Saídas na guia (esquerda) dos nós e selecione o nó Auditoria de dados. Arraste e solte o nó na tela e conecte-o ao nó Preparação automática de dados. Clique com o botão direito no nó Auditoria de dados para visualizar o menu, selecione Executar para iniciar a execução do fluxo que temos até o momento. spss: auditoria de dados

Para visualizar os resultados, acesse a guia Saídas no painel direito. Selecione os resultados da Auditoria de Dados mais recentes, que estarão no topo. spss: selecionar saída

Observe que os dados estão normalizados (Média é 0 e Desvio Padrão é 1 para campos com valores contínuos) e os problemas no conjunto de dados foram corrigidos. saídas: visualizar resultados da auditoria de dados

Selecione um modelo

Agora é hora das etapas de modelagem. Para selecionar um modelo, acesse a seção Modelagem no painel (esquerdo) dos nós. Há vários modelos listados. O modelo escolhido depende de seu conjunto de dados e do problema que você está tentando resolver. Para este exemplo, use LSVM que significa Linear Support Vector Machine Model e é usado para classificação de dados. Como estamos classificando requisições de empréstimo como aprovadas ou rejeitadas, o modelo LSVM é apropriado para esse caso de uso e bem adequado para uso com conjuntos de dados que possuem um grande número de campos preditores.

Arraste e solte o nó LSVM na tela e conecte-o ao nó Preparação automática de dados para que o modelo seja alimentado com a versão limpa e normalizada dos dados.

spss: seleção de modelo

Dê um clique duplo no nó LSVM na tela para mudar sua configuração. A etapa mais importante aqui é definir o modelo, os campos preditores (recursos) e os destinos relacionados (rótulos). Na guia Campos no painel direito, marque Usar funções de campo customizadas, em seguida, selecione class_transformed como a coluna de destino (rótulos) e clique em Salvar.

O campo class_transformed contém a classe de clientes (bom tem mais probabilidade de pagar no prazo, ruim provavelmente não pagará no prazo) no conjunto de dados atual.

Selecione todas as outras colunas como Entradas, esses são os campos preditores ou dados que afetam a classe do cliente.

O modelo usa as entradas para encontrar uma fórmula que relacione todos os campos de entrada com a saída (classe do cliente) e usa essa mesma fórmula nos novos dados para prever resultados.

spss: modelo LSVM

Execute o fluxo

Clique com o botão direito no nó LSVM na tela e, quando um menu abrir, escolha Executar. spss: executar o fluxo do modelo

Aguarde o processo ser concluído. Isso pode levar alguns minutos. O modelo está sendo alimentado com os dados e usando esses dados como entrada para treinamento.

spss: treinamento de modelo

Após o modelo concluir o treinamento, ele produz um novo nó contendo informações sobre o desempenho do modelo. O novo nó é colocado logo abaixo do nó do modelo relacionado e conectado a esse nó por padrão. spss: saída do modelo

Analise a saída do modelo

Para consultar a saída do modelo, é necessário incluir um nó para extrair a saída em um formato legível. Acesse a seção Saídas no painel (esquerdo) dos nós e arraste e solte o nó Análise na tela. spss: análise

Conecte o nó Análise ao nó de saída do modelo. Clique com o botão direito no nó Análise na tela e selecione Executar no menu. Isso executa o fluxo novamente, portanto, pode levar alguns minutos. spss: executar análise

Para visualizar a saída, acesse a guia Saídas no painel direito e selecione o resultado da Análise que deve estar no topo (porque ele é a saída mais recente). spss: visualizar saída de Análise

Agora é possível ver informações sobre o desempenho do modelo, o número de predições corretas e erradas em cada divisão de dados e a precisão do modelo que é mostrada como a porcentagem. saídas: resultados

Eu incluí alguns outros modelos para comparação. Fique à vontade para testar suas próprias combinações e siga as etapas de Selecionando um modelo como um guia. spss: modelos incluídos

Compare modelos

Agora há vários modelos e você deseja selecionar o melhor para a implementação. Uma comparação dará a você informações detalhadas sobre cada modelo usado. Clique com o botão direito no nó do modelo LSVM e escolha Visualizar modelo para ver mais informações sobre diferentes métricas de desempenho.

Primeiro, na guia Avaliação de modelo, você verá detalhes sobre a precisão geral do modelo. Esses detalhes incluem falsos positivos, falsos negativos, precisão do modelo, rechamada e pontuação f1. A precisão geral do modelo LSVM aqui é de 80,9%, o que é razoável. avaliação de modelo: avaliação de modelo

A guia Matriz de confusão mostra as porcentagens de predições corretas para cada classe. avaliação de modelo: matriz de confusão

Na guia Importância do preditor é possível ver a ordem dos campos que tiveram o maior impacto nas predições ou nas saídas. avaliação de modelo: importância do preditor

Use as etapas acima na seção Analisar a saída do modelo para verificar o desempenho do modelo Classificador de Floresta Aleatória. Clique com o botão direito no nó do modelo na tela e selecione Visualizar modelo. spss: comparar modelos

A avaliação de modelo mostra a precisão geral de 68,9%, o que não é tão bom. avaliação de modelo: floresta aleatória de avaliação de modelo

Matriz de confusão. avaliação de modelo: floresta aleatória de matriz de confusão

Importância do preditor. avaliação de modelo: floresta aleatória de importância do preditor

Salve o modelo

O primeiro modelo (LSVM) possui o melhor desempenho geral. Use a trilha de navegação superior para navegar de volta para o nome do seu modelador. Clique com o botão direito no nó LSVM e selecione Salvar ramificação como modelo. spss: escolher melhor modelo

Digite um nome para o seu modelo. Um serviço de aprendizado de máquina deve ser detectado (consulte a seção de pré-requisitos) e incluído automaticamente. Clique em Salvar. salvar modelo: salvar modelo

O modelo é salvo com sucesso, o que significa que o modelo treinado é publicado em um repositório na nuvem vinculada e em sua conta do IBM Cloud. Sua conta do IBM Cloud também possui todos os modelos que você treinou e salvou anteriormente. Essa etapa é importante para permitir a implementação de modelo posteriormente. salvar modelo: sucesso

É possível acessar seu modelo salvo no painel Modelos no painel principal. A implementação e o uso do modelo na nuvem estão a apenas alguns cliques de distância. painel principal: visualizar modelos salvos

É possível iterar facilmente por essas etapas e fazer alguns ajustes nas opções de configuração de cada etapa/nó para atingir uma melhor precisão.

Resumo

Nestas instruções, você aprendeu como implementar um fluxo de trabalho de ciência de dados completo, que geralmente inclui a importação de dados, a limpeza dos dados e, em seguida, a seleção de um modelo adequado para treinar os dados. Você aprendeu como comparar modelos com base em suas métricas de avaliação para selecionar o modelo com melhor desempenho e salvá-lo como um predecessor na implementação de modelo na nuvem.