Extraia, analise e visualize insights sobre dados brutos da web

Resumo

A World Wide Web é o universo das informações acessíveis por rede. Todas essas informações se apresentam em um formato bruto na web. Você está procurando uma maneira de alimentar informações brutas na web, para qualquer assunto específico, e de fornecer insights e visualizações para ele? Esse padrão de código mostrará como fazer isso usando um exemplo de execução de análise em empresas startup.

Descrição

Suponha que nós desejamos entender as startups atuais em uma tecnologia específica como aprendizado de máquina. Esse padrão de código avaliará seu impacto no setor, baseado em:

  • Quantas vezes elas apareceram em notícias
  • Se elas possuem uma página na Wikipedia
  • Se elas possuem blogs sobre tecnologia
  • Se elas estão ativas na mídia social

Após os dados não estruturados serem extraídos, eles são processados por meio do Watson Natural Language Understanding e convertidos em dados estruturados. Isso é alimentado no SPSS, que pode ser usado para entender os dados e executar a análise para determinar se todos os fatores (conforme mencionado acima) aparecem em uma empresa; calculando, assim, uma pontuação de popularidade. Assim que toda a análise for executada, esse padrão de código também fornecerá uma visualização de painel interativa e intuitiva dos dados–fornecendo insights dos dados e ajudando a simplificar o processo de tomada de decisão.

Após concluir esse padrão de código, você entenderá como:

  • Conectar e extrair dados de várias origens de dados na web.
  • Converter dados brutos da web em dados estruturados.
  • Integrar dados de diversas origens de dados com a ajuda do Db2 Warehouse Connection.
  • Executar a análise no SPSS Modeler.
  • Enviar dados integrados ao Db2 Warehouse.
  • Derivar insights e visualizar no Watson Embedded Dashboard.

NOTA: os nomes de empresas foram substituídos por nomes de plantas para esse padrão de código.

Fluxo

flow

  1. Crie e execute um Python Notebook no Watson Studio.
  2. O bloco de notas extrai as notícias mais recentes sobre startups.
  3. As informações Extraídas são enviadas ao Watson Natural Language Understanding para extrair palavras-chave, entidades, sentimentos e suas respectivas pontuações de confiança.
  4. Os resultados do Natural Language Understanding são compilados em um arquivo CSV que é convertido posteriormente em uma tabela no Db2 Warehouse.
  5. A tabela criada é alimentada no SPSS para executar alguma análise e retornar uma pontuação com relação a cada empresa. A tabela atualizada é, então, salva novamente no Db2 Warehouse.
  6. A tabela gerada no Db2 Warehouse é alimentada no painel, fornecendo uma visualização criteriosa.

Instruções

Obtenha as instruções detalhadas no arquivo README. Essas etapas mostrarão a você como:

  1. Clonar o repositório.
  2. Criar serviços do Watson com o IBM Cloud.
  3. Criar um novo Watson Studio Project.
  4. Incluir o Db2 Warehouse Connection em seu Watson Studio Project.
  5. Importar o bloco de notas para seu Watson Studio Project.
  6. Configurar as credenciais de serviço do IBM Cloud no Notebook.
  7. Executar o bloco de notas.
  8. Configurar o SPSS Modeler em seu Watson Studio Project.
  9. Executar o Modeler.
  10. Configurar o Embedded Dashboard Service em seu Watson Studio Project.
  11. Visualizar e derivar insights usando o Embedded Dashboard Analytics.