Maratona Behind the Code 2020: Faça parte do Desafio. Inscreva-se até 7 de Agosto.

Treine um modelo de conversão de fala em texto

Resumo

Este padrão de código explica como criar um modelo do Watson Speech to Text para lidar com dados de domínios especializados. Para aumentar a precisão do serviço, o padrão de código treina o modelo com novos dados do setor médico para transferir o aprendizado.

Descrição

O serviço Watson Speech to Text é um dos melhores do segmento de mercado. Mas, assim como outros serviços de fala na nuvem, ele foi treinado com conversas gerais para uso generalizado. Por isso, talvez seu desempenho não seja satisfatório em domínios especializados como medicina, direito ou esportes. Para aumentar a precisão do serviço de conversão de fala em texto, você pode treinar o modelo de IA com dados novos do seu domínio para transferir o aprendizado.

Neste padrão de código, nós usamos um conjunto de dados de fala da área médica para demonstrar o processo. Os dados, fornecidos pela ezDI, incluem 16 horas de ditados médicos em arquivos de áudio e de texto.

Quando concluir este padrão de código, você saberá como:

  • Preparar dados de áudio e texto de transcrição para treinar modelos de conversão de fala em texto
  • Trabalhar com o serviço Watson Speech to Text por meio de chamadas de API
  • Treinar modelos personalizados de conversão de fala em texto com conjuntos de dados
  • Aprimorar o modelo com feedback permanente dos usuários

Fluxo

Personalize e treine seu próprio diagrama de fluxo de modelo para conversão de fala em texto

  1. O usuário faz download do conjunto de dados personalizado e prepara os dados de áudio e de texto para o treinamento.
  2. O usuário configura as credenciais para o acesso ao serviço Watson Speech to Text.
  3. O usuário usa a GUI do aplicativo ou a linha de comando para realizar o treinamento com o lote de dados.
  4. O usuário realiza um teste interativo do novo modelo de fala personalizada, no qual ele fala frases no microfone do computador e verifica a transcrição realizada pelo novo modelo.
  5. Se a transcrição não estiver correta, o usuário poderá fazer correções e enviar novamente os dados atualizados para treinamento.
  6. Vários usuários podem trabalhar com o mesmo modelo personalizado ao mesmo tempo.

Instruções

Encontre os passos detalhados do padrão no arquivo README. As etapas mostrarão como:

  1. Clonar o repositório.
  2. Criar serviços do IBM Cloud.
  3. Configurar as credenciais.
  4. Fazer download e preparar os dados.
  5. Treinar os modelos.
  6. Transcrever o ditado.
  7. Corrigir a transcrição.