Crie um aplicativo de tradução em tempo real que possa ouvir e falar – IBM Developer

Crie um aplicativo de tradução em tempo real que possa ouvir e falar

Esse padrão de código faz parte da Call for Code Global Challenge 2020 e pode ser executado no [IBM Cloud](https://cloud.ibm.com/registration?cm_sp=ibmdev--developer-patterns--cloudreg).

Resumo

Usando os componentes Node.js e React, crie um aplicativo da web que possa ser seu tradutor pessoal. O aplicativo usa os serviços do IBM® Watson™ Speech to Text, do Watson Language Translator e do Watson Text to Speech para transcrever, traduzir e sintetizar de seu microfone para seus fones de ouvido. Os serviços do Watson estão disponíveis no IBM Cloud e com o Watson API Kit no IBM Cloud Pak for Data. Esse padrão de código inclui instruções para executar serviços do Watson em ambos.

Descrição

Desenvolvido com componentes React e um servidor Node.js, o aplicativo da web tradutor de linguagem captura a entrada de áudio e a transmite para um serviço do Watson Speech to Text. À medida que a fala de entrada é transcrita, ela é enviada a um serviço do Watson Language Translator para ser traduzida no idioma selecionado. O texto transcrito e traduzido é exibido pelo aplicativo em tempo real. Cada frase concluída é enviada ao serviço do Watson Text to Speech para ser falada em sua opção de vozes específicas do código de idioma.

A melhor maneira de entender o que é transcrição/tradução em tempo real em comparação com a vocalização de “frase concluída” é experimentar. Você perceberá que o texto é atualizado à medida que as palavras e frases são concluídas e são mais bem compreendidas no contexto. Para evitar retrocesso ou sobreposição de áudio, apenas as frases concluídas são vocalizadas. Elas geralmente são sentenças ou elocuções curtas em que uma pausa indica uma quebra.

Para uma melhor experiência em tempo real, use fones de ouvido para ouvir a versão traduzida do que seu microfone está escutando. Como alternativa, é possível usar os botões de alternância para gravar e transcrever primeiro, sem traduzir. Ao concluir, selecione um idioma e voz e, em seguida, ative a tradução (e fala).

Quando tiver concluído esse padrão de código, você entenderá como:

  • Transmitir o áudio para o serviço do Watson Speech to Text usando um WebSocket
  • Usar o serviço do Watson Language Translator com uma API de REST
  • Recuperar e reproduzir áudio do serviço do Watson Speech to Text usando uma API de REST
  • Integrar o serviço do Watson Speech to Text, do Watson Language Translator e do Watson Text to Speech em um aplicativo da web
  • Usar componentes do React e um servidor Node.js

Fluxo

Crie um fluxograma do serviço de conversão em tempo real

  1. O usuário pressiona o botão do microfone e captura o áudio de entrada.
  2. O áudio é transmitido para o serviço do Speech to Text usando um WebSocket.
  3. O texto transcrito do serviço do Speech to Text é exibido e atualizado.
  4. O texto transcrito é enviado ao Language Translator e o texto traduzido é exibido e atualizado.
  5. As frases concluídas são enviadas ao Text to Speech e o resultado de áudio é reproduzido automaticamente.

Instruções

Localize as etapas detalhadas para esse padrão no arquivo README. As etapas mostram como:

  1. Provisionar os serviços do Watson.
  2. Implementar o servidor.
  3. Usar o aplicativo da web.