Participe da Maratona Behind the Code! Prêmios e desafios incríveis te esperam, não perca! Inscreva-se aqui

IBM Developer Blog

Siga os acontecimentos mais recentes com o IBM Developer, e fique por dentro.

Saiba mais sobre vários conjuntos de dados abertos


Este blog faz parte do Call for Code Global Challenge 2020 (Em Inglês).

Introdução aos conjuntos de dados abertos e a importância dos metadados

Mais dados estão se tornando publicamente disponíveis por meio de iniciativas como publicações de instituições e pesquisas que requerem que conjuntos de dados estejam disponíveis junto com as publicações que fazem referência a eles. Por exemplo, a revista Nature instituiu uma política para autores para declarar como os dados por trás de suas pesquisas publicadas podem ser acessados por leitores interessados.

Para tornar mais fácil para as ferramentas descobrirem o que há em um conjunto de dados, autores, pesquisadores e fornecedores de conjuntos de dados estão sendo incentivados a incluir metadados em seus conjuntos de dados. Existem várias formas de metadados usados por conjuntos de dados. Por exemplo, o site do Governo dos EUA data.gov usa o padrão DCAT-US Schema v1.1 enquanto a ferramenta Google Dataset Search conta principalmente com a tagging schema.org. No entanto, muitos conjuntos de dados não possuem metadados de jeito nenhum. É por isso que você não encontrará todos os conjuntos de dados abertos por meio da procura e precisará conhecer portais e descobrir se eles existem na região, cidade ou tópico de seu interesse. Se você é extremamente curioso com relação a metadados, pode consultar o alinhamento entre DCAT e schema.org na especificação DCAT datada de fevereiro de 2020. Os conjuntos de dados em si são fornecidos em vários formatos para download, como CSV, JSON, GeoJSON e .zip. Às vezes, os conjuntos de dados podem ser acessados por meio de APIs.

Outra maneira pela qual conjuntos de dados estão se tornando disponíveis é por meio de iniciativas governamentais para disponibilizar dados. Nos EUA, data.gov existem mais de 250.000 conjuntos de dados disponíveis para desenvolvedores usarem. Uma iniciativa semelhante na Índia, data.gov.in, existem mais de 350.000 recursos disponíveis.

Às vezes, empresas como a IBM fornecem acesso a dados, como dados climáticos, ou fornecem dicas sobre como processar dados livremente disponíveis. Por exemplo, uma introdução aos dados climáticos NOAA para o Aeroporto JFK é usada para treinar o software livre Model Asset eXchange Weather Forecaster (é possível ver os artefatos do modelo no GitHub). Você também pode estar interessado no IBM Data Asset eXchange (DAX), onde é possível explorar conjuntos de dados úteis para a ciência de dados corporativa. Também é possível se registrar para acessar os conjuntos de dados PAIRS (Physical Analytics Integrated Data Repository and Services) da IBM em https://ibmpairs.mybluemix.net/. Esses conjuntos de dados são normalizados e fáceis de usar.

Outro exemplo é a Anthem Inc., que fornece aos pesquisadores e desenvolvedores acesso ao seu Digital Data Sandbox seguro, a fim de possibilitar soluções para alguns dos problemas mais complexos da área da saúde. Com um conjunto de dados não identificado certificado * com mais de 45 milhões de vidas únicas ao longo de 12 anos, o Digital Data Sandbox oferece a capacidade sem precedentes de descobrir insights, criar e treinar algoritmos, validar soluções com especialistas da Anthem e implantar essas soluções no mundo real. Para saber mais sobre o Digital Data Sandbox, acesse https://www.anthem.ai/sandbox.

Se você estiver procurando dados de voz disponíveis abertamente para treinar aplicativos habilitados para fala, o Common Voice data set da Mozilla pode ser algo para você. Cada entrada no conjunto de dados consiste em um MP3 exclusivo e um arquivo de texto correspondente. Muitas das mais de 4.200 horas gravadas atualmente no conjunto de dados também incluem metadados demográficos, como idade, sexo e sotaque, que podem ajudar a treinar a precisão dos mecanismos de reconhecimento de fala. Na versão mais recente, há 40 idiomas representados, incluindo inglês, francês, alemão, espanhol e chinês mandarim (tradicional), mas também, por exemplo, galês, kabyle e kinyarwanda. Como um projeto orientado pela comunidade, as pessoas em todo o mundo que se preocupam em ter um conjunto de dados de voz em seu idioma foram responsáveis por cada novo lançamento, tornando o Common Voice mais global e inclusivo a cada lançamento.

Ao desenvolver um protótipo ou treinar um modelo durante um hackathon, é ótimo ter acesso a dados relevantes para tornar sua solução mais convincente. Existem vários conjuntos de dados públicos disponíveis para você iniciar. Eu demonstrarei algumas das maneiras de localizá-los e fornecerei considerações de acesso. Observe que alguns dos conjuntos de dados podem requerer pré-processamento antes que eles possam ser usados, por exemplo, para manipular dados ausentes, mas para um hackathon, eles geralmente são bons o suficiente.

Imagem de nuvens

Maneiras de localizar conjuntos de dados: procura de conjunto de dados

É possível usar o Google Dataset Search. Com a ferramenta Dataset Search, é possível localizar conjuntos de dados por meio de palavras-chave como um país ou cidade ou de uma categoria como medicina ou agricultura. Existem filtros adicionais que podem ser aplicados, como o quão recentemente o conjunto de dados foi atualizado, o formato de download (por exemplo, JSON ou imagem), direitos de uso (comercial ou não comercial) e se o conjunto de dados é grátis. O Dataset Search é uma ótima ferramenta para conjuntos de dados em que metadados (como tags https://schema.org/) foram fornecidos com o conjunto de dados. No entanto, existem conjuntos de dados que ainda não possuem metadados no formato que o Google Dataset Search usa. Isso ocorre quando você acessa locais em que há muitos conjuntos de dados. Obviamente, alguns conjuntos de dados podem ser localizados usando ambos os métodos.

Maneiras de localizar conjuntos de dados: acesse locais em que há vários conjuntos de dados

Muitos governos e instituições como as Nações Unidas e o Banco Econômico Mundial fornecem conjuntos de dados. A seguir há alguns exemplos:

Sites agregadores de conjunto de dados e catálogos diversos

Alguns sites classificam conjuntos de dados em categorias originadas de outros locais, incluindo conjuntos de dados dos sites data.gov. Vale a pena conferir esses sites. Apenas observe se cobram pelo acesso especializado. No entanto, esses sites podem ajudá-lo a entender que tipos de dados estão disponíveis. Exemplos de sites que agregam coleções de conjuntos de dados ou fornecem introduções a conjuntos de dados abertos incluem:

Considerações sobre licença e privacidade

É mais fácil usar conjuntos de dados fatuais como medições, dados tabulares, área terrestre, reservatórios e clima, e evitar dados pessoais como nomes e imagens de pessoas que possam ter preocupações com a privacidade, o que varia de um país para o outro.

Ocasionalmente, você localizará conjuntos de dados que indicarão que eles se destinam apenas ao uso acadêmico. Os proprietários geralmente estão de acordo com o uso do conjunto de dados em uma configuração de hackathon, mas é melhor checar. Um exemplo de um conjunto de dados desse tipo é um conjunto de dados de Deep Learning para Resposta a Desastres multimodal (imagem e texto) (https://gitlab.com/awadailab/crisis_multimodal), que indica que ele está disponível para download apenas para fins acadêmicos. Nesse caso, nós confirmamos com a autora e ela concorda que o conjunto de dados pode ser usado em hackathons, particularmente aqueles para o bem social. Você pode adotar uma abordagem semelhante. E, observe que se você avançar e começar a vender o software que criou no hackathon ou torná-lo parte de um produto, você não deverá usar conjuntos de dados que estão marcados apenas para uso acadêmico.

Muitos conjuntos de dados, nos quais existe uma licença especificada, terão um licença Creative Commons (CC). Um exemplo de conjunto de dados desse tipo são os dados de terremotos EEW. Esteja ciente de que a variante CC by NC significa que o conjunto de dados não pode ser usado para fins comerciais.

*In accordance with an expert de-identification certificate issued to Anthem.