Atenção para os prazos da Maratona Behind the Code! Saiba mais

Ética de dados: 5 razões para preconceitos em Machine Learning e como evitá-los

A Inteligência Artificial (IA) veio para ficar em nossas vidas. É possível encontrá-la em locais que vão desde assistentes virtuais, como Alexa e Siri, e até em lugares menos prováveis, como o buscador Google, recomendações da Amazon, Netflix e redes sociais, como Instagram e TikTok.

O que é preconceito?

Uma balança desequilibrada. Ela está pendendo para o lado esquerdo.

De acordo com a Royal Spanish Academy (RAE), o preconceito, ou bias em inglês, é um “erro sistemático que pode ocorrer quando a amostragem ou teste seleciona ou favorece algumas respostas em detrimento de outras”. Aplicado à área de Inteligência Artificial, podemos defini-lo como um fenômeno que ocorre quando um algoritmo produz resultados, que apresentam preconceitos sistêmicos, devido às suposições errôneas no processo de treinamento.

Por que eles ocorrem?

Os sistemas de IA podem ser divididos em dois grandes componentes:

  1. Algoritmos: referem-se ao componente programático, lógico, do sistema. São os conjuntos de instruções executados para se chegar ao resultado desejado. E, embora possam estar sujeitos ao preconceito, a existência de bibliotecas de código aberto e a formalização de padrões para certas práticas têm reduzido esse problema.
  2. Dados: são o coração do sistema de IA. Pois você pode ter os melhores algoritmos e a melhor infraestrutura para executar, mas, se não tiver um bom conjunto de dados, o resultado não será o desejado. Se eles forem ruins, o modelo ficará ruim. É por isso que muitas vezes se afirma que um modelo de Machine Learning é tão bom quanto os seus dados.

É lógico, então, perguntar: o que torna o conjunto de dados preconceituoso? E por que isso acontece? Para responder, aqui estão algumas das razões pelas quais esse fenômeno ocorre:

  1. Desequilíbrio de dados
  2. Perpetuação de padrões
  3. Correlação de informação
  4. Omissão de dados
  5. Correção manual de preconceito

Desequilíbrio de dados

Ocorre porque os conjuntos de dados utilizados para treinar as redes neurais são desequilibrados, ou seja, não representam igualmente todos os grupos envolvidos.

Em 2015, a inteligência artificial por trás do Google Fotos detectou algumas cores como “gorilas”. Em razão de o sistema de reconhecimento facial ter sido treinado por um grupo que possuía mais informações sobre pessoas brancas do que negras. O que resultou num erro que tem consequências não só do ponto de vista técnico, mas também social.

Outro caso similar é o do Google Vision, que confundiu um termômetro portátil com uma arma, quando a mão que o segurava era de uma pessoa negra. Já com indivíduos brancos, o termômetro foi classificado como “monocular”.

Perpetuação de Padrões

Possibilitam que padrões pré-existentes nos dados condicionem a resposta final do modelo. Por isso, estereótipos e preconceitos são perpetuados involuntariamente. E esse comportamento é chamado de Feedback Loop (em inglês), que é visto em ação nas recomendações da Amazon e eBay quando, com base em um item comprado, recomenda outros semelhantes.

Resultados do software COMPAS. Ele considerou que infratores negros são duas vezes mais prováveis de reincidir em seus crimes do que infratores brancos.

Também é possível ver essa questão em casos mais graves, como no COMPAS (Perfil de Gestão de Criminoso Correcional para Sanções Alternativas). Um sistema utilizado nos Estados Unidos, que ajuda os juízes a tomarem as melhores decisões ao determinar a probabilidade de um réu reincidir.

Outro bom exemplo é o processo de contratação. Pois o uso desses algoritmos de atração de candidatos pode perpetuar preconceitos e discriminar pessoas com base em gênero, raça, religião e orientação sexual.

Inclusive, um estudo da Northeastern University descobriu que os anúncios do Facebook para cargos em caixas de supermercados foram mostrados majoritariamente ao público feminino, em 85% dos casos. Enquanto trabalhos em empresas de táxi destinaram-se ao público negro (75%).

Correlação de informação

Muitas vezes existem relações indiretas ou inferidas entre os dados que produzem as situações mencionadas. Um endereço ou código postal, por exemplo, pode ser correlacionado a um determinado nível socioeconômico; e um nome, a uma raça ou religião. E ainda existem outras relações, como a que associa um contrato de serviço telefônico com a idade ou a condição financeira do assinante.

Assim, práticas relacionadas à correlação foram desenvolvidas. E uma delas é a que reidentifica os dados, considerados anônimos, para descobrir quem são as pessoas. Além disso, alguns pesquisadores europeus afirmam que basta possuir 15 atributos demográficos para realizar esse processo e ter êxito em 99,98%.

Contudo, fora das relações não óbvias, se a natureza da “caixa preta”, da maioria dos algoritmos de IA, for levada em consideração, onde não é possível, nem mesmo para seus próprios criadores, saber a sucessão de etapas que levam a um resultado a partir de uma entrada específica, será praticamente impossível acompanhar a interpretação dos dados.

Omissão de dados

Em algumas situações, para evitar os exemplos mencionados, opta-se por não utilizar dados sensíveis na formação dos modelos. O que pode ser benéfico, desde que seja feito de forma inteligente. Ou seja, quando se executa a seleção dos atributos (funcionalidades) indicados para o problema em questão.

Existem várias técnicas e considerações (PDF, 2,3 MB) relacionadas à seleção de atributos, mas a regra geral é incluir todos aqueles considerados relevantes para o problema e os que a categoria desfavorecida supera a categoria dominante. Um bom exemplo é o caso de mulheres em estudos de reincidência, que, por serem menos propensas a reincidir, os seus resultados são melhores do que a categoria dominante.

Dessa forma, além de aumentar a precisão do modelo, uma boa seleção de atributos permite um treinamento mais rápido e reduz a complexidade dele.

Correção manual de preconceito

Atrelado ao primeiro ponto, existe a possibilidade de que, na tentativa de corrigir o desequilíbrio de dados, este seja compensado excessivamente e acabe numa situação semelhante, ou pior, à anterior.

Tomando o caso do COMPAS como exemplo, se for adicionado em excesso os registros de pessoas negras, classificadas como de baixo risco, a representação do modelo não refletirá a realidade. O que pode resultar em conclusões errôneas, de categorizar criminosos de alto risco como de baixo risco, trazendo consequências negativas para a população.

Portanto, é importante alcançar um equilíbrio e garantir que a amostra seja representativa para todos os grupos envolvidos.

Como evitá-los?

Depois de analisar o porquê de os preconceitos terem consequências negativas, é hora de fazer a próxima pergunta: como evitá-los?

  • Em primeiro lugar, contar com um conjunto de valores para que as decisões e ações sejam apoiadas num referencial teórico, que tem como prioridade os usuários.
  • Em segundo lugar, aplicar boas práticas que permitem a seleção de dados, validação e análise de modelos que detectam, eliminam ou reduzam preconceitos.
  • Por fim, utilizar as ferramentas disponíveis para que todo esse processo seja ágil, preciso, eficiente e seguro.

Conjunto de valores

Na IBM, levamos muito a sério a relação entre Ética e Inteligência Artificial. Pois o nosso objetivo é ajudar as pessoas e organizações a adotá-la com responsabilidade. Dado que, somente incorporando princípios éticos em aplicativos e processos de inteligência artificial, podemos construir sistemas baseados na confiança.

Por isso, definimos as seguintes áreas de enfoque, para nos ajudar nesta tarefa:

Explicabilidade

  • Transparência: Qualquer sistema de IA no mercado que esteja fazendo determinações ou recomendações, com implicações potencialmente significativas para as pessoas, deve ser capaz de explicar e contextualizar como e por que chegou a uma determinada conclusão.
  • Inteligibilidade: os proprietários e operadores do sistema de IA devem disponibilizar, de forma compreensível para o usuário final, a documentação que detalhe as informações essenciais que o consumidor deve conhecer, como medidas de confiança, níveis de regularidade processual e resultados da análise de erros.

Equidade

  • A IA deve ser capaz de ajudar as pessoas a tomar decisões mais justas, combater os preconceitos humanos e promover a inclusão.
  • A equidade se refere ao tratamento igualitário de indivíduos ou grupos de pessoas por um sistema de inteligência artificial.
  • A inclusão significa trabalhar para criar uma equipe de desenvolvimento diversa e buscar as perspectivas das organizações que atendem às minorias e às comunidades afetadas.

Robustez

  • Os sistemas alimentados por IA devem se defender ativamente dos ataques, minimizando os riscos de segurança e permitindo a confiança nos resultados do sistema.
  • Como, cada vez mais, os sistemas são usados para tomar decisões cruciais, é necessário que a IA seja segura e robusta.

Transparência

  • Os usuários devem ser capazes de ver como o serviço funciona, avaliando a usabilidade e compreendendo suas grandezas e limitações.
  • Os sistemas transparentes de IA compartilham informações sobre quais dados são coletados, como serão usados, armazenados e quem tem acesso a eles. Eles deixam seus objetivos claros para os usuários.
  • As empresas de tecnologia precisam ter transparência sobre quem treina seus sistemas de IA, quais dados foram usados naquele treinamento e o que foi incluído em suas recomendações de algoritmo.

Privacidade

  • Os sistemas de inteligência artificial devem priorizar e salvaguardar a privacidade do consumidor, os direitos dos dados e fornecer garantias explícitas aos usuários sobre como seus dados pessoais serão usados e protegidos.
  • Respeito pela privacidade significa divulgação total sobre quais dados são coletados, como serão usados e armazenados e quem tem acesso a eles.
  • Os sistemas de IA e seus operadores devem ter como objetivo coletar e armazenar apenas os dados mínimos e necessários. A finalidade do uso dos dados deve ser explícita e os operadores precisam evitar que eles sejam reutilizados.
  • Os sistemas também devem permitir que os consumidores escolham como os seus dados pessoais serão coletados, armazenados e usados, por meio de configurações de privacidade claras e acessíveis.

Boas práticas

Aqui se encontram algumas recomendações e boas práticas:

  1. Selecione dados de treinamento que sejam adequadamente representativos e grandes para neutralizar os tipos comuns de preconceitos existentes no Machine Learning.
  2. Teste e valide o modelo para garantir que os resultados da aprendizagem não sejam tendenciosos devido aos algoritmos ou conjuntos de dados usados.
  3. Monitore os sistemas no desempenho de suas tarefas, para garantir que os preconceitos não ocorram com o tempo, à medida que vão sendo aprimorados.
  4. Use recursos adicionais para examinar e analisar modelos.

Uso de ferramentas

A IBM criou um conjunto de ferramentas para tornar o design, o desenvolvimento e a implantação de modelos de Inteligência Artificial algo mais ágil, eficiente e seguro. E aqui estão alguns deles:

  1. AI Fairness 360 – Este kit de ferramentas de código aberto permite examinar, relatar e mitigar a discriminação e o preconceito, nos modelos de Machine Learning, em todo o ciclo de vida do aplicativo. Ele contém mais de 70 métricas de equidade e 10 algoritmos de mitigação de preconceito. Além disso, inclui uma série de tutoriais, uma grande documentação e até uma demonstração para testá-lo gratuitamente.
  2. AI Explainability 360: esta biblioteca Python, também de código aberto, tem ferramentas para ajudar a entender como os modelos de Machine Learning fazem previsões ao longo do ciclo de vida do aplicativo. Inclui algoritmos que suportam a interpretação e explicação de conjuntos de dados e modelos. Tal como o kit AI Fairness 360, ele vem com tutoriais, documentação detalhada e uma demonstração.
  3. Adversarial Robustness 360 Toolbox: Adversarial Robustness Toolbox é uma biblioteca de código aberto projetada para auxiliar pesquisadores e desenvolvedores na defesa de redes neurais contra invasões de adversários, tornando os sistemas de inteligência artificial mais seguros. Ele também inclui uma extensa documentação e uma demonstração.
  4. Watson OpenScale: Watson OpenScale é um serviço da IBM Cloud que permite às empresas visualizar como a inteligência artificial está sendo construída e usada em seus aplicativos. Possui um design aberto, é capaz de detectar e mitigar preconceitos, ajudar a explicar os resultados de IA, dimensionar seu uso e fornecer informações sobre a saúde do sistema, tudo a partir de uma interface unificada. Para quem deseja saber mais, são recomendados os tutoriais de introdução, a documentação da API e, claro, uma demonstração, onde você pode ver o sistema em ação.

Conclusão

Este artigo explicou como o preconceito de dados pode afetar negativamente os sistemas de Inteligência Artificial e até a sociedade. Vários exemplos de como ele ocorre foram fornecidos, bem como práticas e ferramentas para ajudar a contê-lo.

Aviso

O conteúdo aqui presente foi traduzido da página IBM Developer ES. Caso haja qualquer divergência de texto e/ou versões, consulte o conteúdo original.