iam.dev.br

Lavagem de dados de IA: como pesquisadores acadêmicos e sem fins lucrativos protegem empresas de tecnologia da responsabilidade legal

Recentemente, a equipe de pesquisa de IA da Meta anunciou o Make-A-Video , um “sistema de IA de última geração que gera vídeos a partir de texto”.

Assim como fez com os dados de difusão estável , Simon Willison criou um navegador Datasette para explorar o WebVid-10M, um dos dois conjuntos de dados usados ​​para treinar o modelo de geração de vídeo, e rapidamente descobriu que todos os 10,7 milhões de videoclipes foram extraídos do Shutterstock, com marcas d’água e tudo.

Além dos clipes da Shutterstock, a Meta também usou 10 milhões de clipes de vídeo desse conjunto de dados de vídeo de 100 milhões da Microsoft Research Asia. Não é mencionado no GitHub, mas se você pesquisar no jornal , descobrirá que cada clipe veio de mais de 3 milhões de vídeos do YouTube.

Portanto, além de uma grande parte da coleção de vídeos da Shutterstock, a Meta também está usando milhões de vídeos do YouTube coletados pela Microsoft para fazer sua IA de texto para vídeo.

Mudança de responsabilidade

Por que isso importa? A terceirização do trabalho pesado de coleta de dados e treinamento de modelos para entidades não comerciais permite que as corporações evitem a responsabilização e a potencial responsabilidade legal.

Siga o link: https://waxy.org/2022/09/ai-data-laundering-how-academic-and-nonprofit-researchers-shield-tech-companies-from-accountability/

Imagem de Gerd Altmann por Pixabay