Recentemente, a equipe de pesquisa de IA da Meta anunciou o Make-A-Video , um “sistema de IA de última geração que gera vídeos a partir de texto”.
Assim como fez com os dados de difusão estável , Simon Willison criou um navegador Datasette para explorar o WebVid-10M, um dos dois conjuntos de dados usados para treinar o modelo de geração de vídeo, e rapidamente descobriu que todos os 10,7 milhões de videoclipes foram extraídos do Shutterstock, com marcas d’água e tudo.
Além dos clipes da Shutterstock, a Meta também usou 10 milhões de clipes de vídeo desse conjunto de dados de vídeo de 100 milhões da Microsoft Research Asia. Não é mencionado no GitHub, mas se você pesquisar no jornal , descobrirá que cada clipe veio de mais de 3 milhões de vídeos do YouTube.
Portanto, além de uma grande parte da coleção de vídeos da Shutterstock, a Meta também está usando milhões de vídeos do YouTube coletados pela Microsoft para fazer sua IA de texto para vídeo.
Mudança de responsabilidade
Por que isso importa? A terceirização do trabalho pesado de coleta de dados e treinamento de modelos para entidades não comerciais permite que as corporações evitem a responsabilização e a potencial responsabilidade legal.
Imagem de Gerd Altmann por Pixabay