Mundo Positivo » Big Techs usaram canais do YouTube para treinar IAs sem permissão

Gigantes da tecnologia, incluindo Apple, NVIDIA e Salesforce, estão sob escrutínio após uma investigação revelar que elas utilizaram dados de vídeos do YouTube sem a devida permissão dos criadores para treinar modelos de inteligência artificial.

Segundo a investigação da Proof News, essas empresas usaram legendas de mais de 170 mil vídeos do YouTube, baixadas por uma organização sem fins lucrativos chamada EleutherAI, para realizar o treinamento de suas IAs.

Material para treinamento

O objetivo inicial da EleutherAI era fornecer materiais de treinamento para desenvolvedores menores e acadêmicos. No entanto, grandes corporações do Vale do Silício, como Apple, NVIDIA, Anthropic e Salesforce, também utilizaram esses dados no treinamento de IAs — o que viola os termos de serviço do YouTube.

–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–

Entre os criadores afetados estão personalidades como Marquees Brownlee (MKBHD), MrBeast e PewDiePie. As legendas dos vídeos, que servem como transcrições detalhadas do conteúdo, foram compiladas em um conjunto de dados conhecido como “The Pile”, acessível publicamente na internet.

Mais de 170 mil vídeos do YouTube foram utilizados para o treinamento de IAs por Big Techs (Imagem: CardMapr.nl/Unsplash)

No estudo, a Proof News criou uma ferramenta para identificar quais vídeos foram compilados nesse banco de dados. O conjunto inclui não apenas vídeos de tecnologia e entretenimento, mas também materiais educacionais de instituições renomadas como Khan Academy, MIT e Harvard.

De acordo com a investigação da Proof News, a Apple, por exemplo, utilizou o material para treinar o OpenELM, um modelo de IA lançado em abril. Representantes das empresas Anthropic e Salesforce confirmaram à Proof News a utilização do “The Pile”, mas negaram qualquer irregularidade.

Direitos dos criadores de conteúdo

Embora as empresas possam ter agido de boa-fé ao utilizar dados disponíveis publicamente, a prática levanta sérias questões sobre os direitos dos criadores de conteúdo e a ética no uso de materiais obtidos sem permissão explícita.

A situação exemplifica o complexo cenário legal e ético da coleta de dados para treinamento de IA. Além das violações de direitos autorais, há preocupações crescentes sobre a reprodução não autorizada de conteúdo criativo e o impacto potencial sobre os empregos e rendimentos dos criadores.

Em abril, uma reportagem do The New York Times revelou que o Google e a OpenAI também utilizam transcrições de vídeos do YouTube para treinar suas IAs — o que já sinalizou como todos os dados públicos estão sendo usados pela indústria de inteligência artificial.

Em resposta, algumas empresas argumentaram que o uso de dados públicos para treinar IA constitui “uso justo”. No entanto, muitos criadores e defensores dos direitos digitais discordam, defendendo a necessidade de regulamentações mais rigorosas e compensações justas para o uso de seus trabalhos.

A questão abrange não apenas criadores de conteúdos no YouTube, mas também profissionais de diferentes áreas — como designers, escritores, jornalistas, músicos e artistas.

Trending no Canaltech:

Fonte: Canaltech