Harvard e Google lançarão 1 milhão de livros de domínio público como conjunto de dados de treinamento de IA
A aquisição de dados de treinamento de IA é um desafio financeiro para muitas empresas, mas a iniciativa da Universidade Harvard promete democratizar o acesso.
O projeto prevê o lançamento de um dataset com cerca de 1 milhão de livros de domínio público, incluindo obras de Charles Dickens, Dante Alighieri e William Shakespeare.
Esses textos, livres de direitos autorais, abrangem diversos idiomas e gêneros, oferecendo uma base rica para o aprendizado de máquina.
Embora a data de lançamento não tenha sido anunciada, o conjunto de dados aproveitará materiais do Google Books, fruto do projeto de digitalização de livros.
O envolvimento do Google na distribuição reforça a relevância dessa iniciativa.
A disponibilidade desse acervo poderá revolucionar a qualidade e a acessibilidade dos treinamentos em IA, especialmente para startups e pesquisadores independentes.
A Institutional Data Initiative (IDI), lançada pela Universidade Harvard, surge como uma resposta à crescente demanda por acesso acessível e legalizado a grandes volumes de dados para treinar modelos de Inteligência Artificial (IA).
Oficialmente lançada com o apoio financeiro da Microsoft e da OpenAI, a IDI se posiciona como um marco na democratização do aprendizado de máquina.
Seu objetivo central é criar um “canal confiável” que permita o acesso a dados legais para pesquisadores, startups e empresas que buscam desenvolver grandes modelos de linguagem (LLMs).
Greg Leppert, diretor executivo da IDI, destaca que o projeto visa “nivelar o campo de jogo”, disponibilizando datasets extensos, como textos de domínio público digitalizados, que antes estavam restritos a grandes corporações.
Essa abordagem permite que organizações menores também participem do avanço da IA, promovendo diversidade, inovação e ética no treinamento de algoritmos.
O suporte de gigantes como Microsoft e OpenAI reforça a relevância dessa iniciativa em um cenário global onde os dados são um recurso essencial, mas caro e muitas vezes inacessível.
A IDI promete transformar o setor, facilitando o acesso a dados de alta qualidade e impulsionando o progresso em aprendizado de máquina e IA, promovendo inclusão e inovação tecnológica.
Segundo Greg Leppert, diretor executivo da IDI, o objetivo do projeto é “nivelar o campo de jogo”, permitindo que laboratórios de pesquisa, startups e outras organizações acessem um vasto conjunto de dados para treinar grandes modelos de linguagem (LLMs).
Essa abordagem visa reduzir barreiras de entrada, promovendo inovação e diversidade no desenvolvimento de IA.
Nota pessoal:
Perceba que “certas empresas” nunca participam destas iniciativas de compartilhamento democrático de conhecimento. Sempre as mesmas.
Com dados da Institutional Data Initiative: https://institutionaldatainitiative.org/