Harvard e Google: 1 milhão de livros de domínio público para treinamento de IAs

Harvard e Google: 1 milhão de livros de domínio público para treinar IAs

Conteúdo

Harvard e Google lançarão 1 milhão de livros de domínio público como conjunto de dados de treinamento de IA

A aquisição de dados de treinamento de IA é um desafio financeiro para muitas empresas, mas a iniciativa da Universidade Harvard promete democratizar o acesso.

O projeto prevê o lançamento de um dataset com cerca de 1 milhão de livros de domínio público, incluindo obras de Charles Dickens, Dante Alighieri e William Shakespeare.

Esses textos, livres de direitos autorais, abrangem diversos idiomas e gêneros, oferecendo uma base rica para o aprendizado de máquina.

Embora a data de lançamento não tenha sido anunciada, o conjunto de dados aproveitará materiais do Google Books, fruto do projeto de digitalização de livros.

O envolvimento do Google na distribuição reforça a relevância dessa iniciativa.

A disponibilidade desse acervo poderá revolucionar a qualidade e a acessibilidade dos treinamentos em IA, especialmente para startups e pesquisadores independentes.

A Institutional Data Initiative (IDI), lançada pela Universidade Harvard,  surge como uma resposta à crescente demanda por acesso acessível e legalizado a grandes volumes de dados para treinar modelos de Inteligência Artificial (IA).

Oficialmente lançada com o apoio financeiro da Microsoft e da OpenAI, a IDI se posiciona como um marco na democratização do aprendizado de máquina.

Seu objetivo central é criar um “canal confiável” que permita o acesso a dados legais para pesquisadores, startups e empresas que buscam desenvolver grandes modelos de linguagem (LLMs).

Greg Leppert, diretor executivo da IDI, destaca que o projeto visa “nivelar o campo de jogo”, disponibilizando datasets extensos, como textos de domínio público digitalizados, que antes estavam restritos a grandes corporações.

Essa abordagem permite que organizações menores também participem do avanço da IA, promovendo diversidade, inovação e ética no treinamento de algoritmos.

O suporte de gigantes como Microsoft e OpenAI reforça a relevância dessa iniciativa em um cenário global onde os dados são um recurso essencial, mas caro e muitas vezes inacessível.

A IDI promete transformar o setor, facilitando o acesso a dados de alta qualidade e impulsionando o progresso em aprendizado de máquina e IA, promovendo inclusão e inovação tecnológica.

Segundo Greg Leppert, diretor executivo da IDI, o objetivo do projeto é “nivelar o campo de jogo”, permitindo que laboratórios de pesquisa, startups e outras organizações acessem um vasto conjunto de dados para treinar grandes modelos de linguagem (LLMs).

Essa abordagem visa reduzir barreiras de entrada, promovendo inovação e diversidade no desenvolvimento de IA.


Nota pessoal:

Perceba que “certas empresas” nunca participam destas iniciativas de compartilhamento democrático de conhecimento. Sempre as mesmas.


Com dados da Institutional Data Initiative: https://institutionaldatainitiative.org/

Sua opinião que pode ser registrada abaixo é extremamente valiosa para todos nós!

Por respeito a você, não exibimos publicidade em nenhum formato.

Não auferimos quaisquer rendimentos nem recebemos quaisquer tipos de benefícios na elaboração de nosso conteúdo editorial.

Click aqui para saber mais ou entrar em contato.

Deixe um comentário

COMPARTILHE

AXIONWAY EDITORS STAFF

Categorias | Tags
Caminhos
Ajuda | Contato