Reddit planeja lançar IPO em março, diz relatório

As perspectivas do Reddit, à medida que se aproxima de uma listagem no mercado de ações, têm muito mais a ver com relacionamentos com fornecedores de IA, como a OpenAI, do que se poderia esperar.

Em seu prospecto de IPO arquivado hoje com a Comissão de Valores Mobiliários dos EUA, o Reddit enfatizou repetidamente o quanto pensa que pode ganhar – e ganhou – com acordos de licenciamento de dados com empresas que treinam modelos de IA nos seus mais de mil milhões de publicações e mais de 16 mil milhões de comentários.

“Em janeiro de 2024, celebramos certos acordos de licenciamento de dados com um valor contratual agregado de US$ 203,0 milhões e prazos que variam de dois a três anos”, diz o prospecto. “Esperamos que um mínimo de US$ 66,4 milhões de receita seja reconhecido durante o ano encerrado em 31 de dezembro de 2024 e o restante depois disso.”

Agora, é um mistério quais fornecedores de IA estão licenciando dados do Reddit até agora. No início desta semana, Bloomberg e Reuters relatado que uma “grande empresa de IA sem nome” – possivelmente Google – celebrou um acordo de licenciamento no valor de cerca de US$ 60 milhões anualmente. Mas a OpenAI também não seria um cliente surpreendente, especialmente considerando que o CEO da OpenAI, Sam Altman, tem 8,7% estaca no Reddit (tornando-o o terceiro maior acionista) e já foi membro do conselho de administração da empresa.

Por que os dados do Reddit são valiosos? Como explica o Reddit, os modelos de IA “aprendem” com exemplos para criar ensaios, códigos, e-mails, artigos e muito mais, e fornecedores como a OpenAI vasculham a web em busca de milhões a bilhões desses exemplos para adicionar aos seus conjuntos de treinamento. Alguns exemplos são de domínio público. Outros não são, ou – no caso do conteúdo do Reddit – estão sob licenças restritivas que exigem citação ou formas específicas de compensação.

Anteriormente, o Reddit não bloqueava o acesso aos seus dados para fins de treinamento de IA. Mas inverteu o curso no ano passado, discutindo que seus dados não deveriam ser — nas palavras do CEO Steve Huffman — “(dados) gratuitamente a algumas das maiores empresas do mundo”.

“(Nossas) APIs de dados são capazes de fornecer acesso em tempo real a tópicos dinâmicos e em evolução, como esportes, filmes, notícias, moda e as últimas tendências”, continua o prospecto. “Acreditamos que o enorme corpus de dados e conhecimento de conversação do Reddit continuará a desempenhar um papel no treinamento e na melhoria de grandes modelos de linguagem. À medida que nosso conteúdo é atualizado e cresce diariamente, esperamos que os modelos queiram refletir essas novas ideias e atualizar seu treinamento usando dados do Reddit.”

Os produtores de conteúdo, desde bibliotecas de mídia até editores de notícias, estão recorrendo cada vez mais a acordos de licenciamento de dados com fornecedores de IA, à medida que chatbots como o OpenAI Bate-papoGPT e do Google Gêmeos ameaçam minar o tráfego. Um modelo recente do The Atlantic encontrado que, se um mecanismo de busca como o Google integrasse a IA na busca, ele responderia à consulta do usuário 75% das vezes sem exigir um clique para acessar seu site.

Os fornecedores, por sua vez, foram estimulados a buscar acordos de licenciamento, pois enfrentam uma enxurrada de ações judiciais alegando que não têm justificativa legal para treinar seus modelos em dados sem permissão ou pagamento. Recentemente, o New York Times acusado OpenAI de construir efetivamente concorrentes de editores de notícias usando suas obras, prejudicando seus negócios.

OpenAI, por exemplo, tem acordos em vigor com galeria de imagens Obturador bem como editores, incluindo Axel Springer, proprietário do Politico e Business Insider. As licenças são relatado no entanto, é bastante pequeno – chegando a US$ 5 milhões por ano.

Fuente