Home NOTÍCIAS Vana planeja permitir que os usuários aluguem seus dados do Reddit para...

NOTÍCIAS

Vana planeja permitir que os usuários aluguem seus dados do Reddit para treinar IA

April 14, 2024

No generativo Boom da IA, os dados são o novo petróleo. Então, por que você não deveria vender o seu próprio?

De grandes empresas de tecnologia a startups, os fabricantes de IA estão licenciando e-books, imagens, vídeos, áudio e muito mais de corretores de dados, tudo em busca de treinamento de pessoas mais capazes (e mais legalmente defensável) Produtos alimentados por IA. A Shutterstock tem ofertas com Meta, Google, Amazon e Apple para fornecer milhões de imagens para treinamento de modelo, enquanto OpenAI tem acordos assinados com diversas organizações de notícias para treinar seus modelos em arquivos de notícias.

Em muitos casos, os criadores e proprietários individuais desses dados não viram um centavo do dinheiro mudando de mãos. Uma startup chamada Velho quer mudar isso.

Anna Kazlauskas e Art Abal, que se conheceram em uma aula no MIT Media Lab com foco na construção de tecnologia para mercados emergentes, co-fundaram a Vana em 2021. Antes de Vana, Kazlauskas estudou ciência da computação e economia no MIT, eventualmente saindo para lançar uma fintech startup de automação, Iambiq, do Y Combinator. Abal, advogado corporativo por formação e formação, foi associado do The Cadmus Group, uma empresa de consultoria com sede em Boston, antes de chefiar o fornecimento de impacto na empresa de anotação de dados Appen.

Com Vana, Kazlauskas e Abal decidiram construir uma plataforma que permite aos usuários “agrupar” seus dados – incluindo bate-papos, gravações de fala e fotos – em conjuntos de dados que podem então ser usados para treinamento generativo de modelos de IA. Eles também querem criar experiências mais personalizadas – por exemplo, correio de voz motivacional diário baseado em seus objetivos de bem-estar ou um aplicativo de geração de arte que entenda suas preferências de estilo – ajustando modelos públicos com base nesses dados.

“A infraestrutura de Vana, na verdade, cria um tesouro de dados de propriedade do usuário”, disse Kazlauskas ao TechCrunch. “Ele faz isso permitindo que os usuários agreguem seus dados pessoais sem custódia… Vana permite que os usuários possuam modelos de IA e usem seus dados em aplicativos de IA.”

Veja como Vana lança sua plataforma e API para desenvolvedores:

A API Vana conecta os dados pessoais de plataforma cruzada de um usuário… para permitir que você personalize seu aplicativo. Seu aplicativo obtém acesso instantâneo ao modelo de IA personalizado ou aos dados subjacentes de um usuário, simplificando a integração e eliminando preocupações com custos de computação… Acreditamos que os usuários deveriam ser capazes de trazer seus dados pessoais de jardins murados, como Instagram, Facebook e Google, para seu aplicativo, então você pode criar uma experiência personalizada incrível desde a primeira vez que um usuário interage com seu aplicativo de IA de consumidor.

Criar uma conta na Vana é bastante simples. Depois de confirmar seu e-mail, você pode anexar dados a um avatar digital (como selfies, uma descrição sua e gravações de voz) e explorar aplicativos criados usando a plataforma e os conjuntos de dados da Vana. A seleção de aplicativos varia de chatbots no estilo ChatGPT e livros de histórias interativos até um gerador de perfil Hinge.

Créditos da imagem: Velho

Agora, por que, você pode perguntar – nesta era de maior conscientização sobre a privacidade de dados e ataques de ransomware – alguém ofereceria suas informações pessoais para uma startup anônima, muito menos para uma startup apoiada por capital de risco? (Vana arrecadou US$ 20 milhões até o momento da Paradigm, Polychain Capital e outros financiadores.) Pode-se realmente confiar em qualquer empresa com fins lucrativos que não abusará ou manipulará indevidamente quaisquer dados monetizáveis que tiver em mãos?

Créditos da imagem: Velho

Em resposta a essa pergunta, Kazlauskas enfatizou que o objetivo do Vana é que os usuários “recuperem o controle sobre seus dados”, observando que os usuários do Vana têm a opção de auto-hospedar seus dados em vez de armazená-los nos servidores do Vana e controlar como seus dados serão armazenados. os dados são compartilhados com aplicativos e desenvolvedores. Ela também argumentou que, como Vana ganha dinheiro cobrando dos usuários uma assinatura mensal (a partir de US$ 3,99) e cobrando uma taxa de “transação de dados” dos desenvolvedores (por exemplo, para transferência de conjuntos de dados para treinamento de modelos de IA), a empresa não é incentivada a explorar usuários e os tesouros de dados pessoais que eles trazem consigo.

“Queremos criar modelos de propriedade e de usuários governados, em que todos contribuam com seus dados”, disse Kazlauskas, “e permitir que os usuários tragam seus dados e modelos com eles para qualquer aplicativo”.

Agora, enquanto Velho não está vendendo dados de usuários para empresas para treinamento de modelo de IA generativo (ou pelo menos é o que afirma), mas deseja permitir que os usuários façam isso sozinhos, se assim desejarem – começando com suas postagens no Reddit.

Este mês, a Vana lançou o que chama de Reddit Data DAO (Organização Autônoma Digital)um programa que reúne dados do Reddit de vários usuários (incluindo seu carma e histórico de postagens) e permite que eles decidam juntos como esses dados combinados serão usados. Depois de ingressar com uma conta Reddit, enviar um solicitar ao Reddit para obter seus dados e carregá-los no DAO, os usuários ganham o direito de votar junto com outros membros do DAO em decisões como licenciar os dados combinados para empresas de IA generativa para um lucro compartilhado.

Analisamos os números e r/datadao é agora o maior DAO de dados da história: a Fase 1 recebeu 141.000 usuários do reddit com 21.000 uploads de dados completos.
—r/datadao (@rdatadao) 11 de abril de 2024

É uma espécie de resposta ao Reddit movimentos recentes para comercializar dados em sua plataforma.

Anteriormente, o Reddit não bloqueava o acesso a postagens e comunidades para fins de treinamento generativo de IA. Mas inverteu o rumo no final do ano passado, antes do seu IPO. Desde a mudança de política, o Reddit arrecadou mais de US$ 203 milhões em taxas de licenciamento de empresas como o Google.

“A ideia geral (com o DAO é) liberar os dados dos usuários das principais plataformas que buscam acumulá-los e monetizá-los”, disse Kazlauskas. “Esta é a primeira vez e faz parte do nosso esforço para ajudar as pessoas a reunir seus dados em conjuntos de dados de propriedade do usuário para treinar modelos de IA.”

Não é novidade que o Reddit – que não trabalha com Vana em nenhuma capacidade oficial – não está satisfeito com o DAO.

Reddit baniu Vana’s subreddit dedicado à discussão sobre o DAO. E um porta-voz do Reddit acusou Vana de “explorar” seu sistema de exportação de dados, que foi projetado para cumprir as regulamentações de privacidade de dados, como o GDPR e a Lei de Privacidade do Consumidor da Califórnia.

“Nossos arranjos de dados nos permitem colocar barreiras em tais entidades, até mesmo em informações públicas”, disse o porta-voz ao TechCrunch. “O Reddit não compartilha dados pessoais não públicos com empresas comerciais e, quando os Redditors solicitam de nós uma exportação de seus dados, eles recebem de nós dados pessoais não públicos de acordo com as leis aplicáveis. Parcerias diretas entre o Reddit e organizações avaliadas, com termos e responsabilidades claros, são importantes, e essas parcerias e acordos evitam o uso indevido e o abuso dos dados das pessoas.”

Mas o Reddit tem algum motivo real para se preocupar?

Kazlauskas prevê que o DAO crescerá a ponto de impactar o valor que o Reddit pode cobrar dos clientes por seus dados. Isso ainda está muito longe, supondo que isso aconteça; o DAO tem pouco mais de 141.000 membros, uma pequena fração da base de usuários de 73 milhões de usuários do Reddit. E alguns desses membros podem ser bots ou contas duplicadas.

Depois, há a questão de como distribuir de forma justa os pagamentos que o DAO pode receber dos compradores de dados.

Atualmente, o DAO concede “tokens” – criptomoeda – aos usuários correspondentes ao seu Reddit carma. Mas o carma pode não ser a melhor medida de contribuições de qualidade para o conjunto de dados – especialmente em comunidades menores do Reddit, com menos oportunidades de ganhá-lo.

Kazlauskas apresenta a ideia de que os membros do DAO poderiam optar por compartilhar seus dados demográficos e de plataforma cruzada, tornando o DAO potencialmente mais valioso e incentivando inscrições. Mas isso também exigiria que os utilizadores confiassem ainda mais na Vana para tratar os seus dados sensíveis de forma responsável.

Pessoalmente, não vejo o DAO de Vana atingindo massa crítica. Os obstáculos no caminho são muitos. Penso, no entanto, que não será a última tentativa popular de afirmar o controlo sobre os dados cada vez mais utilizados para treinar modelos generativos de IA.

Startups como Desova estão trabalhando em maneiras de permitir que os criadores imponham regras que orientem como seus dados são usados para treinamento, enquanto fornecedores como Getty Images, Shutterstock e Adobe continuam a experimentar esquemas de compensação. Mas ninguém decifrou o código ainda. Pode mesmo ser rachado? Considerando a cruel natureza da indústria de IA generativa, é certamente uma tarefa difícil. Mas talvez alguém encontre uma maneira – ou os decisores políticos a forcem.

Fuente

Vana planeja permitir que os usuários aluguem seus dados do Reddit para treinar IA

EDITOR PICKS

Os votos que fizeram Messi surpreender campeão do The Best e outras curiosidades da...

20PRODUCT arrecada US$ 5 milhões para colocar os melhores especialistas em produtos em sua...

Amado vendedor ambulante do sul da Califórnia morto por tiros perdidos

Esta criptomoeda de “pequeno” centavo poderia criar uma nova geração de milionários após o...