OnzeLabs

Há muito dinheiro na clonagem de voz.

Caso em questão: OnzeLabsuma startup que desenvolve ferramentas baseadas em IA para criar e editar vozes sintéticas, anunciou hoje que fechou uma rodada Série B de US$ 80 milhões co-liderada por investidores proeminentes, incluindo Andreessen Horowitz, o ex-CEO do GitHub Nat Friedman e o empresário Daniel Gross.

A rodada, que também contou com a participação de Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital e Credo Ventures, eleva o total arrecadado da ElevenLabs para US$ 101 milhões e avalia a empresa em mais de US$ 1 bilhão (acima de ~$ 100 milhões último Junho). O CEO Mati Staniszewski diz que o novo dinheiro será aplicado no desenvolvimento de produtos, na expansão da infraestrutura e da equipe da ElevenLabs, na pesquisa de IA e no “aprimoramento das medidas de segurança para garantir o desenvolvimento responsável e ético da tecnologia de IA”.

“Levantamos o novo dinheiro para consolidar a posição da ElevenLabs como líder global em pesquisa de IA de voz e implantação de produtos”, disse Staniszewski ao TechCrunch em uma entrevista por e-mail.

Cofundada em 2022 por Piotr Dabkowski, ex-engenheiro de aprendizado de máquina do Google, e Staniszewski, ex-estrategista de implantação da Palantir, a ElevenLabs foi lançada em versão beta há cerca de um ano. Staniszewski diz que ele e Dabkowski, que cresceu na Polônia, foram inspirados a criar ferramentas de clonagem de voz por meio de filmes americanos mal dublados. A IA poderia fazer melhor, eles pensaram.

Hoje, a ElevenLabs é talvez mais conhecida por seu aplicativo de geração de fala baseado em navegador, que pode criar vozes realistas com botões ajustáveis ​​para entonação, emoção, cadência e outras características vocais importantes. Gratuitamente, os usuários podem inserir texto e obter uma gravação desse texto lida em voz alta por uma das várias vozes padrão. Os clientes pagantes podem fazer upload de amostras de voz para criar novos estilos usando a clonagem de voz da ElevenLabs.

Cada vez mais, a ElevenLabs está investindo em versões de sua tecnologia de geração de fala destinadas à criação de audiolivros e dublagem de filmes e programas de TV, bem como à geração de vozes de personagens para jogos e ativações de marketing.

No ano passado, a empresa lançou uma ferramenta de “fala em fala” que tenta preservar a voz, a prosódia e a entonação do locutor, ao mesmo tempo que remove automaticamente o ruído de fundo e – no caso de filmes e programas de TV – traduz e sincroniza a fala com o material de origem. No roteiro para as próximas semanas está um novo fluxo de trabalho de estúdio de dublagem com ferramentas para gerar e editar transcrições e traduções e um aplicativo móvel baseado em assinatura que narra páginas da web e texto usando vozes ElevenLabs.

As inovações da ElevenLabs conquistaram clientes iniciantes da Paradox Interactive, desenvolvedora de jogos cujos projetos recentes incluem Cities: Skylines 2 e Stellaris, e The Washington Post – entre outras empresas de publicação, mídia e entretenimento. Staniszewski afirma que os usuários do ElevenLab geraram o equivalente a mais de 100 anos de áudio e que a plataforma está sendo usada por funcionários de 41% das empresas Fortune 500.

Mas a publicidade não tem sido totalmente positiva.

O infame quadro de mensagens 4chan, conhecido por seu conteúdo conspiratório, usado Ferramentas da ElevenLabs para compartilhar mensagens de ódio imitando celebridades como a atriz Emma Watson. James Vincent, do The Verge, conseguiu usar o ElevenLabs para clonar vozes maliciosamente em questão de segundos, gerando amostras contendo tudo, desde ameaças de violência até comentários racistas e transfóbicos. E na Vox, o repórter Joseph Cox documentado gerando um clone convincente o suficiente para enganar o sistema de autenticação de um banco.

Em resposta, a ElevenLabs tentou erradicar usuários que violavam repetidamente seus termos de serviço, que proíbem abusos, e lançou uma ferramenta para detectar a fala criada por sua plataforma. Este ano, a ElevenLabs planeja melhorar a ferramenta de detecção para sinalizar áudio de outros modelos de IA de geração de voz e fazer parceria com “distribuidores” não identificados para disponibilizar a ferramenta em plataformas de terceiros, diz Staniszewski.

ElevenLabs oferece uma variedade de vozes diferentes, algumas sintéticas, outras clonadas de dubladores.

A ElevenLabs também enfrentou críticas de dubladores que afirmam que a empresa usa amostras de suas vozes sem o seu consentimento – amostras que poderiam ser aproveitadas para promover conteúdo que eles não endossam ou espalhar informações erradas e desinformadas. Em um recente No artigo da Vice, as vítimas contam como o ElevenLabs foi usado em campanhas de assédio contra elas, em um exemplo, para compartilhar informações privadas de um ator – seu endereço residencial – usando uma voz clonada.

Depois, há o elefante na sala: as plataformas de ameaça existencial como o ElevenLabs representam para a indústria de dublagem.

Placa-mãe escreve sobre como os dubladores são cada vez mais solicitados a renunciar aos direitos de suas vozes para que os clientes possam usar a IA para gerar versões sintéticas que possam eventualmente substituí-las – às vezes sem compensação proporcional. O medo é que o trabalho de voz – especialmente o trabalho de nível básico barato – acabe sendo substituído por vocais gerados por IA, e que os atores não tenham recurso.

Algumas plataformas estão tentando encontrar um equilíbrio. No início deste mês, a Replica Studios, concorrente da ElevenLabs, assinou um acordo com a SAG-AFTRA para criar e licenciar réplicas digitais das vozes dos membros do sindicato dos artistas de mídia. Num comunicado de imprensa, as organizações afirmaram que o acordo estabelecia termos e condições “justos” e “éticos” para garantir o consentimento do intérprete – e termos de negociação para a utilização de duplicatas de voz digital em novas obras.

Mesmo isso não agradou alguns dubladores – incluindo SAG-AFTRA próprios membros.

A solução da ElevenLabs é um mercado para vozes. Atualmente em fase alfa e previsto para se tornar mais amplamente disponível nas próximas semanas, o mercado permite que os usuários criem uma voz, verifiquem e compartilhem-na. Quando outros usam a voz, os criadores originais recebem uma compensação, diz Staniszewski.

“Os usuários sempre mantêm o controle sobre a disponibilidade de sua voz e os termos de compensação”, acrescentou. “O mercado foi concebido como um passo no sentido de harmonizar os avanços da IA ​​com as práticas estabelecidas da indústria, ao mesmo tempo que traz um conjunto diversificado de vozes para a plataforma da ElevenLabs.”

Os dubladores podem discordar do fato de que a ElevenLabs não está pagando em dinheiro – pelo menos não no momento. A configuração atual faz com que os criadores recebam crédito pelos serviços premium da ElevenLabs (o que alguns consideram irônico, aposto).

Talvez isso mude no futuro, à medida que a ElevenLabs – que agora está entre as startups de voz sintética mais bem financiadas – tenta vencer concorrentes emergentes como Papercup, Deepdub, ElevenLabs, Acapela, Respeecher e Voice.ai, bem como grandes empresas de tecnologia como como Amazon, Microsoft e Google. De qualquer forma, a ElevenLabs, que planeja aumentar seu quadro de funcionários de 40 para 100 até o final do ano, pretende permanecer – e fazer barulho – no mercado de voz sintética em rápido crescimento.

Fuente