O que é deepfake e por que você deveria se preocuparO que é inteligência artificial?
A empresa afirma que o serviço foi desenvolvido com o intuito de gerar vídeos para treinamentos, educação corporativa, campanhas de marketing, comunicação interna e assim por diante. Deve ser por isso que a D-ID evita o uso do termo deepfake. A palavra está fortemente associada ao uso negativo da tecnologia (para manipulação política, por exemplo).
Um vídeo com seu rosto em segundos
Não é preciso ser especialista em edição de vídeos para usufruir do Creative Reality Studio. O site é intuitivo e permite a qualquer pessoa criar um vídeo com uma pessoa falando, em segundos ou minutos. Tudo o que é necessário fazer é escolher um dos apresentadores disponíveis no site e digitar um texto no campo ao lado. O idioma padrão é o inglês dos Estados Unidos, mas há 119 línguas disponíveis, incluindo o português do Brasil. É possível escolher uma entre várias opções de vozes femininas e masculinas. Um estilo de voz associado a uma emoção também pode ser escolhido: triste, amigável, esperançoso, irritado, entre outros. Também é possível fazer upload de um arquivo de áudio com a voz da pessoa para dar mais realismo ao conteúdo esperado. Você já sabe o que acontece na sequência. Todos esses dados são usados pelo sistema de inteligência artificial para gerar o vídeo. Depois, é só baixar e publicar o vídeo em páginas corporativas, redes sociais e por aí vai. Como já informado, também é possível gerar um vídeo fazendo upload de uma simples foto. Eis o resultado com uma imagem minha:
Mas funciona?
Funciona. Nem sempre o resultado é imediato, porém. O tempo de espera para o vídeo ser gerado depende da duração da fala, do idioma e até do apresentador escolhido. De todo modo, o processo não costuma levar mais do que alguns minutos e dura apenas alguns segundos se o material for curto. O idioma é um fator crítico aqui. Há numerosas vozes para o inglês americano, por exemplo. Por outro lado, só há uma voz feminina e uma voz masculina para o português brasileiro. Pelo menos a pronúncia é feita corretamente, quase sempre. De modo geral, o resultado é convincente, embora seja fácil perceber que se trata de um deepfake. Note, por exemplo, que a cabeça tem um movimento padronizado, como se fosse uma coreografia. Além disso, é possível perceber que o movimento dos lábios nem sempre condiz com as palavras pronunciadas. Aliás, esses são os sinais mais óbvios que você pode analisar para descobrir se um vídeo é deepfake.
Filtros contra deepfakes maliciosos
Gil Perry, CEO da D-ID, deixou claro para o TechCrunch que o Creative Reality Studio foi projetado para casos de uso legítimos, isto é, sem fins maliciosos. Como exemplo, o executivo explicou que a tecnologia pode ser usada para o CEO de uma companhia enviar uma mensagem aos seus funcionários em múltiplos idiomas. Mas a D-ID sabe que deepfakes vêm sendo usados para manipulações políticas ou para prejudicar a imagem de pessoas públicas, por exemplo. É por que isso que o sistema da empresa conta com alguns filtros. Os algoritmos podem barrar palavrões e expressões racistas, por exemplo. Além disso, a tecnologia importa uma API da Microsoft Azure que elimina falas sexuais ou ofensivas em vídeos. Também há um sistema de reconhecimento de imagem que impede — ou pelo menos tenta impedir — o uso de imagens de pessoas famosas. Tentei subir uma foto de Bill Gates e não deu certo. Por outro lado, nos testes que fiz, o filtro de palavrões funcionou em inglês, mas não em português do Brasil. Existe uma política contra uso indevido, porém. A D-ID explica que, em caso de violação das regras, o usuário pode ser banido da plataforma e ter o seu conteúdo apagado.
Serviço é pago, mas tem teste gratuito
Caso você queira testar, basta fazer um cadastro no site do Creative Reality Studio. No momento, o serviço oferece dois planos pagos. O primeiro custa US$ 49 por mês e dá direito a 60 créditos. Cada crédito corresponde a 15 segundos de vídeo. O segundo é um plano ilimitado, mas cujo valor deve ser negociado. Existe também um plano gratuito, para testes, com 20 créditos e duração de 14 dias. Neste, os vídeos gerados têm marcas d’água sobre toda a imagem. Para as contas pagas, há recursos adicionais, como plugin de PowerPoint, suporte por email e apresentadores com expressões faciais mais realistas.