A busca do Google por OpenAI Sora com Veo, um modelo de IA que pode criar videoclipes em 1080p com cerca de um minuto de duração, a partir de um prompt de texto.
Revelado na terça-feira às Conferência de desenvolvedores I/O 2024 do Googleo Veo pode capturar diferentes estilos visuais e cinematográficos, incluindo fotos de paisagens e timelapses, e fazer edições e ajustes em imagens já geradas.
“Estamos explorando recursos como storyboards e gerando cenas mais longas para ver o que o Veo pode fazer”, disse Demis Hassabis, chefe do laboratório de pesquisa e desenvolvimento de IA do Google, DeepMind, a repórteres durante uma mesa redonda virtual. “Fizemos um progresso incrível em vídeo.”
Veo baseia-se no trabalho comercial preliminar do Google na geração de vídeo, visualizado em abril, que aproveitou a família Imagen 2 de modelos de geração de imagens da empresa para criar videoclipes em loop.
Mas, ao contrário da ferramenta baseada no Imagen 2, que só conseguia criar vídeos de baixa resolução e com poucos segundos de duração, o Veo parece ser competitivo com os principais modelos de geração de vídeo da atualidade – não apenas Sora, mas modelos de startups como Pika, Pista e Laboratórios Irreverentes.
Em um briefing, Daniel Eck, que lidera os esforços de pesquisa em mídia generativa na DeepMind, me mostrou alguns exemplos escolhidos a dedo do que o Veo pode fazer. Um deles em particular – uma vista aérea de uma praia movimentada – demonstrou os pontos fortes da Veo em relação aos modelos de vídeo rivais, disse ele.
“O detalhe de todos os nadadores na praia provou ser difícil tanto para os modelos de geração de imagem quanto para o vídeo – tendo tantos personagens em movimento”, disse ele. “Se você olhar de perto, o surf parece muito bom. E o sentido da palavra ‘agitado’, eu diria, é capturado por todas as pessoas – a animada orla marítima repleta de banhistas.”
Veo foi treinado em muitas filmagens. Geralmente é assim que funciona com modelos generativos de IA: exemplo após exemplo do Fed de alguma forma de dados, os modelos captam padrões nos dados que lhes permitem gerar novos dados – vídeos, no caso da Veo.
De onde veio a filmagem para treinar o Veo? Eck não quis dizer com precisão, mas admitiu que alguns podem ter sido provenientes do próprio YouTube do Google.
“Os modelos do Google podem ser treinados em alguns conteúdos do YouTube, mas sempre de acordo com nosso acordo com os criadores do YouTube”, disse ele.
A parte do “acordo” pode tecnicamente seja verdadeiro. Mas também é verdade que, considerando os efeitos de rede do YouTube, os criadores não têm muita escolha senão seguir as regras do Google se quiserem atingir o público mais amplo possível.
Uma reportagem do The New York Times em abril revelou que Google ampliou seus termos de serviço no ano passado, em parte para permitir que a empresa utilizasse mais dados para treinar seus modelos de IA. Sob os antigos ToS, não estava claro se o Google poderia usar os dados do YouTube para construir produtos além da plataforma de vídeo. O mesmo não acontece com os novos termos, que afrouxam consideravelmente as rédeas.
O Google está longe de ser o único gigante da tecnologia que aproveita grandes quantidades de dados de usuários para treinar modelos internos. (Ver: meta.) Mas o que certamente decepcionará alguns criadores é a insistência de Eck em que o Google estabeleça o “padrão ouro”, aqui, em termos de ética.
“A solução para isso [training data] O desafio será encontrar todas as partes interessadas para descobrir quais são os próximos passos”, disse ele. “Até que tomemos essas medidas com as partes interessadas – estamos falando da indústria cinematográfica, da indústria musical, dos próprios artistas – não avançaremos rapidamente.”
No entanto, o Google já disponibilizou o Veo para criadores selecionados, incluindo Donald Glover (também conhecido como Childish Gambino) e sua agência criativa Gilga. (Como OpenAI com Sorao posicionamento do Google Veo como uma ferramenta para criativos.)
Eck observou que o Google fornece ferramentas para permitir que os webmasters evitem que os bots da empresa extraiam dados de treinamento de seus sites. Mas as configurações não se aplicam ao YouTube. E o Google, ao contrário alguns do seu rivaisnão oferece um mecanismo para permitir que os criadores removam seus trabalhos dos conjuntos de dados de treinamento após a extração.
Também perguntei a Eck sobre regurgitação, que no contexto de IA generativa se refere a quando um modelo gera uma cópia espelhada de um exemplo de treinamento. Descobriu-se que ferramentas como Midjourney são cuspidas fotos exatas de filmes como “Dune”, “Avengers” e “Star Wars” forneceram um carimbo de data/hora – estabelecendo um potencial campo minado legal para os usuários. A OpenAI chegou ao ponto de bloquear marcas registradas e nomes de criadores em solicitações para que Sora tentasse evitar desafios de direitos autorais.
Então, quais medidas o Google tomou para mitigar o risco de regurgitação com o Veo? Eck não teve resposta, apenas disse que a equipe de pesquisa implementou filtros para conteúdo violento e explícito (então sem pornografia) e está usando o DeepMind Tecnologia SynthID para marcar vídeos do Veo como gerados por IA.
“Faremos questão – para algo tão grande como o modelo Veo – de liberá-lo gradualmente para um pequeno conjunto de partes interessadas com quem possamos trabalhar de perto para entender as implicações do modelo, e só então nos espalharmos. para um grupo maior”, disse ele.
Eck tinha mais a compartilhar sobre os detalhes técnicos do modelo.
Eck descreveu o Veo como “bastante controlável” no sentido de que o modelo entende razoavelmente bem os movimentos da câmera e os efeitos visuais a partir dos prompts (pense em descritores como “pan”, “zoom” e “explosão”). E, como Sora, Veo tem um certo domínio da física – coisas como dinâmica de fluidos e gravidade – que contribuem para o realismo dos vídeos que gera.
Isso não quer dizer que Veo seja perfeito. Refletindo as limitações da IA generativa atual, os objetos nos vídeos do Veo desaparecem e reaparecem sem muita explicação ou consistência. E a Veo erra frequentemente em sua física – por exemplo, os carros dão ré inexplicavelmente e impossivelmente em um centavo.
É por isso que Veo permanecerá em uma lista de espera no Laboratórios Google, o portal da empresa para tecnologia experimental, para um futuro próximo, dentro de uma nova interface para criação e edição generativa de vídeos com IA chamada VideoFX. À medida que melhora, o Google pretende trazer alguns dos recursos do modelo para Curtas do YouTube e outros produtos.
“Este é um trabalho em andamento, muito experimental… há muito mais coisas por fazer do que por fazer aqui”, disse Eck. “Mas acho que essa é a matéria-prima para fazer algo realmente ótimo no espaço cinematográfico.”