Sora e o surgimento dos vídeos generativos

Sora e o surgimento dos vídeos generativos

Sora é o novo sistema de inteligência artificial generativa da OpenAI, que funciona por meio de um modelo de texto para vídeo, ou seja, textos agora podem ser transformados em vídeos em segundos.

 

Redator: Heitor Augusto Colli Trebien

 

A OpenAI, criadora do chatGPT e Dall-e, lançou no dia 15 de fevereiro (2024) a Sora, um modelo treinado para transformar textos em vídeos de alta qualidade de até 1 minuto. A proposta é que a inteligência artificial (IA) possa simular o mundo físico em movimento, e assim recriar a realidade através da tecnologia e claro, da arte.

 

Exemplos reais

 

Em seu website específico, a OpenAI deixou alguns exemplos de vídeos gerados pela Sora, dos quais trouxemos alguns para que você possa conhecê-los:

 

Referência: vídeo produzido pela OpenAI, com o prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway. Tradução – comando: Vista de drone das ondas quebrando contra os penhascos ásperos ao longo da praia de Garay Point em Big Sur. As águas azuis que colidem criam ondas com pontas brancas, enquanto a luz dourada do sol poente ilumina a costa rochosa. Uma pequena ilha com um farol situa-se ao longe, e arbustos verdes cobrem a borda do penhasco. A queda íngreme da estrada até a praia é uma façanha dramática, com as bordas do penhasco projetando-se sobre o mar. Esta é uma visão que captura a beleza crua da costa e a paisagem acidentada da Pacific Coast Highway.

 

A Sora ainda não está aberta ao público. Segundo a empresa, a ferramenta foi compartilhada com diversos artistas visuais, designers e cineastas para receber feedbacks de como aprimorá-la para deixá-la mais apropriada para profissionais criativos. 

A OpenAI compartilhou os resultados da pesquisa mais cedo para que o público possa acompanhar os avanços e as capacidades da IA em tempo real. 

 

Referência: vídeo produzido pela OpenAI, com o prompt: A cartoon kangaroo disco dances. Tradução – Comando: Um canguru de desenho animado dançando disco.

 

Agora as imagens do Dall-e poderão ser animadas pela Sora, o que significa que a integração entre os sistemas chatGPT (texto), Dall-e (imagem) e Sora (vídeo/movimento) estão sendo desenvolvidos com cada vez mais precisão. 

Claro, o contrário também poderá ser feito: os vídeos poderão ser transformados em imagem e texto, e teremos um intercâmbio transformacional entre essas diferentes mídias de forma quase instantânea. 

A OpenAI defende que agora a IA generativa poderá processar como os objetos e pessoas existem no mundo real, por ser treinada com vídeos reais de pessoas, paisagens e animais em movimento. Isso irá aperfeiçoar fortemente o modo como a IA funciona. 

Hoje, com a capacidade de captar movimentos específicos, a IA poderá, por exemplo, representar as emoções de forma muito mais realista e precisa, sem causar aquela estranheza que antes nos impactava. 

 

Referência: vídeo produzido pela Open AI, com o prompt: An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film. Tradução – comando: Uma câmera foca o rosto de um homem de cabelos grisalhos e barba na casa dos 60 anos, que está profundamente pensativo, ponderando sobre a história do universo enquanto está sentado em um café em Paris. Seu olhar foca nas pessoas fora de cena enquanto elas caminham, enquanto ele permanece quase imóvel. Ele está vestido com um casaco de lã sobre um paletó com camisa de botões, usa uma boina marrom e óculos, e tem uma aparência muito professoral. No final, ele oferece um sorriso sutil com a boca fechada, como se tivesse encontrado a resposta para o mistério da vida. A iluminação é muito cinematográfica, com a luz dourada e as ruas e a cidade parisiense ao fundo, profundidade de campo, filme cinematográfico 35mm.

 

Atualmente, o modelo ainda possui algumas fraquezas. Por exemplo, ele tem dificuldade de expressar causa e efeito, então se uma pessoa comer uma bolacha, a marca da mordida não irá aparecer na comida. Pelo menos por enquanto. 

Alguns detalhes espaciais também podem se perder, por exemplo, o sistema às vezes confunde esquerda com direita, ou com o movimento específico da câmera e para onde ela deveria seguir. 

No entanto, me parece que esses problemas serão rapidamente resolvidos no futuro. 

 

A Velip e o futuro

 

Na Velip, estaremos sempre prontos para as inovações. Estamos atentos para descobrir como essa tecnologia poderá nos ajudar a te atender melhor. 

Nós já temos os avatares conversacionais e já produzimos vídeos interativos. Com essa nova tecnologia, ficará mais fácil desenvolver personagens digitais (robôs) cada vez melhores. 

Nos acompanhem para saber mais sobre o mundo das inteligências artificias, e se precisarem, entrem em contato.

 

Velip, ecoando sua voz por novos caminhos. 

 

Referência da imagem da capa

 

Fonte: O redator usou o chatGPT e o Dall-e para gerar a imagem.

 

Referências: 

 

OPENAI. Sora. Website da OpenAI. Disponível em: https://openai.com/sora#research. Acesso em: 16 fev. 2024. 

OPENAI. Video generation models as world simulators. Website da OpenAI. Disponível em: https://openai.com/research/video-generation-models-as-world-simulators. Acesso em: 16 fev. 2024.