Wan2.1-T2V-14B: Gerar Vídeos com HF

Wan2.1-T2V-14B: Gerar Vídeos com HF Wan2.1-T2V-14B: Gerar Vídeos com HF

Aviso: Este post foi traduzido para o português usando um modelo de tradução automática. Por favor, me avise se encontrar algum erro.

Está claro que o maior hub de modelos de inteligência artificial é a Hugging Face. E agora estão oferecendo a possibilidade de fazer inferência de alguns de seus modelos em provedores de GPUs serverless

Um desses modelos é Wan-AI/Wan2.1-T2V-14B, que no momento de escrever este post, é o melhor modelo de geração de vídeo open source, como se pode ver na Artificial Analysis Video Generation Arena Leaderboard

video generation arena leaderboard

Se nós olharmos para seu modelcard, podemos ver à direita um botão que diz Replicate.

Wan2.1-T2V-14B modelcard

Provedores de inferêncialink image 19

Se formos na página de configuração dos Inference providers veremos algo assim:

Provedores de Inferência

Onde podemos clicar no botão com uma chave para inserir a API KEY do provedor que quisermos usar, ou deixar selecionada a opção com dois pontos. Se escolhermos a primeira opção, será o provedor quem nos cobrará pela inferência, enquanto na segunda opção será a Hugging Face quem nos cobrará pela inferência. Então, faça o que for melhor para você.

Inferência com Replicatelink image 20

No meu caso, obtive uma API KEY do Replicate e a adicionei a um arquivo chamado .env, onde armazenarei as API KEYS e que não deve ser enviado para o GitHub, GitLab ou o repositório do seu projeto.

O .env deve ter este formato

HUGGINGFACE_TOKEN_INFERENCE_PROVIDERS="hf_aL...AY"
REPLICATE_API_KEY="r8_Sh...UD"

Onde HUGGINGFACE_TOKEN_INFERENCE_PROVIDERS é um token que você precisa obter a partir do Hugging Face e REPLICATE_API_KEY é a API KEY do Replicate, que você pode obter a partir do Replicate.

Leitura das chaves APIlink image 21

A primeira coisa que temos que fazer é ler as chaves API do arquivo .env

	
< > Input
Python
import os
import dotenv
dotenv.load_dotenv()
REPLICATE_API_KEY = os.getenv("REPLICATE_API_KEY")
HUGGINGFACE_TOKEN_INFERENCE_PROVIDERS = os.getenv("HUGGINGFACE_TOKEN_INFERENCE_PROVIDERS")
Copied

Logging no hub da Hugging Facelink image 22

Para poder usar o modelo de Wan-AI/Wan2.1-T2V-14B, como está no hub de Hugging Face, precisamos fazer login.

	
< > Input
Python
from huggingface_hub import login
login(HUGGINGFACE_TOKEN_INFERENCE_PROVIDERS)
Copied

Cliente de Inferêncialink image 23

Agora criamos um cliente de inferência, temos que especificar o provedor, a API KEY e, neste caso, além disso, vamos estabelecer um tempo de timeout de 1000 segundos, porque por padrão é de 60 segundos e o modelo demora bastante para gerar o vídeo.

	
< > Input
Python
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="replicate",
api_key=REPLICATE_API_KEY,
timeout=1000
)
Copied

Geração do vídeolink image 24

Já temos tudo para gerar nosso vídeo. Usamos o método text_to_video do cliente, passamos o prompt e dizemos qual modelo do hub queremos usar, se não, ele usará o que está por padrão.

	
< > Input
Python
video = client.text_to_video(
"Funky dancer, dancing in a rehearsal room. She wears long hair that moves to the rhythm of her dance.",
model="Wan-AI/Wan2.1-T2V-14B",
)
Copied

Salvando o vídeolink image 25

Por fim, salvamos o vídeo, que é do tipo bytes, em um arquivo no nosso disco.

	
< > Input
Python
output_path = "output_video.mp4"
with open(output_path, "wb") as f:
f.write(video)
print(f"Video saved to: {output_path}")
Copied
>_ Output
			
Video saved to: output_video.mp4

Vídeo geradolink image 26

Este é o vídeo gerado pelo modelo

Continuar lendo

Últimos posts -->

Você viu esses projetos?

Gymnasia

Gymnasia Gymnasia
React Native
Expo
TypeScript
FastAPI
Next.js
OpenAI
Anthropic

Aplicativo móvel de treino pessoal com assistente de IA, biblioteca de exercícios, acompanhamento de rotinas, dieta e medidas corporais

Horeca chatbot

Horeca chatbot Horeca chatbot
Python
LangChain
PostgreSQL
PGVector
React
Kubernetes
Docker
GitHub Actions

Chatbot conversacional para cozinheiros de hotéis e restaurantes. Um cozinheiro, gerente de cozinha ou serviço de quarto de um hotel ou restaurante pode falar com o chatbot para obter informações sobre receitas e menus. Mas também implementa agentes, com os quais pode editar ou criar novas receitas ou menus

Naviground

Naviground Naviground
Ver todos os projetos -->
>_ Disponível para projetos

Tem um projeto com IA?

Vamos conversar.

maximofn@gmail.com

Especialista em Machine Learning e Inteligência Artificial. Desenvolvo soluções com IA generativa, agentes inteligentes e modelos personalizados.

Quer assistir alguma palestra?

Últimas palestras -->

Quer melhorar com essas dicas?

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuário a deletar? Por isso, criei contêineres docker com alguns espaços interessantes, para poder usá-los localmente, aconteça o que acontecer. Na verdade, se você clicar em qualquer botão de visualização de projeto, ele pode levá-lo a um espaço que não funciona.

Flow edit

Flow edit Flow edit

Edite imagens com este modelo de Flow. Baseado em SD3 ou FLUX, você pode editar qualquer imagem e gerar novas

FLUX.1-RealismLora

FLUX.1-RealismLora FLUX.1-RealismLora
Ver todos os contêineres -->
>_ Disponível para projetos

Tem um projeto com IA?

Vamos conversar.

maximofn@gmail.com

Especialista em Machine Learning e Inteligência Artificial. Desenvolvo soluções com IA generativa, agentes inteligentes e modelos personalizados.

Você quer treinar seu modelo com esses datasets?

short-jokes-dataset

HuggingFace

Dataset com piadas em inglês

Uso: Fine-tuning de modelos de geração de texto humorístico

231K linhas 2 colunas 45 MB
Ver no HuggingFace →

opus100

HuggingFace

Dataset com traduções de inglês para espanhol

Uso: Treinamento de modelos de tradução inglês-espanhol

1M linhas 2 colunas 210 MB
Ver no HuggingFace →

netflix_titles

HuggingFace

Dataset com filmes e séries da Netflix

Uso: Análise de catálogo Netflix e sistemas de recomendação

8.8K linhas 12 colunas 3.5 MB
Ver no HuggingFace →
Ver mais datasets -->