BLIP-2: Modelo Multimodal Visão-Linguagem

BLIP-2: Modelo Multimodal Visão-Linguagem BLIP-2: Modelo Multimodal Visão-Linguagem

Aviso: Este post foi traduzido para o português usando um modelo de tradução automática. Por favor, me avise se encontrar algum erro.

Introduçãolink image 13

Blip2 é uma inteligência artificial capaz de receber uma imagem ou vídeo como entrada e ter uma conversa, respondendo perguntas ou fornecendo contexto do que essa entrada mostra de maneira muito precisa 🤯

GitHub

Paper

Instalaçãolink image 14

Para poder instalar esta ferramenta o melhor é criar um novo ambiente do Anaconda

	
< > Input
Python
!$ conda create -n blip2 python=3.9
Copied

Agora vamos entrar no ambiente

	
< > Input
Python
!$ conda activate blip2
Copied

Instalamos todos os módulos necessários

	
< > Input
Python
!$ conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
Copied
	
< > Input
Python
!$ conda install -c anaconda pillow
Copied
	
< > Input
Python
!$ conda install -y -c anaconda requests
Copied
	
< > Input
Python
!$ conda install -y -c anaconda jupyter
Copied

Por fim, instalamos Blip2

	
< > Input
Python
!$ pip install salesforce-lavis
Copied

Usolink image 15

Carregamos as bibliotecas necessárias

	
< > Input
Python
import torch
from PIL import Image
import requests
from lavis.models import load_model_and_preprocess
Copied

Carregamos uma imagem de exemplo

	
< > Input
Python
img_url = 'https://upload.wikimedia.org/wikipedia/commons/thumb/4/4d/12_-_The_Mystical_King_Cobra_and_Coffee_Forests.jpg/800px-12_-_The_Mystical_King_Cobra_and_Coffee_Forests.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
display(raw_image.resize((500, 500)))
Copied
>_ Output
			
&lt;PIL.Image.Image image mode=RGB size=500x500&gt;

Estabelecemos a GPU se houver.

	
< > Input
Python
device = torch.device("cuda" if torch.cuda.is_available() else 'cpu')
device
Copied
>_ Output
			
device(type='cuda')

Atribuímos um modelo. No meu caso, com um computador com 32 GB de RAM e uma GPU 3060 com 12 GB de VRAM, não posso usar todos, então coloquei ao lado um comentário ok com os modelos que consegui usar, e para os que não, o erro que recebi. Se você tem um computador com a mesma quantidade de RAM e VRAM, já sabe quais pode usar; caso contrário, você precisa testar.

	
< > Input
Python
# name = "blip2_opt"; model_type = "pretrain_opt2.7b" # ok
# name = "blip2_opt"; model_type = "caption_coco_opt2.7b" # FAIL VRAM
# name = "blip2_opt"; model_type = "pretrain_opt6.7b" # FAIL RAM
# name = "blip2_opt"; model_type = "caption_coco_opt6.7b" # FAIL RAM
# name = "blip2"; model_type = "pretrain" # FAIL type error
# name = "blip2"; model_type = "coco" # ok
name = "blip2_t5"; model_type = "pretrain_flant5xl" # ok
# name = "blip2_t5"; model_type = "caption_coco_flant5xl" # FAIL VRAM
# name = "blip2_t5"; model_type = "pretrain_flant5xxl" # FAIL
model, vis_processors, _ = load_model_and_preprocess(
name=name, model_type=model_type, is_eval=True, device=device
)
vis_processors.keys()
Copied
>_ Output
			
Loading checkpoint shards: 0%| | 0/2 [00:00&lt;?, ?it/s]
>_ Output
			
dict_keys(['train', 'eval'])

Preparamos a imagem para colocá-la no modelo

	
< > Input
Python
image = vis_processors["eval"](raw_image).unsqueeze(0).to(device)
Copied

Analisamos a imagem sem perguntar nadalink image 16

	
< > Input
Python
model.generate({"image": image})
Copied
>_ Output
			
['a black and white snake']

Analisamos a imagem fazendo perguntaslink image 17

	
< > Input
Python
prompt = None
Copied
	
< > Input
Python
def prepare_prompt(prompt, question):
if prompt is None:
prompt = question + " Answer:"
else:
prompt = prompt + " " + question + " Answer:"
return prompt
Copied
	
< > Input
Python
def get_answer(prompt, question, model):
prompt = prepare_prompt(prompt, question)
answer = model.generate(
{
"image": image,
"prompt": prompt
}
)
answer = answer[0]
prompt = prompt + " " + answer + "."
return prompt, answer
Copied
	
< > Input
Python
question = "What's in the picture?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
Copied
>_ Output
			
Question: What's in the picture?
Answer: a snake
	
< > Input
Python
question = "What kind of snake?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
Copied
>_ Output
			
Question: What kind of snake?
Answer: cobra
	
< > Input
Python
question = "Is it poisonous?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
Copied
>_ Output
			
Question: Is it poisonous?
Answer: yes
	
< > Input
Python
question = "If it bites me, can I die?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
Copied
>_ Output
			
Question: If it bites me, can I die?
Answer: yes

Continuar lendo

Últimos posts -->

Você viu esses projetos?

Gymnasia

Gymnasia Gymnasia
React Native
Expo
TypeScript
FastAPI
Next.js
OpenAI
Anthropic

Aplicativo móvel de treino pessoal com assistente de IA, biblioteca de exercícios, acompanhamento de rotinas, dieta e medidas corporais

Horeca chatbot

Horeca chatbot Horeca chatbot
Python
LangChain
PostgreSQL
PGVector
React
Kubernetes
Docker
GitHub Actions

Chatbot conversacional para cozinheiros de hotéis e restaurantes. Um cozinheiro, gerente de cozinha ou serviço de quarto de um hotel ou restaurante pode falar com o chatbot para obter informações sobre receitas e menus. Mas também implementa agentes, com os quais pode editar ou criar novas receitas ou menus

Naviground

Naviground Naviground
Ver todos os projetos -->
>_ Disponível para projetos

Tem um projeto com IA?

Vamos conversar.

maximofn@gmail.com

Especialista em Machine Learning e Inteligência Artificial. Desenvolvo soluções com IA generativa, agentes inteligentes e modelos personalizados.

Quer assistir alguma palestra?

Últimas palestras -->

Quer melhorar com essas dicas?

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuário a deletar? Por isso, criei contêineres docker com alguns espaços interessantes, para poder usá-los localmente, aconteça o que acontecer. Na verdade, se você clicar em qualquer botão de visualização de projeto, ele pode levá-lo a um espaço que não funciona.

Flow edit

Flow edit Flow edit

Edite imagens com este modelo de Flow. Baseado em SD3 ou FLUX, você pode editar qualquer imagem e gerar novas

FLUX.1-RealismLora

FLUX.1-RealismLora FLUX.1-RealismLora
Ver todos os contêineres -->
>_ Disponível para projetos

Tem um projeto com IA?

Vamos conversar.

maximofn@gmail.com

Especialista em Machine Learning e Inteligência Artificial. Desenvolvo soluções com IA generativa, agentes inteligentes e modelos personalizados.

Você quer treinar seu modelo com esses datasets?

short-jokes-dataset

HuggingFace

Dataset com piadas em inglês

Uso: Fine-tuning de modelos de geração de texto humorístico

231K linhas 2 colunas 45 MB
Ver no HuggingFace →

opus100

HuggingFace

Dataset com traduções de inglês para espanhol

Uso: Treinamento de modelos de tradução inglês-espanhol

1M linhas 2 colunas 210 MB
Ver no HuggingFace →

netflix_titles

HuggingFace

Dataset com filmes e séries da Netflix

Uso: Análise de catálogo Netflix e sistemas de recomendação

8.8K linhas 12 colunas 3.5 MB
Ver no HuggingFace →
Ver mais datasets -->