BLIP-2: Modelo Multimodal Visão-Linguagem

04 de fevereiro de 2023

Aviso: Este post foi traduzido para o português usando um modelo de tradução automática. Por favor, me avise se encontrar algum erro.

Introdução

Blip2 é uma inteligência artificial capaz de receber uma imagem ou vídeo como entrada e ter uma conversa, respondendo perguntas ou fornecendo contexto do que essa entrada mostra de maneira muito precisa 🤯

GitHub

Paper

Instalação

Para poder instalar esta ferramenta o melhor é criar um novo ambiente do Anaconda

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda create -n blip2 python=3.9
	
	Copied

Agora vamos entrar no ambiente

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda activate blip2
	
	Copied

Instalamos todos os módulos necessários

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda install -c anaconda pillow
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda install -y -c anaconda requests
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda install -y -c anaconda jupyter
	
	Copied

Por fim, instalamos Blip2

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ pip install salesforce-lavis
	
	Copied

Uso

Carregamos as bibliotecas necessárias

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		import torch
from PIL import Image
import requests
from lavis.models import load_model_and_preprocess
	
	Copied

Carregamos uma imagem de exemplo

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		img_url = 'https://upload.wikimedia.org/wikipedia/commons/thumb/4/4d/12_-_The_Mystical_King_Cobra_and_Coffee_Forests.jpg/800px-12_-_The_Mystical_King_Cobra_and_Coffee_Forests.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
display(raw_image.resize((500, 500)))
	
	Copied

>_ Output

			
				&lt;PIL.Image.Image image mode=RGB size=500x500&gt;

Estabelecemos a GPU se houver.

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		device = torch.device("cuda" if torch.cuda.is_available() else 'cpu')
device
	
	Copied

>_ Output

			
				device(type='cuda')

Atribuímos um modelo. No meu caso, com um computador com 32 GB de RAM e uma GPU 3060 com 12 GB de VRAM, não posso usar todos, então coloquei ao lado um comentário ok com os modelos que consegui usar, e para os que não, o erro que recebi. Se você tem um computador com a mesma quantidade de RAM e VRAM, já sabe quais pode usar; caso contrário, você precisa testar.

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		# name = "blip2_opt"; model_type = "pretrain_opt2.7b"           # ok
# name = "blip2_opt"; model_type = "caption_coco_opt2.7b"       # FAIL VRAM
# name = "blip2_opt"; model_type = "pretrain_opt6.7b"           # FAIL RAM
# name = "blip2_opt"; model_type = "caption_coco_opt6.7b"       # FAIL RAM
 
# name = "blip2"; model_type = "pretrain"                       # FAIL type error
# name = "blip2"; model_type = "coco"                           # ok
 
name = "blip2_t5"; model_type = "pretrain_flant5xl" # ok
# name = "blip2_t5"; model_type = "caption_coco_flant5xl"       # FAIL VRAM
# name = "blip2_t5"; model_type = "pretrain_flant5xxl"          # FAIL
 
model, vis_processors, _ = load_model_and_preprocess(
    name=name, model_type=model_type, is_eval=True, device=device
)
 
vis_processors.keys()
	
	Copied

>_ Output

			
				Loading checkpoint shards:   0%|          | 0/2 [00:00&lt;?, ?it/s]

>_ Output

			
				dict_keys(['train', 'eval'])

Preparamos a imagem para colocá-la no modelo

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		image = vis_processors["eval"](raw_image).unsqueeze(0).to(device)
	
	Copied

Analisamos a imagem sem perguntar nada

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		model.generate({"image": image})
	
	Copied

>_ Output

			
				['a black and white snake']

Analisamos a imagem fazendo perguntas

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		prompt = None
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		def prepare_prompt(prompt, question):
    if prompt is None:
        prompt = question + " Answer:"
    else:
        prompt = prompt + " " + question + " Answer:"
    return prompt
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		def get_answer(prompt, question, model):
    prompt = prepare_prompt(prompt, question)
    answer = model.generate(
        {
            "image": image,
            "prompt": prompt
        }
    )
    answer = answer[0]
    prompt = prompt + " " + answer + "."
    return prompt, answer
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		question = "What's in the picture?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
	
	Copied

>_ Output

			
				Question: What's in the picture?
Answer: a snake

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		question = "What kind of snake?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
	
	Copied

>_ Output

			
				Question: What kind of snake?
Answer: cobra

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		question = "Is it poisonous?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
	
	Copied

>_ Output

			
				Question: Is it poisonous?
Answer: yes

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		question = "If it bites me, can I die?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
	
	Copied

>_ Output

			
				Question: If it bites me, can I die?
Answer: yes

Continuar lendo

Deep Research com LangGraph: Crie um Assistente de IA para Pesquisar Automaticamente

Aprenda como funcionam as redes neurais do zero com um exemplo prático de regressão linear. Tutorial passo a passo que explica neurônios artificiais, inicialização de parâmetros, funções de perda e erro quadrático médio (EQM) com código Python.

Elicitação MCP: Implementar Elicitação em Servidores com FastMCP e Python

Aprenda a implementar elicitação em servidores MCP (Model Context Protocol) com FastMCP. Tutorial completo passo a passo...

MCP Durabilidade: Servidor e Cliente com Persistência para Tarefas de Longa Duração

Aprenda a construir servidor e cliente MCP com durabilidade para tarefas de longa duração. Tutorial completo do Model Co...

Últimos posts -->

Você viu esses projetos?

Gymnasia

Horeca chatbot

Naviground

Ver todos os projetos -->

>_ Disponível para projetos

Tem um projeto com IA?

Vamos conversar.

maximofn@gmail.com

Especialista em Machine Learning e Inteligência Artificial. Desenvolvo soluções com IA generativa, agentes inteligentes e modelos personalizados.

Escreva-me LinkedIn

Quer assistir alguma palestra?

Agentes do Amanhã: Descifrando os Mistérios da Planificação, UX e Memória

Agentes de IA, impulsionados por LLMs, prometem transformar aplicações. Mas eles são meros executores hoje ou futuros colaboradores inteligentes? Para...

Crie sua própria inteligência Apple

Aprenda a criar um sistema de IA para executar eficientemente em um dispositivo

Últimas palestras -->

Quer melhorar com essas dicas?

o1 prompt engineering

Criar prompts melhores para o1 seguindo um exemplo

Memory profiler

Ver o uso de memória de um script

DataLoader com pin_memory e num_workers

Aumentar o desempenho de DataLoader com pin_memory e num_workers

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuário a deletar? Por isso, criei contêineres docker com alguns espaços interessantes, para poder usá-los localmente, aconteça o que acontecer. Na verdade, se você clicar em qualquer botão de visualização de projeto, ele pode levá-lo a um espaço que não funciona.