BLIP-2: Modelo Multimodal Visión-Lenguaje

04 de febrero del 2023

Introducción

Blip2 es una inteligencia artificial que es capaz de tomar una imagen o vídeo como entrada y tener una conversación y responder preguntas o entregar contexto de lo que muestra esta entrada de manera muy certera 🤯

GitHub

Paper

Instalación

Para poder instalar esta herramienta lo mejor es crearse un nuevo entorno de Anaconda

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda create -n blip2 python=3.9
	
	Copied

Ahora nos metemos en el entorno

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda activate blip2
	
	Copied

Instalamos todos los módulos necesarios

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda install -c anaconda pillow
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda install -y -c anaconda requests
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ conda install -y -c anaconda jupyter
	
	Copied

Por último instalamos Blip2

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!$ pip install salesforce-lavis
	
	Copied

Uso

Cargamos las librerías necesarias

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		import torch
from PIL import Image
import requests
from lavis.models import load_model_and_preprocess
	
	Copied

Cargamos una imagen de ejemplo

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		img_url = 'https://upload.wikimedia.org/wikipedia/commons/thumb/4/4d/12_-_The_Mystical_King_Cobra_and_Coffee_Forests.jpg/800px-12_-_The_Mystical_King_Cobra_and_Coffee_Forests.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
display(raw_image.resize((500, 500)))
	
	Copied

>_ Output

			
				&lt;PIL.Image.Image image mode=RGB size=500x500&gt;

Establecemos la GPU si la hay

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		device = torch.device("cuda" if torch.cuda.is_available() else 'cpu')
device
	
	Copied

>_ Output

			
				device(type='cuda')

Asignamos un modelo. En mi caso que tengo un ordenador con 32 GB de RAM y una GPU 3060 con 12 GB de VRAM no puedo usar todos, por lo que he puesto al lado un comentario ok con los modelos que he podido usar, y los que no, el error que me ha dado. Si tienes un ordenador con igual RAM y VRAM ya sabes cuáles puedes usar, si no, tienes que probar

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		# name = "blip2_opt"; model_type = "pretrain_opt2.7b"           # ok
# name = "blip2_opt"; model_type = "caption_coco_opt2.7b"       # FAIL VRAM
# name = "blip2_opt"; model_type = "pretrain_opt6.7b"           # FAIL RAM
# name = "blip2_opt"; model_type = "caption_coco_opt6.7b"       # FAIL RAM
 
# name = "blip2"; model_type = "pretrain"                       # FAIL type error
# name = "blip2"; model_type = "coco"                           # ok
 
name = "blip2_t5"; model_type = "pretrain_flant5xl" # ok
# name = "blip2_t5"; model_type = "caption_coco_flant5xl"       # FAIL VRAM
# name = "blip2_t5"; model_type = "pretrain_flant5xxl"          # FAIL
 
model, vis_processors, _ = load_model_and_preprocess(
    name=name, model_type=model_type, is_eval=True, device=device
)
 
vis_processors.keys()
	
	Copied

>_ Output

			
				Loading checkpoint shards:   0%|          | 0/2 [00:00&lt;?, ?it/s]

>_ Output

			
				dict_keys(['train', 'eval'])

Preparamos la imagen para meterla al modelo

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		image = vis_processors["eval"](raw_image).unsqueeze(0).to(device)
	
	Copied

Analizamos la imagen sin preguntar nada

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		model.generate({"image": image})
	
	Copied

>_ Output

			
				['a black and white snake']

Analizamos la imagen preguntando

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		prompt = None
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		def prepare_prompt(prompt, question):
    if prompt is None:
        prompt = question + " Answer:"
    else:
        prompt = prompt + " " + question + " Answer:"
    return prompt
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		def get_answer(prompt, question, model):
    prompt = prepare_prompt(prompt, question)
    answer = model.generate(
        {
            "image": image,
            "prompt": prompt
        }
    )
    answer = answer[0]
    prompt = prompt + " " + answer + "."
    return prompt, answer
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		question = "What's in the picture?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
	
	Copied

>_ Output

			
				Question: What's in the picture?
Answer: a snake

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		question = "What kind of snake?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
	
	Copied

>_ Output

			
				Question: What kind of snake?
Answer: cobra

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		question = "Is it poisonous?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
	
	Copied

>_ Output

			
				Question: Is it poisonous?
Answer: yes

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		question = "If it bites me, can I die?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
	
	Copied

>_ Output

			
				Question: If it bites me, can I die?
Answer: yes

Seguir leyendo

Deep Research con LangGraph: Crea un Asistente de IA para Investigar Automáticamente

Aprende cómo funcionan las redes neuronales desde cero con un ejemplo práctico de regresión lineal. Tutorial paso a paso que explica neuronas artificiales, inicialización de parámetros, funciones de pérdida y error cuadrático medio (ECM) con código Python.

Elicitación MCP: Implementar Elicitación en Servidores con FastMCP y Python

Aprende a implementar elicitación en servidores MCP (Model Context Protocol) con FastMCP. Tutorial completo paso a paso ...

MCP Durability: Servidor y Cliente con Persistencia para Tareas de Larga Duración

Aprende a crear un servidor y cliente MCP con durabilidad para tareas de larga duración. Tutorial completo sobre Model C...

Últimos posts -->

¿Has visto estos proyectos?

Gymnasia

Horeca chatbot

Naviground

Ver todos los proyectos -->

>_ Disponible para proyectos

¿Tienes un proyecto con IA?

Hablemos.

maximofn@gmail.com

Especialista en Machine Learning e Inteligencia Artificial. Desarrollo soluciones con IA generativa, agentes inteligentes y modelos personalizados.

Escríbeme LinkedIn

¿Quieres ver alguna charla?

Agentes del Mañana: Descifrando los Enigmas de Planificación, UX y Memoria

Los agentes IA, impulsados por LLMs, prometen transformar aplicaciones. Pero, ¿son hoy simples ejecutores o futuros colaboradores inteligentes? Para a...

Crea tu propio Apple intelligence

Aprende a crear un sistema de IA para ejecutar eficientemente en un dispositivo

Últimas charlas -->

¿Quieres mejorar con estos tips?

o1 prompt engineering

Crear mejores prompts para o1 siguiendo un ejemplo

Memory profiler

Ver el uso de memoria de un script

DataLoader con pin_memory y num_workers

Aumentar el rendimiento de DataLoader con pin_memory y num_workers

Últimos tips -->

Usa esto en local

Los espacios de Hugging Face nos permite ejecutar modelos con demos muy sencillas, pero ¿qué pasa si la demo se rompe? O si el usuario la elimina? Por ello he creado contenedores docker con algunos espacios interesantes, para poder usarlos de manera local, pase lo que pase. De hecho, es posible que si pinchas en alún botón de ver proyecto te lleve a un espacio que no funciona.