BLIP-2: Modelo Multimodal Visión-Lenguaje

BLIP-2: Modelo Multimodal Visión-Lenguaje BLIP-2: Modelo Multimodal Visión-Lenguaje

Introducciónlink image 1

Blip2 es una inteligencia artificial que es capaz de tomar una imagen o vídeo como entrada y tener una conversación y responder preguntas o entregar contexto de lo que muestra esta entrada de manera muy certera 🤯

GitHub

Paper

Instalaciónlink image 2

Para poder instalar esta herramienta lo mejor es crearse un nuevo entorno de Anaconda

	
< > Input
Python
!$ conda create -n blip2 python=3.9
Copied

Ahora nos metemos en el entorno

	
< > Input
Python
!$ conda activate blip2
Copied

Instalamos todos los módulos necesarios

	
< > Input
Python
!$ conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
Copied
	
< > Input
Python
!$ conda install -c anaconda pillow
Copied
	
< > Input
Python
!$ conda install -y -c anaconda requests
Copied
	
< > Input
Python
!$ conda install -y -c anaconda jupyter
Copied

Por último instalamos Blip2

	
< > Input
Python
!$ pip install salesforce-lavis
Copied

Usolink image 3

Cargamos las librerías necesarias

	
< > Input
Python
import torch
from PIL import Image
import requests
from lavis.models import load_model_and_preprocess
Copied

Cargamos una imagen de ejemplo

	
< > Input
Python
img_url = 'https://upload.wikimedia.org/wikipedia/commons/thumb/4/4d/12_-_The_Mystical_King_Cobra_and_Coffee_Forests.jpg/800px-12_-_The_Mystical_King_Cobra_and_Coffee_Forests.jpg'
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
display(raw_image.resize((500, 500)))
Copied
>_ Output
			
&lt;PIL.Image.Image image mode=RGB size=500x500&gt;

Establecemos la GPU si la hay

	
< > Input
Python
device = torch.device("cuda" if torch.cuda.is_available() else 'cpu')
device
Copied
>_ Output
			
device(type='cuda')

Asignamos un modelo. En mi caso que tengo un ordenador con 32 GB de RAM y una GPU 3060 con 12 GB de VRAM no puedo usar todos, por lo que he puesto al lado un comentario ok con los modelos que he podido usar, y los que no, el error que me ha dado. Si tienes un ordenador con igual RAM y VRAM ya sabes cuáles puedes usar, si no, tienes que probar

	
< > Input
Python
# name = "blip2_opt"; model_type = "pretrain_opt2.7b" # ok
# name = "blip2_opt"; model_type = "caption_coco_opt2.7b" # FAIL VRAM
# name = "blip2_opt"; model_type = "pretrain_opt6.7b" # FAIL RAM
# name = "blip2_opt"; model_type = "caption_coco_opt6.7b" # FAIL RAM
# name = "blip2"; model_type = "pretrain" # FAIL type error
# name = "blip2"; model_type = "coco" # ok
name = "blip2_t5"; model_type = "pretrain_flant5xl" # ok
# name = "blip2_t5"; model_type = "caption_coco_flant5xl" # FAIL VRAM
# name = "blip2_t5"; model_type = "pretrain_flant5xxl" # FAIL
model, vis_processors, _ = load_model_and_preprocess(
name=name, model_type=model_type, is_eval=True, device=device
)
vis_processors.keys()
Copied
>_ Output
			
Loading checkpoint shards: 0%| | 0/2 [00:00&lt;?, ?it/s]
>_ Output
			
dict_keys(['train', 'eval'])

Preparamos la imagen para meterla al modelo

	
< > Input
Python
image = vis_processors["eval"](raw_image).unsqueeze(0).to(device)
Copied

Analizamos la imagen sin preguntar nadalink image 4

	
< > Input
Python
model.generate({"image": image})
Copied
>_ Output
			
['a black and white snake']

Analizamos la imagen preguntandolink image 5

	
< > Input
Python
prompt = None
Copied
	
< > Input
Python
def prepare_prompt(prompt, question):
if prompt is None:
prompt = question + " Answer:"
else:
prompt = prompt + " " + question + " Answer:"
return prompt
Copied
	
< > Input
Python
def get_answer(prompt, question, model):
prompt = prepare_prompt(prompt, question)
answer = model.generate(
{
"image": image,
"prompt": prompt
}
)
answer = answer[0]
prompt = prompt + " " + answer + "."
return prompt, answer
Copied
	
< > Input
Python
question = "What's in the picture?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
Copied
>_ Output
			
Question: What's in the picture?
Answer: a snake
	
< > Input
Python
question = "What kind of snake?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
Copied
>_ Output
			
Question: What kind of snake?
Answer: cobra
	
< > Input
Python
question = "Is it poisonous?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
Copied
>_ Output
			
Question: Is it poisonous?
Answer: yes
	
< > Input
Python
question = "If it bites me, can I die?"
prompt, answer = get_answer(prompt, question, model)
print(f"Question: {question}")
print(f"Answer: {answer}")
Copied
>_ Output
			
Question: If it bites me, can I die?
Answer: yes

Seguir leyendo

Últimos posts -->

¿Has visto estos proyectos?

Gymnasia

Gymnasia Gymnasia
React Native
Expo
TypeScript
FastAPI
Next.js
OpenAI
Anthropic

Aplicación móvil de entrenamiento personal con asistente de IA, biblioteca de ejercicios, seguimiento de rutinas, dieta y medidas corporales

Horeca chatbot

Horeca chatbot Horeca chatbot
Python
LangChain
PostgreSQL
PGVector
React
Kubernetes
Docker
GitHub Actions

Chatbot conversacional para cocineros de hoteles y restaurantes. Un cocinero, jefe de cocina o camaeror de un hotel o restaurante puede hablar con el chatbot para obtener información de recetas y menús. Pero además implementa agentes, con los cuales puede editar o crear nuevas recetas o menús

Naviground

Naviground Naviground
Ver todos los proyectos -->
>_ Disponible para proyectos

¿Tienes un proyecto con IA?

Hablemos.

maximofn@gmail.com

Especialista en Machine Learning e Inteligencia Artificial. Desarrollo soluciones con IA generativa, agentes inteligentes y modelos personalizados.

¿Quieres ver alguna charla?

Últimas charlas -->

¿Quieres mejorar con estos tips?

Últimos tips -->

Usa esto en local

Los espacios de Hugging Face nos permite ejecutar modelos con demos muy sencillas, pero ¿qué pasa si la demo se rompe? O si el usuario la elimina? Por ello he creado contenedores docker con algunos espacios interesantes, para poder usarlos de manera local, pase lo que pase. De hecho, es posible que si pinchas en alún botón de ver proyecto te lleve a un espacio que no funciona.

Flow edit

Flow edit Flow edit

Edita imágenes con este modelo de Flow. Basándose en SD3 o FLUX puedes editar cualquier imagen y generar nuevas

FLUX.1-RealismLora

FLUX.1-RealismLora FLUX.1-RealismLora
Ver todos los contenedores -->
>_ Disponible para proyectos

¿Tienes un proyecto con IA?

Hablemos.

maximofn@gmail.com

Especialista en Machine Learning e Inteligencia Artificial. Desarrollo soluciones con IA generativa, agentes inteligentes y modelos personalizados.

¿Quieres entrenar tu modelo con estos datasets?

short-jokes-dataset

HuggingFace

Dataset de chistes en inglés

Uso: Fine-tuning de modelos de generación de texto humorístico

231K filas 2 columnas 45 MB
Ver en HuggingFace →

opus100

HuggingFace

Dataset con traducciones de inglés a español

Uso: Entrenamiento de modelos de traducción inglés-español

1M filas 2 columnas 210 MB
Ver en HuggingFace →

netflix_titles

HuggingFace

Dataset con películas y series de Netflix

Uso: Análisis de catálogo de Netflix y sistemas de recomendación

8.8K filas 12 columnas 3.5 MB
Ver en HuggingFace →
Ver más datasets -->