Whisper: Transcrição de Áudio com IA

19 de março de 2023

Aviso: Este post foi traduzido para o português usando um modelo de tradução automática. Por favor, me avise se encontrar algum erro.

Introdução

Whisper é um sistema de reconhecimento automático de voz (automatic speech recognition (ASR)) treinado em 680.000 horas de dados multilíngues e multitarefa supervisionados coletados da web. O uso de um conjunto de dados tão grande e diversificado leva a uma maior robustez em relação aos sotaques, ao ruído de fundo e à linguagem técnica. Além disso, permite a transcrição em vários idiomas, bem como a tradução desses idiomas para o inglês.

Instalação

Para poder instalar esta ferramenta o melhor é criar um novo ambiente do Anaconda

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!conda create -n whisper
	
	Copied

Entramos no ambiente

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!conda activate whisper
	
	Copied

Instalamos todos os pacotes necessários

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!conda install pytorch torchvision torchaudio pytorch-cuda=11.6 -c pytorch -c nvidia
	
	Copied

Por último instalamos whisper

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!pip install git+https://github.com/openai/whisper.git
	
	Copied

E atualizamos o ffmpeg

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		!sudo apt update && sudo apt install ffmpeg
	
	Copied

Uso

Importamos whisper

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		import whisper
	
	Copied

Selecionamos o modelo, quanto maior melhor ele performará

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		# model = "tiny"
# model = "base"
# model = "small"
# model = "medium"
model = "large"
model = whisper.load_model(model)
	
	Copied

Carregamos o áudio deste anúncio antigo (de 1987) das Micro Machines

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		audio_path = "MicroMachines.mp3"
audio = whisper.load_audio(audio_path)
audio = whisper.pad_or_trim(audio)
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		mel = whisper.log_mel_spectrogram(audio).to(model.device)
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")
	
	Copied

>_ Output

			
				Detected language: en

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		result.text
	
	Copied

>_ Output

			
				"This is the Micro Machine Man presenting the most midget miniature motorcade of micro machines. Each one has dramatic details, terrific trim, precision paint jobs, plus incredible micro machine pocket play sets. There's a police station, fire station, restaurant, service station, and more. Perfect pocket portables to take any place. And there are many miniature play sets to play with and each one comes with its own special edition micro machine vehicle and fun fantastic features that miraculously move. Raise the boat lift at the airport, marina, man the gun turret at the army base, clean your car at the car wash, raise the toll bridge. And these play sets fit together to form a micro machine world. Micro machine pocket play sets so tremendously tiny, so perfectly precise, so dazzlingly detailed, you'll want to pocket them all. Micro machines and micro machine pocket play sets sold separately from Galoob. The smaller they are, the better they are."

Continuar lendo

Deep Research com LangGraph: Crie um Assistente de IA para Pesquisar Automaticamente

Aprenda como funcionam as redes neurais do zero com um exemplo prático de regressão linear. Tutorial passo a passo que explica neurônios artificiais, inicialização de parâmetros, funções de perda e erro quadrático médio (EQM) com código Python.

Elicitação MCP: Implementar Elicitação em Servidores com FastMCP e Python

Aprenda a implementar elicitação em servidores MCP (Model Context Protocol) com FastMCP. Tutorial completo passo a passo...

MCP Durabilidade: Servidor e Cliente com Persistência para Tarefas de Longa Duração

Aprenda a construir servidor e cliente MCP com durabilidade para tarefas de longa duração. Tutorial completo do Model Co...

Últimos posts -->

Você viu esses projetos?

Gymnasia

Horeca chatbot

Naviground

Ver todos os projetos -->

>_ Disponível para projetos

Tem um projeto com IA?

Vamos conversar.

maximofn@gmail.com

Especialista em Machine Learning e Inteligência Artificial. Desenvolvo soluções com IA generativa, agentes inteligentes e modelos personalizados.

Escreva-me LinkedIn

Quer assistir alguma palestra?

Agentes do Amanhã: Descifrando os Mistérios da Planificação, UX e Memória

Agentes de IA, impulsionados por LLMs, prometem transformar aplicações. Mas eles são meros executores hoje ou futuros colaboradores inteligentes? Para...

Crie sua própria inteligência Apple

Aprenda a criar um sistema de IA para executar eficientemente em um dispositivo

Últimas palestras -->

Quer melhorar com essas dicas?

o1 prompt engineering

Criar prompts melhores para o1 seguindo um exemplo

Memory profiler

Ver o uso de memória de um script

DataLoader com pin_memory e num_workers

Aumentar o desempenho de DataLoader com pin_memory e num_workers

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuário a deletar? Por isso, criei contêineres docker com alguns espaços interessantes, para poder usá-los localmente, aconteça o que acontecer. Na verdade, se você clicar em qualquer botão de visualização de projeto, ele pode levá-lo a um espaço que não funciona.