Whisper

Whisper Whisper

Aviso: Este post foi traduzido para o portuguĂȘs usando um modelo de tradução automĂĄtica. Por favor, me avise se encontrar algum erro.

Introduçãolink image 9

Whisper Ă© um sistema de reconhecimento automĂĄtico de voz (automatic speech recognition (ASR)) treinado em 680.000 horas de dados multilĂ­ngues e multitarefa supervisionados coletados da web. O uso de um conjunto de dados tĂŁo grande e diversificado leva a uma maior robustez em relação aos sotaques, ao ruĂ­do de fundo e Ă  linguagem tĂ©cnica. AlĂ©m disso, permite a transcrição em vĂĄrios idiomas, bem como a tradução desses idiomas para o inglĂȘs.

Website

Paper

GitHub

Modelo de cartĂŁo

Instalaçãolink image 10

Para poder instalar esta ferramenta o melhor Ă© criar um novo ambiente do Anaconda

	
!conda create -n whisper
Copied

Entramos no ambiente

	
!conda activate whisper
Copied

Instalamos todos os pacotes necessĂĄrios

	
!conda install pytorch torchvision torchaudio pytorch-cuda=11.6 -c pytorch -c nvidia
Copied

Por Ășltimo instalamos whisper

	
!pip install git+https://github.com/openai/whisper.git
Copied

E atualizamos o ffmpeg

	
!sudo apt update && sudo apt install ffmpeg
Copied

Usolink image 11

Importamos whisper

	
import whisper
Copied

Selecionamos o modelo, quanto maior melhor ele performarĂĄ

	
# model = "tiny"
# model = "base"
# model = "small"
# model = "medium"
model = "large"
model = whisper.load_model(model)
Copied

Carregamos o ĂĄudio deste anĂșncio antigo (de 1987) das Micro Machines

	
audio_path = "MicroMachines.mp3"
audio = whisper.load_audio(audio_path)
audio = whisper.pad_or_trim(audio)
Copied
	
mel = whisper.log_mel_spectrogram(audio).to(model.device)
Copied
	
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")
Copied
	
Detected language: en
	
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)
Copied
	
result.text
Copied
	
"This is the Micro Machine Man presenting the most midget miniature motorcade of micro machines. Each one has dramatic details, terrific trim, precision paint jobs, plus incredible micro machine pocket play sets. There's a police station, fire station, restaurant, service station, and more. Perfect pocket portables to take any place. And there are many miniature play sets to play with and each one comes with its own special edition micro machine vehicle and fun fantastic features that miraculously move. Raise the boat lift at the airport, marina, man the gun turret at the army base, clean your car at the car wash, raise the toll bridge. And these play sets fit together to form a micro machine world. Micro machine pocket play sets so tremendously tiny, so perfectly precise, so dazzlingly detailed, you'll want to pocket them all. Micro machines and micro machine pocket play sets sold separately from Galoob. The smaller they are, the better they are."

Continuar lendo

Elicitação MCP: Implementar Elicitação em Servidores com FastMCP e Python

Elicitação MCP: Implementar Elicitação em Servidores com FastMCP e Python

Aprenda a implementar elicitação em servidores MCP (Model Context Protocol) com FastMCP. Tutorial completo passo a passo para criar um agente inteligente de reservas de viagens que solicita informaçÔes do usuårio de forma interativa. Inclui código de servidor e cliente, configuração de ambientes virtuais com uv, e exemplos pråticos de elicitação para coleta de dados do usuårio em tempo real.

MCP Durabilidade: Servidor e Cliente com PersistĂȘncia para Tarefas de Longa Duração

MCP Durabilidade: Servidor e Cliente com PersistĂȘncia para Tarefas de Longa Duração

Aprenda a construir servidor e cliente MCP com durabilidade para tarefas de longa duração. Tutorial completo do Model Context Protocol com persistĂȘncia de dados usando SQLite, gerenciamento de tarefas em background e monitoramento em tempo real. Implemente migração de dados, processamento em lote e treinamento de modelos ML que sobrevivem a reinicializaçÔes do servidor. CĂłdigo Python com FastMCP, recursos, ferramentas e padrĂ”es de durabilidade para aplicaçÔes enterprise.

Últimos posts -->

VocĂȘ viu esses projetos?

Horeca chatbot

Horeca chatbot Horeca chatbot
Python
LangChain
PostgreSQL
PGVector
React
Kubernetes
Docker
GitHub Actions

Chatbot conversacional para cozinheiros de hotéis e restaurantes. Um cozinheiro, gerente de cozinha ou serviço de quarto de um hotel ou restaurante pode falar com o chatbot para obter informaçÔes sobre receitas e menus. Mas também implementa agentes, com os quais pode editar ou criar novas receitas ou menus

Naviground

Naviground Naviground
Python
Pytorch
TensorRT
YOLO
Docker
Azure

Sistema de percepção para veículos autÎnomos

Subtify

Subtify Subtify
Python
Whisper
Spaces

Gerador de legendas para vĂ­deos no idioma que vocĂȘ desejar. AlĂ©m disso, coloca uma legenda de cor diferente para cada pessoa

Ver todos os projetos -->

Quer aplicar IA no seu projeto? Entre em contato!

Quer assistir alguma palestra?

Agentes do Amanhã: Descifrando os Mistérios da Planificação, UX e Memória

Agentes do Amanhã: Descifrando os Mistérios da Planificação, UX e Memória

Agentes de IA, impulsionados por LLMs, prometem transformar aplicaçÔes. Mas eles sĂŁo meros executores hoje ou futuros colaboradores inteligentes? Para atingir seu verdadeiro potencial, precisamos superar barreiras crĂ­ticas. Esta palestra investiga os trĂȘs quebra-cabeças que definirĂŁo a prĂłxima geração de agentes: 1. Planejamento Avançado (O CĂ©rebro): Os agentes de hoje frequentemente tropeçam em tarefas complexas. Exploraremos como, alĂ©m das chamadas de funçÔes bĂĄsicas, as arquiteturas cognitivas permitem planos robustos, antecipação de problemas e raciocĂ­nio profundo. Como fazĂȘ-los pensar vĂĄrios passos Ă  frente? 2. UX RevolucionĂĄria (A Alma): Interagir com um agente nĂŁo pode ser uma fonte de frustração. Discutiremos como transcender o chat tradicional em direção a interfaces humanas em loop — UX colaborativa, generativa e acessĂ­vel. Como Projetar ExperiĂȘncias Engajadoras? 3. MemĂłria Persistente (O Legado): Um agente que esquece o que aprendeu estĂĄ fadado Ă  ineficiĂȘncia. Analisaremos tĂ©cnicas para capacitar agentes com uma memĂłria significativa que vai alĂ©m do seu histĂłrico, permitindo que aprendam e tornando cada interação mais inteligente. Com exemplos prĂĄticos, nĂŁo apenas entenderemos a magnitude desses desafios, mas tambĂ©m levaremos ideias concretas e uma visĂŁo clara para ajudar a construir os agentes do futuro: mais inteligentes, intuitivos e verdadeiramente capazes. VocĂȘ se juntarĂĄ a nĂłs na jornada para desvendar o prĂłximo capĂ­tulo dos agentes de IA?

Últimas palestras -->

Quer melhorar com essas dicas?

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuĂĄrio a deletar? Por isso, criei contĂȘineres docker com alguns espaços interessantes, para poder usĂĄ-los localmente, aconteça o que acontecer. Na verdade, se vocĂȘ clicar em qualquer botĂŁo de visualização de projeto, ele pode levĂĄ-lo a um espaço que nĂŁo funciona.

Flow edit

Flow edit Flow edit

Edite imagens com este modelo de Flow. Baseado em SD3 ou FLUX, vocĂȘ pode editar qualquer imagem e gerar novas

Ver todos os contĂȘineres -->

Quer aplicar IA no seu projeto? Entre em contato!

VocĂȘ quer treinar seu modelo com esses datasets?

short-jokes-dataset

Dataset com piadas em inglĂȘs

opus100

Dataset com traduçÔes de inglĂȘs para espanhol

netflix_titles

Dataset com filmes e séries da Netflix

Ver mais datasets -->