Medida de similaridade entre embeddings

Medida de similaridade entre embeddings Medida de similaridade entre embeddings

Aviso: Este post foi traduzido para o português usando um modelo de tradução automática. Por favor, me avise se encontrar algum erro.

Agora que vimos o que são os embeddings, sabemos que podemos medir a similaridade entre duas palavras medindo a similaridade entre seus embeddings. No post de embeddings vimos o exemplo do uso da medida de similaridade por cosseno, mas existem outras medidas de similaridade que podemos usar, como o quadrado L2, a similaridade do produto escalar, a similaridade por cosseno, etc.

Neste post, vamos ver essas três que mencionamos.

Similaridade pelo quadrado L2link image 11

Esta similaridade é derivada da distância euclidiana, que é a distância em linha reta entre dois pontos em um espaço multidimensional, que é calculada com o teorema de Pitágoras.

distância euclidiana

A distância euclidiana entre dois pontos p e q é calculada como:

d(p,q) = √((p1 - q1)2 + (p2 - q2)2 + ··· + (pn - qn)2) = √(∑i=1n (pi - qi)2)

A similaridade pelo quadrado L2 é o quadrado da distância euclidiana, ou seja:

similidade(p,q) = d(p,q)2 = ∑i=1n (pi - qi)2

Similaridade cossenolink image 12

Se lembrarmos do que aprendemos sobre senos e cossenos na escola, lembraremos que quando dois vetores têm um ângulo de 0º entre eles, seu cosseno é 1, quando o ângulo entre eles é de 90º, seu cosseno é 0 e quando o ângulo é de 180º, seu cosseno é -1.

similaridade cosseno similaridade cosseno

Portanto, podemos usar o cosseno do ângulo entre dois vetores para medir sua similaridade. Pode-se demonstrar que o cosseno do ângulo entre dois vetores é igual ao produto escalar dos dois vetores dividido pelo produto de seus módulos. Não é o objetivo deste post demonstrá-lo, mas se quiserem podem ver a demonstração aqui.

similitude(U,V) = U · V||U|| ||V||

Similaridade do produto escalarlink image 13

A similaridade do produto escalar é o produto escalar de dois vetores

similaridade(U,V) = U · V

Como escrevemos a fórmula da similaridade cosseno, quando o comprimento dos vetores é 1, ou seja, estão normalizados, a similaridade cosseno é igual à similaridade do produto escalar.

Então, para que serve a similaridade pelo produto escalar? Para medir a similaridade entre dois vetores que não estão normalizados, ou seja, que não têm comprimento 1.

Por exemplo, o YouTube, para criar os embeddings dos seus vídeos, faz com que os embeddings dos vídeos que classifica como de maior qualidade sejam mais longos do que os dos vídeos que classifica como de menor qualidade.

Desta forma, quando um usuário faz uma pesquisa, a similaridade pelo produto escalar dará maior similaridade aos vídeos de maior qualidade, portanto fornecerá ao usuário os vídeos de maior qualidade em primeiro lugar.

Qual sistema de similaridade usarlink image 14

Para escolher o sistema de similaridade que vamos usar, devemos ter em conta o espaço no qual estamos trabalhando.

  • Se estivermos trabalhando em um espaço de alta dimensionalidade, com embeddings normalizados, a similaridade cosseno é a que melhor funciona. Por exemplo, a OpenAI gera embeddings normalizados, portanto a similaridade cosseno é a que melhor funciona.
  • Se estivermos trabalhando em um sistema de classificação, onde a distância entre duas classes é importante, a similaridade pelo quadrado L2 é a que melhor funciona.
  • Se estivermos trabalhando em um sistema de recomendação, onde a comprimento dos vetores é importante, a similaridade do produto escalar é a que melhor funciona.

Continuar lendo

MCP: Guia Completa para Criar Servidores e Clientes MCP (Model Context Protocol) com FastMCP

MCP: Guia Completa para Criar Servidores e Clientes MCP (Model Context Protocol) com FastMCP

Aprenda o que é o Model Context Protocol (MCP), o padrão de código aberto desenvolvido pela Anthropic que revoluciona como os modelos de IA interagem com ferramentas externas. Nesta guia prática e detalhada, eu te levo passo a passo na criação de um servidor e cliente MCP do zero usando a biblioteca fastmcp. Você construirá um agente de IA "inteligente" com Claude Sonnet, capaz de interagir com a API do GitHub para consultar issues e informações de repositórios. Vamos cobrir desde conceitos básicos até recursos avançados como filtragem de ferramentas por tags, composição de servidores, recursos estáticos e plantillas dinâmicas (resource templates), geração de prompts e autenticação segura. Descubra como MCP pode padronizar e simplificar a integração de ferramentas em suas aplicações de IA, de forma análoga ao como o USB unificou periféricos!

Últimos posts -->

Você viu esses projetos?

Horeca chatbot

Horeca chatbot Horeca chatbot
Python
LangChain
PostgreSQL
PGVector
React
Kubernetes
Docker
GitHub Actions

Chatbot conversacional para cozinheiros de hotéis e restaurantes. Um cozinheiro, gerente de cozinha ou serviço de quarto de um hotel ou restaurante pode falar com o chatbot para obter informações sobre receitas e menus. Mas também implementa agentes, com os quais pode editar ou criar novas receitas ou menus

Naviground

Naviground Naviground

Subtify

Subtify Subtify
Python
Whisper
Spaces

Gerador de legendas para vídeos no idioma que você desejar. Além disso, coloca uma legenda de cor diferente para cada pessoa

Ver todos os projetos -->

Quer aplicar IA no seu projeto? Entre em contato!

Quer melhorar com essas dicas?

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuário a deletar? Por isso, criei contêineres docker com alguns espaços interessantes, para poder usá-los localmente, aconteça o que acontecer. Na verdade, se você clicar em qualquer botão de visualização de projeto, ele pode levá-lo a um espaço que não funciona.

Flow edit

Flow edit Flow edit

Edite imagens com este modelo de Flow. Baseado em SD3 ou FLUX, você pode editar qualquer imagem e gerar novas

FLUX.1-RealismLora

FLUX.1-RealismLora FLUX.1-RealismLora
Ver todos os contêineres -->

Quer aplicar IA no seu projeto? Entre em contato!

Você quer treinar seu modelo com esses datasets?

short-jokes-dataset

Dataset com piadas em inglês

opus100

Dataset com traduções de inglês para espanhol

netflix_titles

Dataset com filmes e séries da Netflix

Ver mais datasets -->