Medida de similaridade entre embeddings

18 de dezembro de 2023

Aviso: Este post foi traduzido para o português usando um modelo de tradução automática. Por favor, me avise se encontrar algum erro.

Agora que vimos o que são os embeddings, sabemos que podemos medir a similaridade entre duas palavras medindo a similaridade entre seus embeddings. No post de embeddings vimos o exemplo do uso da medida de similaridade por cosseno, mas existem outras medidas de similaridade que podemos usar, como o quadrado L2, a similaridade do produto escalar, a similaridade por cosseno, etc.

Neste post, vamos ver essas três que mencionamos.

Similaridade pelo quadrado L2

Esta similaridade é derivada da distância euclidiana, que é a distância em linha reta entre dois pontos em um espaço multidimensional, que é calculada com o teorema de Pitágoras.

A distância euclidiana entre dois pontos $p$ e $q$ é calculada como:

$d(p,q) = \sqrt((p 1 - q 1) 2 + (p 2 - q 2) 2 + \cdot\cdot\cdot + (p n - q n) 2) = \sqrt(\sum i=1 n (p i - q i) 2)$

A similaridade pelo quadrado L2 é o quadrado da distância euclidiana, ou seja:

$similidade(p,q) = d(p,q) 2 = \sum i=1 n (p i - q i) 2$

Similaridade cosseno

Se lembrarmos do que aprendemos sobre senos e cossenos na escola, lembraremos que quando dois vetores têm um ângulo de 0º entre eles, seu cosseno é 1, quando o ângulo entre eles é de 90º, seu cosseno é 0 e quando o ângulo é de 180º, seu cosseno é -1.

Portanto, podemos usar o cosseno do ângulo entre dois vetores para medir sua similaridade. Pode-se demonstrar que o cosseno do ângulo entre dois vetores é igual ao produto escalar dos dois vetores dividido pelo produto de seus módulos. Não é o objetivo deste post demonstrá-lo, mas se quiserem podem ver a demonstração aqui.

$similitude(U,V) = U \cdot V ||U|| ||V||$

Similaridade do produto escalar

A similaridade do produto escalar é o produto escalar de dois vetores

$similaridade(U,V) = U \cdot V$

Como escrevemos a fórmula da similaridade cosseno, quando o comprimento dos vetores é 1, ou seja, estão normalizados, a similaridade cosseno é igual à similaridade do produto escalar.

Então, para que serve a similaridade pelo produto escalar? Para medir a similaridade entre dois vetores que não estão normalizados, ou seja, que não têm comprimento 1.

Por exemplo, o YouTube, para criar os embeddings dos seus vídeos, faz com que os embeddings dos vídeos que classifica como de maior qualidade sejam mais longos do que os dos vídeos que classifica como de menor qualidade.

Desta forma, quando um usuário faz uma pesquisa, a similaridade pelo produto escalar dará maior similaridade aos vídeos de maior qualidade, portanto fornecerá ao usuário os vídeos de maior qualidade em primeiro lugar.

Qual sistema de similaridade usar

Para escolher o sistema de similaridade que vamos usar, devemos ter em conta o espaço no qual estamos trabalhando.

Se estivermos trabalhando em um espaço de alta dimensionalidade, com embeddings normalizados, a similaridade cosseno é a que melhor funciona. Por exemplo, a OpenAI gera embeddings normalizados, portanto a similaridade cosseno é a que melhor funciona.
Se estivermos trabalhando em um sistema de classificação, onde a distância entre duas classes é importante, a similaridade pelo quadrado L2 é a que melhor funciona.
Se estivermos trabalhando em um sistema de recomendação, onde a comprimento dos vetores é importante, a similaridade do produto escalar é a que melhor funciona.

Continuar lendo

MCP: Guia Completa para Criar Servidores e Clientes MCP (Model Context Protocol) com FastMCP

Aprenda o que é o Model Context Protocol (MCP), o padrão de código aberto desenvolvido pela Anthropic que revoluciona como os modelos de IA interagem com ferramentas externas. Nesta guia prática e detalhada, eu te levo passo a passo na criação de um servidor e cliente MCP do zero usando a biblioteca fastmcp. Você construirá um agente de IA "inteligente" com Claude Sonnet, capaz de interagir com a API do GitHub para consultar issues e informações de repositórios. Vamos cobrir desde conceitos básicos até recursos avançados como filtragem de ferramentas por tags, composição de servidores, recursos estáticos e plantillas dinâmicas (resource templates), geração de prompts e autenticação segura. Descubra como MCP pode padronizar e simplificar a integração de ferramentas em suas aplicações de IA, de forma análoga ao como o USB unificou periféricos!

Padrões de agentes

Seus agentes estão falhando? Eleve seus projetos de IA com padrões avançados: ReAct, planejamento, multi-agentes e mais. Guia prática com código!

LangGraph: Revolução em seus agentes de IA

🚀 ¡Revoluciona tus agentes de IA! 🧠 LangGraph não é apenas outra biblioteca, é o framework de orquestração que te dá o CONTROLE total para construir agentes complexos, com memória a longo prazo e até com intervenção humana! Se livre dos chatbots básicos, é hora de criar verdadeira inteligência. ¡Sumérgete em este post e descubra!

Últimos posts -->

Você viu esses projetos?

Horeca chatbot

Naviground

Subtify

Ver todos os projetos -->

Quer aplicar IA no seu projeto? Entre em contato!

Quer melhorar com essas dicas?

Memory profiler

Ver o uso de memória de um script

DataLoader com pin_memory e num_workers

Aumentar o desempenho de DataLoader com pin_memory e num_workers

py-smi

Biblioteca Python para obter dados da GPU como `nvidia-smi`

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuário a deletar? Por isso, criei contêineres docker com alguns espaços interessantes, para poder usá-los localmente, aconteça o que acontecer. Na verdade, se você clicar em qualquer botão de visualização de projeto, ele pode levá-lo a um espaço que não funciona.