Tokens em NLP: Tokenização de Texto

08 de dezembro de 2023

Aviso: Este post foi traduzido para o português usando um modelo de tradução automática. Por favor, me avise se encontrar algum erro.

Agora que os LLMs estão em alta, não paramos de ouvir o número de tokens que cada modelo suporta, mas o que são os tokens? São as unidades mínimas de representação das palavras

Para explicar o que são os tokens, primeiro vejamos com um exemplo prático, vamos usar o tokenizador de OpenAI, chamado tiktoken.

Então, primeiro instalamos o pacote:

pip install tiktoken

Uma vez instalado, criamos um tokenizador usando o modelo cl100k_base, que no notebook de exemplo How to count tokens with tiktoken explica que é o usado pelos modelos gpt-4, gpt-3.5-turbo e text-embedding-ada-002

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		import tiktoken
 
encoder = tiktoken.get_encoding("cl100k_base")
	
	Copied

Agora criamos uma palavra de exemplo para tokenizá-la

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		example_word = "breakdown"
	
	Copied

E tokenizamos

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		tokens = encoder.encode(example_word)
tokens
	
	Copied

>_ Output

			
				[9137, 2996]

A palavra foi dividida em 2 tokens, o 9137 e o 2996. Vamos ver a quais palavras correspondem.

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		word1 = encoder.decode([tokens[0]])
word2 = encoder.decode([tokens[1]])
word1, word2
	
	Copied

>_ Output

			
				('break', 'down')

O tokenizador da OpenAI dividiu a palavra breakdown nas palavras break e down. Ou seja, ele dividiu a palavra em 2 mais simples.

Isto é importante, pois quando se diz que um LLM suporta x tokens, não significa que ele suporta x palavras, mas sim que ele suporta x unidades mínimas de representação das palavras.

Se você tem um texto e quer ver o número de tokens que ele possui para o tokenizador de OpenAI, pode verificar na página Tokenizer, que mostra cada token em uma cor diferente.

Vimos o tokenizador da OpenAI, mas cada LLM poderá usar outro.

Como dissemos, os tokens são as unidades mínimas de representação das palavras, então vamos ver quantos tokens distintos tem tiktoken

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		n_vocab = encoder.n_vocab
print(f"Vocab size: {n_vocab}")
	
	Copied

>_ Output

			
				Vocab size: 100277

Vamos a ver como tokeniza outro tipo de palavras

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		def encode_decode(word):
    tokens = encoder.encode(word)
    decode_tokens = []
    for token in tokens:
        decode_tokens.append(encoder.decode([token]))
    return tokens, decode_tokens
	
	Copied

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		word = "dog"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "tomorrow..."
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "artificial intelligence"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "Python"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "12/25/2023"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "😊"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
	
	Copied

>_ Output

			
				Word: dog ==&gt; tokens: [18964], decode_tokens: ['dog']
Word: tomorrow... ==&gt; tokens: [38501, 7924, 1131], decode_tokens: ['tom', 'orrow', '...']
Word: artificial intelligence ==&gt; tokens: [472, 16895, 11478], decode_tokens: ['art', 'ificial', ' intelligence']
Word: Python ==&gt; tokens: [31380], decode_tokens: ['Python']
Word: 12/25/2023 ==&gt; tokens: [717, 14, 914, 14, 2366, 18], decode_tokens: ['12', '/', '25', '/', '202', '3']
Word: 😊 ==&gt; tokens: [76460, 232], decode_tokens: ['�', '�']

Por último vamos a vê-lo com palavras em outro idioma

	
		
			< >
			Input
		
		
			Python
			
		
	
	
		word = "perro"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "perra"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "mañana..."
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "inteligencia artificial"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "Python"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "12/25/2023"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
 
word = "😊"
tokens, decode_tokens = encode_decode(word)
print(f"Word: {word} ==&gt; tokens: {tokens}, decode_tokens: {decode_tokens}")
	
	Copied

>_ Output

			
				Word: perro ==&gt; tokens: [716, 299], decode_tokens: ['per', 'ro']
Word: perra ==&gt; tokens: [79, 14210], decode_tokens: ['p', 'erra']
Word: mañana... ==&gt; tokens: [1764, 88184, 1131], decode_tokens: ['ma', 'ñana', '...']
Word: inteligencia artificial ==&gt; tokens: [396, 39567, 8968, 21075], decode_tokens: ['int', 'elig', 'encia', ' artificial']
Word: Python ==&gt; tokens: [31380], decode_tokens: ['Python']
Word: 12/25/2023 ==&gt; tokens: [717, 14, 914, 14, 2366, 18], decode_tokens: ['12', '/', '25', '/', '202', '3']
Word: 😊 ==&gt; tokens: [76460, 232], decode_tokens: ['�', '�']

Podemos ver para palavras semelhantes, em espanhol são gerados mais tokens do que em inglês, portanto, para um mesmo texto, com um número similar de palavras, o número de tokens será maior em espanhol do que em inglês.

Continuar lendo

Deep Research com LangGraph: Crie um Assistente de IA para Pesquisar Automaticamente

Aprenda como funcionam as redes neurais do zero com um exemplo prático de regressão linear. Tutorial passo a passo que explica neurônios artificiais, inicialização de parâmetros, funções de perda e erro quadrático médio (EQM) com código Python.

Elicitação MCP: Implementar Elicitação em Servidores com FastMCP e Python

Aprenda a implementar elicitação em servidores MCP (Model Context Protocol) com FastMCP. Tutorial completo passo a passo...

MCP Durabilidade: Servidor e Cliente com Persistência para Tarefas de Longa Duração

Aprenda a construir servidor e cliente MCP com durabilidade para tarefas de longa duração. Tutorial completo do Model Co...

Últimos posts -->

Você viu esses projetos?

Gymnasia

Horeca chatbot

Naviground

Ver todos os projetos -->

>_ Disponível para projetos

Tem um projeto com IA?

Vamos conversar.

maximofn@gmail.com

Especialista em Machine Learning e Inteligência Artificial. Desenvolvo soluções com IA generativa, agentes inteligentes e modelos personalizados.

Escreva-me LinkedIn

Quer assistir alguma palestra?

Agentes do Amanhã: Descifrando os Mistérios da Planificação, UX e Memória

Agentes de IA, impulsionados por LLMs, prometem transformar aplicações. Mas eles são meros executores hoje ou futuros colaboradores inteligentes? Para...

Crie sua própria inteligência Apple

Aprenda a criar um sistema de IA para executar eficientemente em um dispositivo

Últimas palestras -->

Quer melhorar com essas dicas?

o1 prompt engineering

Criar prompts melhores para o1 seguindo um exemplo

Memory profiler

Ver o uso de memória de um script

DataLoader com pin_memory e num_workers

Aumentar o desempenho de DataLoader com pin_memory e num_workers

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuário a deletar? Por isso, criei contêineres docker com alguns espaços interessantes, para poder usá-los localmente, aconteça o que acontecer. Na verdade, se você clicar em qualquer botão de visualização de projeto, ele pode levá-lo a um espaço que não funciona.