Concept

Tokenization

Процесс разбиения текста на токены (слова, части слов или символы), которые модель может обрабатывать.

Tokenization - это этап предобработки, на котором текст превращается в последовательность токенов с числовыми идентификаторами. От выбранного токенизатора зависят длина контекста, стоимость инференса и качество работы модели на разных языках.