Concept
Tokenization
Процесс разбиения текста на токены (слова, части слов или символы), которые модель может обрабатывать.
Tokenization - это этап предобработки, на котором текст превращается в последовательность токенов с числовыми идентификаторами. От выбранного токенизатора зависят длина контекста, стоимость инференса и качество работы модели на разных языках.