State of AI: Эмпирическое исследование 100 триллионов токенов
Глубокий анализ рынка ИИ на основе данных OpenRouter: более 50% трафика приходится на рассуждающие модели, китайские Open Source решения захватывают кодинг, а феномен «Хрустальной туфельки» определяет удержание пользователей.
State of AI: Эмпирическое исследование 100 триллионов токенов с OpenRouter
Авторы: Malika Aubakirova*, Alex Atallah, Chris Clark, Justin Summerville, and Anjney Midha (OpenRouter Inc. & a16z) Дата: Декабрь 2025
Аннотация
Прошедший год стал поворотным моментом в эволюции и реальном использовании больших языковых моделей (LLM). С выпуском первой широко принятой модели рассуждения, o1, 5 декабря 2024 года, область сместилась от однопроходной генерации паттернов к многоэтапному инференсу с обдумыванием, что ускорило развертывание, экспериментирование и появление новых классов приложений. Поскольку этот сдвиг происходил быстрыми темпами, наше эмпирическое понимание того, как эти модели фактически используются на практике, отставало.
В данной работе мы используем платформу OpenRouter, которая является провайдером ИИ-инференса для широкого спектра LLM, чтобы проанализировать более 100 триллионов токенов реальных взаимодействий с LLM в различных задачах, географических регионах и во времени. В нашем эмпирическом исследовании мы наблюдаем существенное внедрение моделей с открытыми весами, огромную популярность категорий креативного ролевого отыгрыша и помощи в написании кода, а также рост агентского инференса. Кроме того, наш анализ удержания выявляет основополагающие когорты: ранних пользователей, чья вовлеченность сохраняется гораздо дольше, чем у более поздних когорт. Мы называем это явление эффектом «Хрустальной туфельки».
1. Введение
Всего год назад ландшафт больших языковых моделей выглядел фундаментально иначе. До конца 2024 года в современных системах доминировали однопроходные авторегрессионные предикторы, оптимизированные для продолжения текстовых последовательностей. Эта парадигма эволюционировала 5 декабря 2024 года, когда OpenAI выпустила первую полную версию своей модели рассуждения o1.
Позиция OpenRouter предоставляет уникальное окно в детализированные паттерны использования. Мы анализируем:
- Открытые против закрытых моделей: Баланс сил между проприетарными гигантами и Open Source.
- Агентский инференс: Сдвиг к многоэтапным рабочим процессам.
- География: Как Азия становится ключевым потребителем ИИ.
- Эффективная стоимость: Экономика использования моделей.
- Удержание: Почему пользователи остаются с конкретными моделями.
2. Данные и Методология
Наш анализ основан на метаданных, собранных с платформы OpenRouter. Набор данных состоит из анонимизированных метаданных на уровне запросов для миллиардов пар «промпт-завершение» от глобальной пользовательской базы. Мы используем классификатор GoogleTagClassifier для категоризации контента (Programming, Roleplay, Translation и т.д.).
3. Открытые (Open Source) против Закрытых (Proprietary) моделей
Рисунок 1: Еженедельная доля общего объема токенов по типу источника. Светло-голубые оттенки — Open Source, темно-синий — проприетарные.
Хотя проприетарные модели (OpenAI, Anthropic) по-прежнему обслуживают большинство токенов, модели OSS неуклонно росли, достигнув примерно одной трети использования к концу 2025 года. Значительная часть этого роста пришлась на модели китайской разработки (DeepSeek, Qwen), которые достигли почти 30% от общего использования.
Рисунок 2: Еженедельный объем токенов по типу модели.
3.1 Ключевые игроки Open Source
Ландшафт OSS-моделей значительно изменился. Если раньше доминировал DeepSeek, то теперь рынок стал более плюралистичным.
Таблица 1: Топ авторов моделей по объему токенов (Ноябрь 2024 – Ноябрь 2025)
| Автор модели | Всего токенов (триллионы) |
|---|---|
| DeepSeek | 14.37 |
| Qwen | 5.59 |
| Meta LLaMA | 3.96 |
| Mistral AI | 2.92 |
| OpenAI (OSS) | 1.65 |
Рисунок 3: Доли рынка топ-15 OSS-моделей с течением времени.
3.2 Размер имеет значение: “Medium is the New Small”
Эра доминирования малых моделей (<15B) прошла. Рынок смещается к моделям среднего размера (15-70B), таким как Qwen2.5 32B и Mistral Small 3, которые обеспечивают идеальный баланс цены и качества.
Рисунок 4: Размер OSS-модели против использования.
Рисунок 5: Количество OSS-моделей по размеру.
3.3 Для чего используют Open Source?
Две главные категории: Roleplay (Ролевой отыгрыш) и Programming (Программирование).
Рисунок 6: Распределение использования моделей OSS по категориям.
Рисунок 7: Категории использования китайских OSS-моделей. Программирование и технологии составляют 39%.
Рисунок 8: Запросы по программированию по источнику модели.
Рисунок 9: Запросы по ролевому отыгрышу.
4. Расцвет Агентного Инференса (Agentic Inference)
Происходит фундаментальный сдвиг от одношаговой генерации к многоэтапным рабочим процессам с использованием инструментов и рассуждений.
4.1 Модели рассуждения занимают 50% трафика
Рисунок 10: Доля токенов через модели рассуждения.
Рисунок 11: Топ моделей рассуждения. Лидирует Grok Code Fast 1.
4.2 Рост использования инструментов (Tool-Calling)
Рисунок 12: Доля токенов с успешным вызовом инструментов.
Рисунок 13: Топ моделей по использованию инструментов.
4.3 Анатомия запросов: Рост контекста в 4 раза
Средняя длина промпта выросла с 1.5k до >6k токенов. Это означает, что пользователи загружают в модели целые документы и кодовые базы.
Рисунок 14: Рост длины промпта.
Рисунок 15: Рост длины ответа (completion tokens) почти в 3 раза.
Программирование — основной драйвер этого роста.
Рисунок 16: Программирование требует самых длинных контекстов.
Рисунок 17: Средняя длина последовательности.
Рисунок 18: Сравнение длины последовательности в программировании и общих задачах.
5. Категории: Как люди используют LLM?
5.1 Доминирующие категории
Программирование стало доминирующей категорией, превысив 50% трафика к концу 2025 года.
Рисунок 19: Доля запросов по программированию.
Рисунок 20: Доля рынка провайдеров в программировании. Anthropic лидирует, но теряет долю.
5.2 Состав тегов
Рисунок 21: Детализация подкатегорий (Programming, Roleplay, Technology и др.).
5.3 Инсайты по провайдерам
Каждый провайдер имеет свою нишу:
- Anthropic: Программирование и технологии (>80%).
- Google: Широкий спектр (юриспруденция, наука, технологии).
- xAI: Сильный фокус на программировании.
- DeepSeek: Доминирование в Roleplay и чате.
- Qwen: Технический фокус (40-60% кодинг).
Рисунки 22-23: Распределение категорий по провайдерам.
6. География: Азия как новый центр силы
Азия удвоила свою долю в потреблении ИИ, достигнув 31% глобальных расходов.
Рисунок 24: Расходы по регионам.
Таблица 2: Языки запросов
| Язык | Доля (%) |
|---|---|
| Английский | 82.87 |
| Китайский (упр.) | 4.95 |
| Русский | 2.47 |
7. Удержание пользователей: Эффект «Хрустальной туфельки»
Мы обнаружили феномен «Хрустальной туфельки»: пользователи остаются с той моделью, которая первой идеально решила их сложную задачу.
Рисунок 25: Когорты удержания для различных моделей.
8. Динамика стоимости и использования
Рынок четко сегментирован:
- Премиум (Tech, Science): Высокая цена, высокое использование.
- Масс-маркет (Programming, Roleplay): Низкая цена, огромное использование.
Рисунок 26: Карта рынка (Логарифм стоимости vs Логарифм использования).