Routify — Модели

GPT-5.4 Nano 400K ctx

GPT-5.4 Nano — самый лёгкий и экономичный вариант в семействе GPT-5.4, оптимизированный для скорость-критичных и высоконагруженных задач. Поддерживает текстовый и визуальный ввод и предназначен для сценариев с низкой задержкой: классификация, извлечение данных, ранжирование и выполнение подагентов. Модель ставит отзывчивость и эффективность выше глубокого рассуждения, что делает её идеальной для пайплайнов, требующих быстрых и надёжных результатов в масштабе. GPT-5.4 Nano хорошо подходит для фоновых задач, систем реального времени и распределённых агентных архитектур, где критично минимизировать стоимость и задержку.

openai/gpt-5.4-nano

вход ₽22.80

выход ₽142.50

GPT-5.4 Mini 400K ctx

GPT-5.4 Mini — быстрая и эффективная версия GPT-5.4, оптимизированная для высоконагруженных сценариев. Поддерживает текстовый и визуальный ввод с сильными результатами в рассуждениях, программировании и вызове инструментов при сниженной задержке и стоимости для масштабных развёртываний. Модель спроектирована для продакшн-сред, требующих баланса между возможностями и эффективностью: чат-приложения, ассистенты для программирования и агентные рабочие процессы. GPT-5.4 Mini обеспечивает надёжное следование инструкциям, уверенные многошаговые рассуждения и стабильную работу на разнообразных задачах с улучшенной стоимостной эффективностью.

openai/gpt-5.4-mini

вход ₽85.50

выход ₽513.00

GPT-5.4 — новейшая фронтирная модель OpenAI, объединяющая линейки Codex и GPT в единую систему. Модель поддерживает контекстное окно более 1M токенов (922K вход, 128K выход) с текстовым и визуальным вводом, что позволяет выполнять рассуждения на длинном контексте, программирование и мультимодальный анализ в рамках одного рабочего процесса. Модель демонстрирует улучшенные результаты в программировании, анализе документов, вызове инструментов и следовании инструкциям. Она спроектирована как сильный универсальный выбор для общих задач и разработки ПО, способна генерировать код продакшн-качества, синтезировать информацию из множества источников и выполнять сложные многошаговые рабочие процессы с меньшим числом итераций и большей токен-эффективностью.

openai/gpt-5.4

вход ₽285.00

выход ₽1710.00

Qwen3.5-122B-A10B 262K ctx

Нативная vision‑language модель Qwen3.5 122B‑A10B построена на гибридной архитектуре, объединяющей линейное внимание с разреженной MoE‑моделью, что обеспечивает более высокую эффективность инференса. По общей производительности эта модель уступает только Qwen3.5‑397B‑A17B. Её текстовые возможности существенно превосходят Qwen3‑235B‑2507, а визуальные — превосходят Qwen3‑VL‑235B.

qwen/qwen3.5-122b-a10b

вход ₽33.06

выход ₽330.60

GPT-5.3 Codex 400K ctx

GPT-5.3-Codex — продвинутая агентная модель OpenAI для программирования, сочетающая сильные инженерные возможности семейства Codex с более широкими рассуждениями и профессиональными знаниями GPT-5.2. Она хорошо подходит для сложной разработки, отладки, деплоя и длительных workflow с инструментами, включая работу в терминале и многоязычное программирование. Помимо кодинга, модель уверенно справляется со структурированными задачами вроде подготовки документов, анализа таблиц и операционных исследований. По сравнению с предыдущими моделями Codex она более токен‑эффективна, быстрее в работе и лучше подходит для профессиональных end‑to‑end сценариев.

openai/gpt-5.3-codex

вход ₽199.50

выход ₽1596.00

MiniMax M2.5 196K ctx

MiniMax-M2.5 — языковая модель, ориентированная на реальные продуктивные сценарии. Она развивает кодинговые возможности M2.1 и расширяет их на офисные задачи, включая генерацию и использование файлов Word, Excel и PowerPoint, переключение между программными средами и совместную работу людей и агентов. Модель хорошо подходит для программирования, анализа документов и многошаговых прикладных workflow, где важны качество, скорость и токен‑эффективность.

minimax/minimax-m2.5

вход ₽3.42

выход ₽13.68

GLM-5 — крупная open‑source модель Z.ai, разработанная для проектирования сложных систем и агентных workflow на длинном горизонте. Она ориентирована на крупномасштабные задачи программирования, агентное планирование, глубокие backend‑рассуждения и итеративную самокоррекцию. Подходит для опытных разработчиков и систем, где модель должна не только генерировать код, но и помогать строить целостные решения.

вход ₽91.20

выход ₽291.84

Qwen3 Max Thinking 262K ctx

Qwen3‑Max‑Thinking — крупная модель рассуждений серии Qwen3, предназначенная для сложных задач, требующих глубоких многошаговых выводов. Она делает акцент на фактической точности, следовании инструкциям, устойчивом агентном поведении и работе с задачами повышенной сложности. Подходит для аналитических сценариев, где качество reasoning важнее минимальной задержки.

qwen/qwen3-max-thinking

вход ₽136.80

выход ₽684.00

Kimi K2.5 262K ctx

Kimi K2.5 — нативная мультимодальная модель Moonshot AI, ориентированная на визуальное программирование, общие рассуждения и агентное использование инструментов. Она построена на базе Kimi K2 и дополнительно обучена на большом объёме смешанных визуальных и текстовых данных. Подходит для сценариев, где нужно сочетать текстовые, визуальные и агентные возможности в одном workflow.

moonshotai/kimi-k2.5

вход ₽51.30

выход ₽256.50

GLM 4.7 Flash 202K ctx

GLM-4.7-Flash — быстрая модель класса 30B, ориентированная на баланс производительности и эффективности. Она оптимизирована для агентного программирования, планирования задач на длинном горизонте и совместной работы с инструментами. Подходит для сценариев, где нужен хороший уровень кодинговых возможностей при более низкой задержке.

z-ai/glm-4.7-flash

вход ₽6.84

выход ₽45.60

GPT-5.2 Codex 400K ctx

GPT-5.2-Codex — улучшенная версия GPT-5.1-Codex, оптимизированная для инженерных и программных рабочих процессов. Она подходит как для интерактивной разработки, так и для длительного автономного выполнения сложных задач, включая создание проектов с нуля, разработку функций, отладку, рефакторинг и ревью кода. По сравнению с GPT-5.1-Codex, модель лучше следует инструкциям, выдаёт более чистый код и поддерживает настройку глубины рассуждений через `reasoning.effort`. Модель интегрируется в IDE, CLI, GitHub и облачные среды разработки, адаптируя усилие рассуждений под масштаб задачи. Она также поддерживает мультимодальные входы и использование инструментов, что делает её подходящей для агентных сценариев программирования.

openai/gpt-5.2-codex

вход ₽199.50

выход ₽1596.00

Olmo 3.1 32B Instruct 65K ctx

Olmo 3.1 32B Instruct — крупная языковая модель на 32 млрд параметров, настроенная под инструкции и ориентированная на высокопроизводительный разговорный ИИ, многоходовые диалоги и практическое следование инструкциям. Как часть семейства Olmo 3.1, эта версия делает упор на отзывчивость к сложным пользовательским указаниям и устойчивые чат‑взаимодействия, сохраняя сильные возможности в бенчмарках рассуждений и программирования. Разработанная Ai2 под лицензией Apache 2.0, Olmo 3.1 32B Instruct отражает приверженность инициативы Olmo открытости и прозрачности.

allenai/olmo-3.1-32b-instruct

вход ₽22.80

выход ₽68.40

MiniMax M2.1 196K ctx

MiniMax-M2.1 — лёгкая языковая модель, оптимизированная для программирования, агентных workflow и современной разработки приложений. При небольшом числе активных параметров она сохраняет низкую задержку, хорошую масштабируемость и высокую эффективность по стоимости. Подходит для IDE, кодинговых инструментов и ассистентов общего назначения, где важны быстрые и чистые ответы.

minimax/minimax-m2.1

вход ₽30.78

выход ₽108.30

GLM 4.7 202K ctx

GLM-4.7 — крупная модель Z.ai с улучшенными возможностями программирования и более стабильными многошаговыми рассуждениями. Она хорошо подходит для сложных агентных задач, естественного диалога и сценариев, где важны качество кода и аккуратная генерация интерфейсов.

вход ₽45.60

выход ₽199.50

Nemotron 3 Nano 30B A3B 262K ctx

NVIDIA Nemotron 3 Nano 30B A3B — небольшая MoE‑языковая модель с максимальной вычислительной эффективностью и точностью для разработчиков, создающих специализированные агентные ИИ‑системы. Модель полностью открыта: веса, датасеты и рецепты доступны, поэтому разработчики могут легко настраивать, оптимизировать и развёртывать её на своей инфраструктуре для максимальной приватности и безопасности.

nvidia/nemotron-3-nano-30b-a3b

вход ₽5.70

выход ₽22.80

GPT-5.2 400K ctx

GPT-5.2 — новейшая фронтирная модель в серии GPT-5, обеспечивающая более сильные агентные возможности и лучшую работу на длинном контексте по сравнению с GPT-5.1. Она использует адаптивные рассуждения для динамического распределения вычислений, быстро отвечая на простые запросы и углубляясь в сложные задачи. Созданная для широкого спектра задач, GPT-5.2 демонстрирует стабильный прирост в математике, программировании, научных задачах и вызове инструментов, предлагая более связные развёрнутые ответы и повышенную надёжность при использовании инструментов.

openai/gpt-5.2

вход ₽199.50

выход ₽1596.00

GLM 4.6V 131K ctx

GLM-4.6V — крупная мультимодальная модель, предназначенная для высокоточной визуальной интерпретации и рассуждений на длинном контексте по изображениям, документам и смешанным медиа. Она поддерживает до 128K токенов, обрабатывает сложные макеты страниц и графики напрямую как визуальные входы и интегрирует нативный мультимодальный вызов функций, связывая восприятие с выполнением инструментов. Модель также поддерживает чередуемую генерацию изображений и текста и рабочие процессы реконструкции UI, включая преобразование скриншотов в HTML и итеративное визуальное редактирование.

z-ai/glm-4.6v

вход ₽34.20

выход ₽102.60

GPT-5.1 Codex Max 400K ctx

GPT-5.1-Codex-Max — новейшая агентная модель OpenAI для программирования, предназначенная для длительных, высококонтекстных задач разработки ПО. Она основана на обновлённой версии стека рассуждений 5.1 и обучена на агентных рабочих процессах в программной инженерии, математике и исследованиях. GPT-5.1-Codex-Max обеспечивает более высокую скорость, улучшенные рассуждения и более эффективное использование токенов на протяжении всего цикла разработки.

openai/gpt-5.1-codex-max

вход ₽142.50

выход ₽1140.00

DeepSeek V3.2 163K ctx

DeepSeek‑V3.2 — большая языковая модель, сочетающая высокую вычислительную эффективность с сильными рассуждениями и агентным использованием инструментов. Она использует DeepSeek Sparse Attention (DSA), чтобы снижать стоимость обучения и инференса без заметной потери качества на длинном контексте, а масштабируемое постобучение с подкреплением дополнительно усиливает reasoning‑возможности. Модель хорошо подходит для сложных сценариев с кодом, поиском и использованием инструментов, а режим рассуждений можно включать и выключать через параметр `reasoning.enabled`.

deepseek/deepseek-v3.2

вход ₽29.64

выход ₽43.32

GPT-5.1 400K ctx

GPT-5.1 — новейшая фронтирная модель серии GPT-5, обеспечивающая более сильные универсальные рассуждения, улучшенное следование инструкциям и более естественный разговорный стиль по сравнению с GPT-5. Она использует адаптивные рассуждения для динамического распределения вычислений, быстро отвечая на простые запросы и углубляясь в сложные задачи. Модель выдаёт более ясные и обоснованные объяснения с меньшим количеством жаргона, что облегчает восприятие даже в технических или многошаговых задачах. Созданная для широкого спектра задач, GPT-5.1 демонстрирует стабильный прирост в математике, программировании и задачах структурированного анализа, с более связными развёрнутыми ответами и улучшенной надёжностью использования инструментов. Также улучшена разговорная выравненность, что обеспечивает более тёплые и интуитивные ответы без ущерба точности. GPT-5.1 служит основным полнофункциональным преемником GPT-5

openai/gpt-5.1

вход ₽142.50

выход ₽1140.00

GPT-5.1 Codex 400K ctx

GPT-5.1-Codex — специализированная версия GPT-5.1, оптимизированная для инженерных и программных рабочих процессов. Она подходит как для интерактивной разработки, так и для длительного автономного выполнения сложных задач, включая создание проектов с нуля, разработку функций, отладку, рефакторинг и ревью кода. По сравнению с GPT-5.1, модель лучше следует инструкциям разработчика, выдаёт более чистый код и поддерживает настройку глубины рассуждений через `reasoning.effort`. Модель интегрируется в IDE, CLI, GitHub и облачные среды разработки, адаптируя усилие рассуждений под масштаб задачи. Она также поддерживает мультимодальные входы и использование инструментов, что делает её подходящей для агентных сценариев программирования.

openai/gpt-5.1-codex

вход ₽142.50

выход ₽1140.00

GPT-5.1 Codex Mini 400K ctx

GPT-5.1-Codex-Mini — меньшая и более быстрая версия GPT-5.1-Codex.

openai/gpt-5.1-codex-mini

вход ₽28.50

выход ₽228.00

gpt-oss-safeguard-20b 131K ctx

gpt-oss-safeguard-20b — safety‑модель рассуждений от OpenAI, построенная на базе gpt-oss-20b. Эта открытая MoE‑модель на 21B параметров предназначена для задач безопасности с низкой задержкой: классификация контента, фильтрация LLM и модерация.

openai/gpt-oss-safeguard-20b:free

Llama 3.3 Nemotron Super 49B V1.5 131K ctx

Llama-3.3-Nemotron-Super-49B-v1.5 — англоцентричная модель рассуждений/чата на 49B параметров, производная от Meta Llama-3.3-70B-Instruct с контекстом 128K. Она пост‑обучена для агентных рабочих процессов (RAG, вызов инструментов) через SFT на математике, коде, науке и многоходовом чате, затем через несколько стадий RL: Reward‑aware Preference Optimization (RPO) для выравнивания, RL with Verifiable Rewards (RLVR) для пошаговых рассуждений и итеративное DPO для улучшения поведения при использовании инструментов. Дистилляционно‑управляемый Neural Architecture Search («Puzzle») заменяет часть attention‑блоков и варьирует ширину FFN для уменьшения памяти и повышения throughput, позволяя развёртывание на одном GPU (H100/H200) при сохранении следования инструкциям и качества CoT. Во внутренних оценках (NeMo-Skills, до 16 прогонов, temp = 0.6, top_p = 0.95) модель показывает сильные результаты по рассуждениям/кодингу: например, MATH500 pass@1 = 97.4, AIME-2024 = 87.5, AIME-2025 = 82.71, GPQA = 71.97, LiveCodeBench (24.10–25.02) = 73.58 и MMLU-Pro (CoT) = 79.53. Модель ориентирована на практическую эффективность инференса (высокие токены/с, сниженное потребление VRAM) с поддержкой Transformers/vLLM и явными режимами «reasoning on/off» (по умолчанию chat‑first; при отключении рекомендуется greedy). Подходит для построения агентов, ассистентов и систем долговременного поиска, где важен баланс точности/стоимости и надёжное использование инструментов.

nvidia/llama-3.3-nemotron-super-49b-v1.5

вход ₽11.40

выход ₽45.60

Qwen3 VL 30B A3B Instruct 131K ctx

Qwen3-VL-30B-A3B-Instruct — мультимодальная модель, объединяющая сильную генерацию текста с визуальным пониманием изображений и видео. Instruct‑вариант оптимизирован под следование инструкциям для общих мультимодальных задач. Она отлично справляется с восприятием реальных/синтетических категорий, 2D/3D пространственной привязкой и длинным визуальным пониманием, показывая конкурентные результаты на мультимодальных бенчмарках. Для агентных сценариев она поддерживает многоизображенные многоходовые инструкции, выравнивание по таймлайнам видео, автоматизацию GUI и визуальное программирование — от эскизов до отладки UI. Текстовая производительность соответствует флагманским моделям Qwen3, что делает её подходящей для document AI, OCR, помощи в UI, пространственных задач и исследований агентных систем.

qwen/qwen3-vl-30b-a3b-instruct

вход ₽17.10

выход ₽68.40

GLM 4.6 204K ctx

По сравнению с GLM-4.5 это поколение приносит несколько ключевых улучшений: Более длинное контекстное окно: контекст расширен с 128K до 200K токенов, что позволяет модели справляться с более сложными агентными задачами. Повышенная производительность в кодинге: модель получает более высокие оценки на кодовых бенчмарках и демонстрирует лучшую практическую производительность в приложениях вроде Claude Code, Cline, Roo Code и Kilo Code, включая улучшения в генерации визуально отполированных фронтенд‑страниц. Продвинутые рассуждения: GLM-4.6 показывает заметный рост в способности рассуждать и поддерживает использование инструментов во время инференса, что повышает общую мощность. Более сильные агенты: GLM-4.6 демонстрирует улучшения в использовании инструментов и поисковых агентах и лучше интегрируется в агентные фреймворки. Улучшенное письмо: лучше соответствует человеческим предпочтениям по стилю и читаемости и естественнее ведёт себя в ролевых сценариях.

вход ₽49.02

выход ₽198.36

DeepSeek V3.2 Exp 163K ctx

DeepSeek-V3.2-Exp — экспериментальная языковая модель DeepSeek, выпущенная как промежуточный шаг между V3.1 и будущими архитектурами. Она использует DeepSeek Sparse Attention (DSA) — механизм разреженного внимания, предназначенный для повышения эффективности обучения и инференса на длинном контексте без заметной потери качества. Модель позволяет управлять поведением рассуждений через параметр `reasoning.enabled` и ориентирована прежде всего на исследование архитектурных оптимизаций для long-context сценариев.

deepseek/deepseek-v3.2-exp

вход ₽23.94

выход ₽36.48

Qwen3 VL 235B A22B Instruct 262K ctx

Qwen3-VL-235B-A22B Instruct — open‑weight мультимодальная модель, объединяющая сильную генерацию текста с визуальным пониманием изображений и видео. Instruct‑вариант нацелен на общее использование в vision‑language задачах (VQA, разбор документов, извлечение данных из графиков/таблиц, многоязычный OCR). Серия делает акцент на устойчивом восприятии (распознавание разнообразных реальных и синтетических категорий), пространственном понимании (2D/3D привязка) и длинной визуальной интерпретации, показывая конкурентные результаты на публичных мультимодальных бенчмарках как в восприятии, так и в рассуждениях. Помимо анализа, Qwen3‑VL поддерживает агентное взаимодействие и использование инструментов: может следовать сложным инструкциям в многоизображенных, многоходовых диалогах; сопоставлять текст с временными шкалами видео для точных запросов по времени; и управлять элементами GUI для задач автоматизации. Модели также поддерживают визуальные рабочие процессы программирования — превращение скетчей/макетов в код и помощь в отладке UI — при сохранении сильной текстовой производительности, сопоставимой с флагманскими языковыми моделями Qwen3. Это делает Qwen3‑VL подходящей для продакшн‑сценариев: document AI, многоязычный OCR, помощь в разработке UI, пространственные задачи и исследования агентных vision‑language систем.

qwen/qwen3-vl-235b-a22b-instruct

вход ₽22.80

выход ₽100.32

Qwen3 Max 262K ctx

Qwen3‑Max — обновлённый релиз на базе серии Qwen3, предлагающий значительные улучшения в рассуждениях, следовании инструкциям, многоязычной поддержке и покрытии редких знаний по сравнению с версией января 2025 года. Он обеспечивает более высокую точность в задачах математики, программирования, логики и науки, надёжнее следует сложным инструкциям на китайском и английском, снижает галлюцинации и выдаёт более качественные ответы для открытых вопросов, письма и диалога. Модель поддерживает более 100 языков с улучшенным переводом и здравым смыслом и оптимизирована для retrieval‑augmented generation (RAG) и вызова инструментов, хотя не включает отдельный режим «thinking».

qwen/qwen3-max

вход ₽136.80

выход ₽684.00

GPT-5 Codex 400K ctx

GPT-5-Codex — специализированная версия GPT-5, оптимизированная для инженерных и программных рабочих процессов. Она подходит как для интерактивной разработки, так и для длительного автономного выполнения сложных задач, включая создание проектов с нуля, разработку функций, отладку, рефакторинг и ревью кода. По сравнению с GPT-5, модель лучше следует инструкциям разработчика, выдаёт более чистый код и поддерживает настройку глубины рассуждений через `reasoning.effort`. Модель интегрируется в IDE, CLI, GitHub и облачные среды разработки, адаптируя усилие рассуждений под масштаб задачи. Она также поддерживает мультимодальные входы и использование инструментов, что делает её подходящей для агентных сценариев программирования.

openai/gpt-5-codex

вход ₽142.50

выход ₽1140.00

DeepSeek V3.1 Terminus 163K ctx

DeepSeek‑V3.1 Terminus — обновление [DeepSeek V3.1](/deepseek/deepseek-chat-v3.1), сохраняющее базовые возможности модели и улучшающее согласованность языка, агентные функции и поведение в задачах программирования и поиска. Это крупная гибридная модель рассуждений с режимами thinking и non‑thinking, расширенная двухфазным обучением на длинном контексте и оптимизированная для более эффективного инференса. Модель улучшает работу с инструментами, генерацию кода и общую эффективность рассуждений, поддерживает structured tool calling, code agents и search agents и хорошо подходит для исследований, программирования и агентных workflow. Управление режимом рассуждений доступно через параметр `reasoning.enabled`.

deepseek/deepseek-v3.1-terminus

вход ₽23.94

выход ₽90.06

Qwen3 Next 80B A3B Instruct 262K ctx

Qwen3-Next-80B-A3B-Instruct — чат‑модель серии Qwen3‑Next, настроенная на инструкции и оптимизированная для быстрых, стабильных ответов без «thinking»‑трейсов. Она нацелена на сложные задачи рассуждений, генерации кода, знаний и многоязычного использования, сохраняя устойчивость в выравнивании и форматировании. По сравнению с предыдущими Qwen3 instruct‑вариантами, модель делает акцент на более высокую пропускную способность и стабильность на ультрадлинных входах и многоходовых диалогах, что делает её хорошо подходящей для RAG, использования инструментов и агентных рабочих процессов, где важны последовательные финальные ответы без видимой цепочки рассуждений. Модель использует масштаб‑эффективное обучение и декодирование для улучшения параметрической эффективности и скорости инференса и проверена на широком наборе публичных бенчмарков, где достигает или приближается к более крупным системам Qwen3 в ряде категорий, превосходя более ранние средние базовые модели. Лучше всего подходит как общий ассистент, помощник по коду и решатель задач на длинном контексте в продакшене, где предпочтительны детерминированные ответы, строго следующие инструкциям.

qwen/qwen3-next-80b-a3b-instruct

вход ₽10.26

выход ₽125.40

Nemotron Nano 9B V2 131K ctx

NVIDIA-Nemotron-Nano-9B-v2 — языковая модель (LLM), обученная с нуля NVIDIA, предназначенная как единая модель для задач с рассуждениями и без них. Она отвечает на запросы, сначала генерируя трассу рассуждений, а затем финальный ответ. Возможности рассуждений можно контролировать через системный промпт. Если пользователь предпочитает ответы без промежуточных рассуждений, модель можно настроить соответствующим образом.

nvidia/nemotron-nano-9b-v2

вход ₽4.56

выход ₽18.24

Kimi K2 Instruct 0905 262K ctx

Kimi K2 Instruct 0905 — сентябрьское обновление Kimi K2, расширяющее контекст до 256K токенов. Улучшает агентное программирование, повышает точность и обобщение по каркасам, а также улучшает фронтенд‑кодинг.

moonshotai/kimi-k2-instruct-0905:free

DeepSeek V3.1 32K ctx

DeepSeek‑V3.1 — крупная гибридная модель рассуждений с режимами thinking и non‑thinking, построенная на базе DeepSeek‑V3 и дообученная для длинного контекста. Она использует FP8‑microscaling для более эффективного инференса, улучшает работу с инструментами и генерацию кода и подходит для сложных агентных сценариев. Модель поддерживает structured tool calling, code agents и search agents, а режим рассуждений можно контролировать через параметр `reasoning.enabled`. Она приходит на смену [DeepSeek V3‑0324](/deepseek/deepseek-chat-v3-0324) и хорошо подходит для исследований, программирования и общего аналитического использования.

deepseek/deepseek-chat-v3.1

вход ₽23.94

выход ₽90.06

GPT-5 — самая продвинутая модель OpenAI, обеспечивающая существенные улучшения в рассуждениях, качестве кода и пользовательском опыте. Она оптимизирована для сложных задач, требующих пошаговых рассуждений, следования инструкциям и высокой точности в критичных сценариях. Поддерживает маршрутизацию на этапе ответа и продвинутое понимание промптов, включая заданный пользователем настрой вроде «думай тщательнее». Улучшения включают снижение галлюцинаций и угодничества, а также более высокую производительность в программировании, письме и задачах, связанных со здравоохранением.

вход ₽142.50

выход ₽1140.00

GPT-5 Mini 400K ctx

GPT-5 Mini — компактная версия GPT-5, предназначенная для более лёгких задач рассуждения. Она обеспечивает те же преимущества в следовании инструкциям и настройках безопасности, что и GPT-5, но с меньшей задержкой и стоимостью. GPT-5 Mini является преемником модели OpenAI o4-mini.

openai/gpt-5-mini

вход ₽28.50

выход ₽228.00

GPT-5 Nano 400K ctx

GPT-5-Nano — самый маленький и быстрый вариант в системе GPT-5, оптимизированный для инструментов разработчика, быстрых взаимодействий и сред с ультранизкой задержкой. Хотя глубина рассуждений ограничена по сравнению с более крупными версиями, модель сохраняет ключевые функции следования инструкциям и безопасности. Она является преемником GPT-4.1-nano и предлагает лёгкий вариант для чувствительных к стоимости или реальному времени приложений.

openai/gpt-5-nano

вход ₽5.70

выход ₽45.60

gpt-oss-120b 131K ctx

gpt-oss-120b — открытая MoE‑языковая модель OpenAI на 117B параметров, предназначенная для задач с высоким уровнем рассуждений, агентных сценариев и общего промышленного использования. Она активирует 5.1B параметров за один проход и оптимизирована для работы на одном GPU H100 с нативной квантизацией MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке мыслей и нативное использование инструментов, включая вызов функций, браузинг и генерацию структурированных выходных данных.

openai/gpt-oss-120b

вход ₽4.45

выход ₽21.66

gpt-oss-120b 131K ctx

gpt-oss-120b — открытая MoE‑языковая модель OpenAI на 117B параметров, предназначенная для задач с высоким уровнем рассуждений, агентных сценариев и общего промышленного использования. Она активирует 5.1B параметров за один проход и оптимизирована для работы на одном GPU H100 с нативной квантизацией MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке мыслей и нативное использование инструментов, включая вызов функций, браузинг и генерацию структурированных выходных данных.

openai/gpt-oss-120b:free

gpt-oss-20b 131K ctx

gpt-oss-20b — открытая модель на 21B параметров, выпущенная OpenAI под лицензией Apache 2.0. Она использует архитектуру Mixture‑of‑Experts (MoE) с 3.6B активных параметров на проход, оптимизирована для инференса с меньшей задержкой и развёртывания на потребительском или одном GPU. Модель обучена в формате ответов OpenAI Harmony и поддерживает настройку уровня рассуждений, fine‑tuning и агентные возможности, включая вызов функций, использование инструментов и структурированные выходы.

openai/gpt-oss-20b:free

gpt-oss-20b 131K ctx

gpt-oss-20b — открытая модель на 21B параметров, выпущенная OpenAI под лицензией Apache 2.0. Она использует архитектуру Mixture‑of‑Experts (MoE) с 3.6B активных параметров на проход, оптимизирована для инференса с меньшей задержкой и развёртывания на потребительском или одном GPU. Модель обучена в формате ответов OpenAI Harmony и поддерживает настройку уровня рассуждений, fine‑tuning и агентные возможности, включая вызов функций, использование инструментов и структурированные выходы.

openai/gpt-oss-20b

вход ₽3.42

выход ₽15.96

Qwen3 235B A22B Thinking 2507 131K ctx

Qwen3-235B-A22B-Thinking-2507 — высокопроизводительная open‑weight MoE‑модель, оптимизированная для сложных задач рассуждений. Она активирует 22B из 235B параметров на проход и нативно поддерживает контекст до 262 144 токенов. Этот вариант «только thinking» усиливает структурированное логическое мышление, математику, науку и длинные генерации, показывая сильные результаты на бенчмарках AIME, SuperGPQA, LiveCodeBench и MMLU‑Redux. Модель принудительно использует специальный режим рассуждений (</think>) и рассчитана на большие объёмы вывода (до 81 920 токенов) в сложных доменах. Модель настроена на инструкции и отлично справляется с пошаговыми рассуждениями, использованием инструментов, агентными рабочими процессами и многоязычными задачами. Этот релиз — наиболее мощный open‑source вариант в серии Qwen3‑235B, превосходящий многие закрытые модели в задачах структурированных рассуждений.

qwen/qwen3-235b-a22b-thinking-2507

вход ₽26.22

выход ₽262.20

Qwen3 Coder 480B A35B 262K ctx

Qwen3-Coder-480B-A35B-Instruct — MoE‑модель генерации кода, разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование инструментов и рассуждения на длинном контексте по репозиториям. Модель содержит 480 млрд параметров, из которых 35 млрд активируются за проход (8 из 160 экспертов). Цены на эндпоинтах Alibaba зависят от длины контекста. Если запрос превышает 128k входных токенов, применяется повышенная тарификация.

qwen/qwen3-coder

вход ₽45.60

выход ₽182.40

Qwen3 235B A22B Instruct 2507 262K ctx

Qwen3-235B-A22B-Instruct-2507 — многоязычная MoE‑модель, настроенная на инструкции, на базе архитектуры Qwen3-235B, с 22B активных параметров на проход. Она оптимизирована для универсальной генерации текста, включая следование инструкциям, логические рассуждения, математику, код и использование инструментов. Модель поддерживает нативный контекст 262K и не реализует «thinking mode» (блоки <think>). По сравнению с базовой версией этот вариант даёт заметные улучшения в покрытии знаний, рассуждениях на длинном контексте, кодинговых бенчмарках и выравнивании под открытые задачи. Она особенно сильна в многоязычном понимании, математических рассуждениях (например, AIME, HMMT) и оценках выравнивания вроде Arena‑Hard и WritingBench.

qwen/qwen3-235b-a22b-2507

вход ₽8.09

выход ₽11.40

Kimi K2 Instruct 131K ctx

Kimi K2 Instruct — крупномасштабная MoE‑модель от Moonshot AI с 1 трлн параметров и 32 млрд активных на проход. Оптимизирована для агентных возможностей: продвинутое использование инструментов, рассуждения и синтез кода. Показывает сильные результаты в кодинге (LiveCodeBench, SWE‑bench), рассуждениях (ZebraLogic, GPQA) и использовании инструментов (Tau2, AceBench). Поддерживает контекст до 128K токенов.

moonshotai/kimi-k2-instruct:free

Mistral Small 3.2 24B 128K ctx

Mistral-Small-3.2-24B-Instruct-2506 — обновлённая 24B‑модель от Mistral, оптимизированная для следования инструкциям, снижения повторов и улучшенного вызова функций. По сравнению с релизом 3.1 версия 3.2 заметно повышает точность на WildBench и Arena Hard, уменьшает бесконечные генерации и улучшает работу с инструментами и задачами структурированных выходов. Поддерживает входы изображение+текст со структурированными выходами, вызов функций/инструментов и сильные результаты в программировании (HumanEval+, MBPP), STEM (MMLU, MATH, GPQA) и vision‑бенчмарках (ChartQA, DocVQA).

mistralai/mistral-small-3.2-24b-instruct

вход ₽8.55

выход ₽22.80

Gemini 2.5 Flash 1M ctx

Gemini 2.5 Flash — универсальная модель Google для задач рассуждений, программирования, математики и науки. Она поддерживает режим thinking, что помогает давать более точные ответы и лучше работать со сложным контекстом. Подходит для широкого круга продакшн‑сценариев, где нужен баланс между скоростью и качеством reasoning.

google/gemini-2.5-flash

вход ₽34.20

выход ₽285.00

Gemini 2.5 Pro 1M ctx

Gemini 2.5 Pro — сильная модель Google для сложных задач рассуждений, программирования, математики и науки. Она использует режим thinking, что помогает выстраивать более точные и последовательные ответы на многошаговые запросы. Подходит для задач, где приоритетны качество reasoning, длинный контекст и надёжная работа со сложными инструкциями.

google/gemini-2.5-pro

вход ₽142.50

выход ₽1140.00

R1 0528 163K ctx

Обновление от 28 мая для [исходной модели DeepSeek R1](/deepseek/deepseek-r1). Производительность на уровне [OpenAI o1](/openai/o1), но с открытым исходным кодом и полностью открытыми токенами рассуждений. Размер — 671B параметров, из них 37B активны за один проход инференса. Полностью open‑source модель.

deepseek/deepseek-r1-0528

вход ₽57.00

выход ₽245.10

Llama Guard 4 12B 163K ctx

Llama Guard 4 — мультимодальная предобученная модель на базе Llama 4 Scout, дообученная для классификации безопасности контента. Как и предыдущие версии, она может использоваться для классификации контента как во входных данных LLM (классификация промптов), так и в ответах LLM (классификация ответов). Она действует как LLM — генерирует текст, указывающий, является ли заданный запрос или ответ безопасным или небезопасным, и если небезопасным, перечисляет нарушенные категории контента. Llama Guard 4 выровнена по стандартизированной таксономии рисков MLCommons и создана для поддержки мультимодальных возможностей Llama 4. В частности, она объединяет возможности предыдущих моделей Llama Guard, обеспечивает модерацию контента на английском и ряде поддерживаемых языков, а также расширенную работу со смешанными запросами «текст+изображение», включая несколько изображений. Кроме того, Llama Guard 4 интегрирована в Llama Moderations API, расширяя надёжную классификацию безопасности для текста и изображений.

meta-llama/llama-guard-4-12b

вход ₽20.52

выход ₽20.52

Qwen3 30B A3B 40K ctx

Qwen3, новое поколение в серии крупных языковых моделей Qwen, сочетает плотные и mixture‑of‑experts (MoE) архитектуры, чтобы превосходно справляться с рассуждениями, многоязычной поддержкой и продвинутыми агентными задачами. Её уникальная способность бесшовно переключаться между режимом thinking для сложных рассуждений и режимом non‑thinking для эффективного диалога обеспечивает универсальную, высококачественную работу. Существенно превосходя предыдущие модели вроде QwQ и Qwen2.5, Qwen3 обеспечивает более сильные результаты в математике, программировании, здравом смысле, творческом письме и интерактивном диалоге. Вариант Qwen3‑30B‑A3B включает 30.5 млрд параметров (3.3 млрд активных), 48 слоёв, 128 экспертов (8 активируются на задачу) и поддерживает контекст до 131K токенов с YaRN, задавая новый стандарт среди open‑source моделей.

qwen/qwen3-30b-a3b

вход ₽9.12

выход ₽31.92

Qwen3 14B 40K ctx

Qwen3‑14B — плотная причинная языковая модель на 14.8B параметров из серии Qwen3, разработанная для сложных рассуждений и эффективного диалога. Она поддерживает бесшовное переключение между режимом «thinking» для задач математики, программирования и логических выводов и режимом «non‑thinking» для общения общего назначения. Модель дообучена на следование инструкциям, использование инструментов агентами, творческое письмо и многоязычные задачи на 100+ языках и диалектах. Она нативно поддерживает контекст до 32K токенов и может расширяться до 131K токенов с помощью YaRN‑масштабирования.

qwen/qwen3-14b

вход ₽13.68

выход ₽27.36

Qwen3 32B 40K ctx

Qwen3‑32B — плотная причинная языковая модель на 32.8B параметров из серии Qwen3, оптимизированная для сложных рассуждений и эффективного диалога. Она поддерживает бесшовное переключение между режимом «thinking» для задач математики, программирования и логических выводов и режимом «non‑thinking» для более быстрого общения общего назначения. Модель демонстрирует высокую производительность в следовании инструкциям, использовании инструментов агентами, творческом письме и многоязычных задачах на 100+ языках и диалектах. Она нативно поддерживает контекст до 32K токенов и может расширяться до 131K токенов с помощью YaRN‑масштабирования.

qwen/qwen3-32b:free

Qwen3 32B 40K ctx

Qwen3‑32B — плотная причинная языковая модель на 32.8B параметров из серии Qwen3, оптимизированная для сложных рассуждений и эффективного диалога. Она поддерживает бесшовное переключение между режимом «thinking» для задач математики, программирования и логических выводов и режимом «non‑thinking» для более быстрого общения общего назначения. Модель демонстрирует высокую производительность в следовании инструкциям, использовании инструментов агентами, творческом письме и многоязычных задачах на 100+ языках и диалектах. Она нативно поддерживает контекст до 32K токенов и может расширяться до 131K токенов с помощью YaRN‑масштабирования.

qwen/qwen3-32b

вход ₽9.12

выход ₽31.92

Llama 4 Scout 327K ctx

Llama 4 Scout 17B Instruct (16E) — языковая модель Mixture‑of‑Experts (MoE), разработанная Meta, активирующая 17 млрд параметров из общего числа 109B. Она поддерживает нативный мультимодальный ввод (текст и изображение) и многоязычные выходы (текст и код) на 12 поддерживаемых языках. Созданная для ассистентных сценариев и визуальных рассуждений, Scout использует 16 экспертов на проход и имеет контекст длиной 10 миллионов токенов, при обучающем корпусе около 40 трлн токенов. Разработанная для высокой эффективности и локального или коммерческого развёртывания, Llama 4 Scout использует раннее слияние модальностей для бесшовной интеграции. Она обучена на инструкции для многоязычного чата, описания и понимания изображений. Выпущена под лицензией Llama 4 Community License, последняя итерация обучения — данные до августа 2024 года, публичный релиз — 5 апреля 2025 года.

meta-llama/llama-4-scout

вход ₽9.12

выход ₽34.20

Llama 4 Scout 327K ctx

Llama 4 Scout 17B Instruct (16E) — языковая модель Mixture‑of‑Experts (MoE), разработанная Meta, активирующая 17 млрд параметров из общего числа 109B. Она поддерживает нативный мультимодальный ввод (текст и изображение) и многоязычные выходы (текст и код) на 12 поддерживаемых языках. Созданная для ассистентных сценариев и визуальных рассуждений, Scout использует 16 экспертов на проход и имеет контекст длиной 10 миллионов токенов, при обучающем корпусе около 40 трлн токенов. Разработанная для высокой эффективности и локального или коммерческого развёртывания, Llama 4 Scout использует раннее слияние модальностей для бесшовной интеграции. Она обучена на инструкции для многоязычного чата, описания и понимания изображений. Выпущена под лицензией Llama 4 Community License, последняя итерация обучения — данные до августа 2024 года, публичный релиз — 5 апреля 2025 года.

meta-llama/llama-4-scout:free

Qwen2.5 VL 32B Instruct 128K ctx

Qwen2.5-VL-32B — мультимодальная vision‑language модель, дообученная с подкреплением для более сильных математических рассуждений, структурированных выходов и визуального решения задач. Она хорошо справляется с визуальным анализом, включая распознавание объектов, интерпретацию текста на изображениях и точную локализацию событий в длинных видео. Модель подходит для мультимодальной аналитики, OCR‑сценариев, задач математики и генерации кода.

qwen/qwen2.5-vl-32b-instruct

вход ₽22.80

выход ₽68.40

DeepSeek V3 0324 163K ctx

DeepSeek V3 — крупная MoE‑модель на 685 млрд параметров, продолжающая основную чат‑линейку DeepSeek. Она хорошо справляется с широким спектром задач, включая общий диалог, программирование и аналитическую работу, и подходит как универсальная модель общего назначения.

deepseek/deepseek-chat-v3-0324

вход ₽22.80

выход ₽87.78

Gemma 3 4B 131K ctx

Gemma 3 вводит мультимодальность, поддерживая входы «изображение+текст» и текстовые выходы. Она обрабатывает контекст до 128k токенов, понимает более 140 языков и предлагает улучшенные возможности в математике, рассуждениях и чате, включая структурированные выходы и вызов функций.

google/gemma-3-4b-it

вход ₽4.56

выход ₽9.12

Gemma 3 12B 131K ctx

Gemma 3 вводит мультимодальность, поддерживая входы «изображение+текст» и текстовые выходы. Она обрабатывает контекст до 128k токенов, понимает более 140 языков и предлагает улучшенные возможности в математике, рассуждениях и чате, включая структурированные выходы и вызов функций. Gemma 3 12B — вторая по размеру в семействе Gemma 3 после [Gemma 3 27B](google/gemma-3-27b-it)

google/gemma-3-12b-it

вход ₽4.56

выход ₽14.82

Gemma 3 27B 131K ctx

Gemma 3 вводит мультимодальность, поддерживая входы «изображение+текст» и текстовые выходы. Она обрабатывает контекст до 128k токенов, понимает более 140 языков и предлагает улучшенные возможности в математике, рассуждениях и чате, включая структурированные выходы и вызов функций. Gemma 3 27B — новейшая open‑source модель Google, преемница [Gemma 2](google/gemma-2-27b-it)

google/gemma-3-27b-it

вход ₽9.12

выход ₽18.24

Claude 3.7 Sonnet 200K ctx

Claude 3.7 Sonnet — продвинутая языковая модель Anthropic с улучшенными возможностями рассуждения, программирования и решения сложных задач. Она поддерживает гибридный режим reasoning, позволяющий выбирать между быстрыми ответами и более глубоким пошаговым разбором для трудных запросов. Модель показывает сильные результаты в агентных workflow, фронтенд-разработке и многошаговых задачах, где важны качество инструкционного следования и устойчивость поведения.

anthropic/claude-3.7-sonnet

вход ₽376.20

выход ₽1881.00

o3-mini 200K ctx

OpenAI o3-mini — экономичная языковая модель, оптимизированная для задач рассуждений в STEM, особенно сильная в науке, математике и программировании. Эта модель поддерживает параметр `reasoning_effort`, который можно установить в значения "high", "medium" или "low" для управления временем на рассуждения. Значение по умолчанию — "medium". OpenRouter также предлагает слаг модели `openai/o3-mini-high`, чтобы по умолчанию использовать параметр "high". Модель имеет три регулируемых уровня усилия рассуждений и поддерживает ключевые возможности для разработчиков, включая вызов функций, структурированные выходные данные и стриминг, но не поддерживает обработку изображений. Модель демонстрирует значительные улучшения по сравнению с предшественником: эксперты предпочитали её ответы в 56% случаев и отмечали снижение серьёзных ошибок на сложных вопросах на 39%. При среднем уровне усилия рассуждений o3-mini соответствует производительности более крупной модели o1 на сложных оценках рассуждений, таких как AIME и GPQA, сохраняя меньшую задержку и стоимость.

openai/o3-mini

вход ₽125.40

выход ₽501.60

Mistral Small 3 32K ctx

Mistral Small 3 — языковая модель на 24 млрд параметров, оптимизированная для низкой задержки в типичных AI‑задачах. Она выпущена под лицензией Apache 2.0 и подходит для эффективного локального развёртывания. Это хороший вариант, когда нужен баланс между качеством модели среднего класса и высокой скоростью работы.

mistralai/mistral-small-24b-instruct-2501

вход ₽5.70

выход ₽9.12

DeepSeek R1 Distill Llama 70B 131K ctx

DeepSeek R1 Distill Llama 70B — дистиллированная языковая модель на базе [Llama‑3.3‑70B‑Instruct](/meta-llama/llama-3.3-70b-instruct), использующая выходы [DeepSeek R1](/deepseek/deepseek-r1). Она переносит сильные reasoning‑способности DeepSeek R1 в более компактный форм‑фактор и хорошо подходит для задач математики, программирования и аналитики. Это практичный вариант, когда нужен баланс между качеством рассуждений и вычислительной стоимостью.

deepseek/deepseek-r1-distill-llama-70b

вход ₽79.80

выход ₽91.20

Phi-4 — модель Microsoft Research, разработанная для эффективной работы в сложных задачах рассуждения и сценариях с ограниченной памятью или требованиями к быстрой отдаче. При размере 14 млрд параметров она обучена на смеси синтетических датасетов, отобранных веб‑данных и академических материалов и хорошо подходит для точного следования инструкциям. Лучше всего работает с английским языком.

microsoft/phi-4

вход ₽7.98

выход ₽15.96

DeepSeek V3 163K ctx

DeepSeek‑V3 — новейшая модель команды DeepSeek, развивающая способности следования инструкциям и программирования по сравнению с предыдущими версиями. Предобученная почти на 15 трлн токенов, по опубликованным оценкам она превосходит другие open‑source модели и соперничает с ведущими закрытыми моделями. Подробности о модели см. в [репозитории DeepSeek‑V3](https://github.com/deepseek-ai/DeepSeek-V3) или в [анонсе запуска](https://api-docs.deepseek.com/news/news1226).

deepseek/deepseek-chat

вход ₽36.48

выход ₽101.46

Llama 3.3 Euryale 70B 131K ctx

Euryale L3.3 70B — модель, ориентированная на креативный ролевой отыгрыш, от [Sao10k](https://ko-fi.com/sao10k). Это преемник [Euryale L3 70B v2.2](/models/sao10k/l3-euryale-70b).

sao10k/l3.3-euryale-70b

вход ₽96.90

выход ₽96.90

Llama 3.3 70B Versatile 131K ctx

Llama 3.3 70B Instruct — мультиязычная instruction‑модель Meta на 70B параметров, оптимизированная для диалога. Поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Превосходит многие открытые и закрытые чат‑модели на стандартных бенчмарках.

meta-llama/llama-3.3-70b-versatile:free

Llama 3.1 Nemotron 70B Instruct 131K ctx

NVIDIA Llama 3.1 Nemotron 70B — языковая модель на базе [Llama 3.1 70B](/models/meta-llama/llama-3.1-70b-instruct), дообученная с использованием RLHF для генерации более точных и полезных ответов. Она хорошо подходит для приложений, где важны качество диалога, следование инструкциям и общая полезность ответов в разных доменах. Это универсальная модель для ассистентных и аналитических сценариев.

nvidia/llama-3.1-nemotron-70b-instruct

вход ₽136.80

выход ₽136.80

Llama 3.2 11B Vision Instruct 131K ctx

Llama 3.2 11B Vision — мультимодальная модель на 11 млрд параметров для задач, сочетающих визуальные и текстовые данные. Она хорошо подходит для описания изображений, visual Q&A и других сценариев, где требуется объединить генерацию языка с визуальными рассуждениями. Модель обучена на большом наборе пар «изображение‑текст» и подходит для анализа изображений, создания контента, клиентских ассистентов и исследовательских задач.

meta-llama/llama-3.2-11b-vision-instruct

вход ₽5.59

выход ₽5.59

Qwen2.5 72B Instruct 32K ctx

Qwen2.5 72B Instruct — крупная языковая модель серии Qwen2.5 с заметными улучшениями в знаниях, программировании, математике и следовании инструкциям по сравнению с Qwen2. Она хорошо работает с длинными текстами, таблицами, структурированными данными и JSON‑выходами и поддерживает контекст до 128K токенов. Модель также ориентирована на многоязычное использование и подходит для чата, аналитики, кода и задач со сложными системными промптами.

qwen/qwen-2.5-72b-instruct

вход ₽13.68

выход ₽44.46

Llama 3.1 Euryale 70B v2.2 131K ctx

Euryale L3.1 70B v2.2 — модель, ориентированная на креативный ролевой отыгрыш, от [Sao10k](https://ko-fi.com/sao10k). Это преемник [Euryale L3 70B v2.1](/models/sao10k/l3-euryale-70b).

sao10k/l3.1-euryale-70b

вход ₽96.90

выход ₽96.90

Hermes 3 70B Instruct 131K ctx

Hermes 3 — универсальная языковая модель со множеством улучшений по сравнению с [Hermes 2](/models/nousresearch/nous-hermes-2-mistral-7b-dpo), включая продвинутые агентные возможности, значительно улучшенный ролевой диалог, рассуждения, многоходовые беседы, устойчивость на длинном контексте и улучшения по всем направлениям. Hermes 3 70B — конкурентный, а иногда и превосходящий, finetune базовой модели [Llama-3.1 70B](/models/meta-llama/llama-3.1-70b-instruct), ориентированный на выравнивание LLM под пользователя, с мощными возможностями управления и контролем, переданными пользователю. Серия Hermes 3 развивает набор возможностей Hermes 2, включая более мощные и надёжные вызовы функций и структурированные выходы, универсальные функции ассистента и улучшенные навыки генерации кода.

nousresearch/hermes-3-llama-3.1-70b

вход ₽34.20

выход ₽34.20

Hermes 3 405B Instruct 131K ctx

Hermes 3 — универсальная языковая модель со множеством улучшений по сравнению с Hermes 2, включая продвинутые агентные возможности, значительно улучшенный ролевой диалог, рассуждения, многоходовые беседы, устойчивость на длинном контексте и улучшения по всем направлениям. Hermes 3 405B — полноразмерный fine-tune базовой модели Llama‑3.1 405B, ориентированный на более точное выравнивание поведения модели под пользователя и расширенный контроль над ответами. Серия Hermes 3 развивает набор возможностей Hermes 2, включая более мощные и надёжные вызовы функций и структурированные выходы, универсальные функции ассистента и улучшенные навыки генерации кода. Hermes 3 конкурентоспособна, а иногда и превосходит, модели Llama‑3.1 Instruct по общим возможностям, при этом сильные и слабые стороны различаются между двумя линиями.

nousresearch/hermes-3-llama-3.1-405b

вход ₽114.00

выход ₽114.00

Llama 3.1 70B Instruct 131K ctx

Llama 3.1 70B Instruct — крупная instruction‑модель семейства Llama 3.1, ориентированная на качественный диалог и универсальные текстовые задачи. Она подходит для ассистентов, аналитических сценариев и генерации текста, где требуется более высокий уровень качества по сравнению с компактными версиями. Хороший выбор для продакшн‑систем общего назначения.

meta-llama/llama-3.1-70b-instruct

вход ₽45.60

выход ₽45.60

Llama 3.1 8B 16K ctx

Llama 3.1 8B Instruct — быстрая и эффективная instruction‑модель семейства Llama 3.1. Она хорошо подходит для лёгких чат‑сценариев, повседневной генерации текста и приложений, чувствительных к задержке. Это практичный вариант, когда важны скорость и умеренная стоимость.

meta-llama/llama-3.1-8b-instruct

вход ₽2.28

выход ₽5.70

Llama 3.1 8B 16K ctx

Llama 3.1 8B Instruct — быстрая и эффективная instruction‑модель семейства Llama 3.1. Она хорошо подходит для лёгких чат‑сценариев, повседневной генерации текста и приложений, чувствительных к задержке. Это практичный вариант, когда важны скорость и умеренная стоимость.

meta-llama/llama-3.1-8b-instruct:free

Llama 3.1 8B Instant 131K ctx

Llama 3.1 8B Instruct — быстрая и эффективная instruction‑модель Meta из семейства Llama 3.1 на 8B параметров. Показывает сильные результаты по сравнению с ведущими закрытыми моделями в пользовательских оценках.

meta-llama/llama-3.1-8b-instant:free

Mistral Nemo 131K ctx

Модель на 12B параметров с контекстом 128k токенов, созданная Mistral в сотрудничестве с NVIDIA. Модель многоязычная: поддерживает английский, французский, немецкий, испанский, итальянский, португальский, китайский, японский, корейский, арабский и хинди. Поддерживает вызов функций и распространяется по лицензии Apache 2.0.

mistralai/mistral-nemo

вход ₽2.28

выход ₽4.56

Llama 3 8B Instruct 8K ctx

Llama 3 8B Instruct — компактная instruction‑модель семейства Llama 3, оптимизированная для качественных диалоговых сценариев. Она хорошо подходит для чат‑приложений и общих текстовых задач, где важны скорость, управляемость и разумная стоимость. Это практичный вариант для лёгких ассистентных сценариев.

meta-llama/llama-3-8b-instruct

вход ₽3.42

выход ₽4.56

Mixtral 8x7B Instruct 32K ctx

Mixtral 8x7B Instruct — instruction‑модель Mistral на архитектуре Sparse Mixture of Experts, предназначенная для чата и задач следования инструкциям. Она включает 8 экспертов при общем числе 47 млрд параметров и сочетает хорошее качество с эффективным использованием вычислений. Подходит для общих текстовых задач и ассистентных сценариев.

mistralai/mixtral-8x7b-instruct

вход ₽61.56

выход ₽61.56

MythoMax 13B 4K ctx

MythoMax 13B — популярный fine‑tune на базе Llama 2 13B, ориентированный на выразительный диалог, ролевое взаимодействие и креативную генерацию текста. Подходит для conversational и roleplay‑сценариев, где важны стиль, вариативность и богатая подача.

gryphe/mythomax-l2-13b

вход ₽45.60

выход ₽45.60

ALLaM 2 7B 8K ctx

ALLaM 2 7B — языковая модель от Saudi Data and AI Authority (SDAIA), оптимизированная для арабского и английского языков.

allam/allam-2-7b:free

DeepSeek-OCR 8K ctx

DeepSeek-OCR — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Контекст до 8192 токенов.

deepseek-ai/DeepSeek-OCR

вход ₽3.42

выход ₽11.40

DeepSeek-R1-0528-Turbo 32K ctx

DeepSeek-R1-0528-Turbo — модель для генерации текста и решения прикладных задач. Ориентирована на рассуждения и сложные задачи. Контекст до 32768 токенов.

deepseek-ai/DeepSeek-R1-0528-Turbo

вход ₽114.00

выход ₽342.00

Gemma 4 26B A4B Instruct 262K ctx

Gemma 4 26B A4B Instruct — эффективная mixture-of-experts модель семейства Gemma 4 от Google DeepMind. Она является мультимодальной, поддерживает текстовый и визуальный ввод и генерирует текстовый вывод. Подходит для сценариев, где нужен баланс между возможностями семейства Gemma 4 и более экономичным инференсом.

google/gemma-4-26b-a4b-it

вход ₽9.12

выход ₽39.90

Gemma 4 31B Instruct 262K ctx

Gemma 4 31B Instruct — мультимодальная модель семейства Gemma 4 от Google DeepMind, поддерживающая текстовый и визуальный ввод с генерацией текстового вывода. Подходит для задач, где нужны сильные multimodal-возможности Gemma 4 на большем масштабе по сравнению с более компактными вариантами линейки.

google/gemma-4-31b-it

вход ₽14.82

выход ₽43.32

L3-8B-Lunaris-v1-Turbo 8K ctx

L3-8B-Lunaris-v1-Turbo — языковая модель семейства Lunaris, доступная через DeepInfra. Подходит для общих текстовых сценариев и креативного взаимодействия в более лёгком и недорогом классе моделей. Может использоваться как компактный вариант для чата, roleplay‑сценариев и повседневных задач генерации текста.

Sao10K/L3-8B-Lunaris-v1-Turbo

вход ₽4.56

выход ₽5.70

Llama Prompt Guard 2 22M 8K ctx

Llama Prompt Guard 2 22M — лёгкий классификатор от Meta на 22M параметров для обнаружения prompt‑инъекций и jailbreak‑атак.

meta-llama/llama-prompt-guard-2-22m:free

Llama Prompt Guard 2 86M 8K ctx

Llama Prompt Guard 2 86M — классификатор от Meta на 86M параметров для обнаружения prompt‑инъекций и jailbreak‑атак. Увеличенная версия Prompt Guard 2 с повышенной точностью.

meta-llama/llama-prompt-guard-2-86m:free

Llama-3.3-70B-Instruct-Turbo 131K ctx

Llama 3.3-70B Instruct Turbo — ускоренная версия Llama 3.3-70B с FP8‑квантизацией, оптимизированная для более быстрого инференса при небольшом компромиссе по точности. Модель ориентирована на полезные, безопасные и гибкие ответы и подходит для диалоговых сценариев, генерации текста и перевода. Это хороший вариант, когда нужен баланс между качеством 70B‑класса и более высокой пропускной способностью.

meta-llama/Llama-3.3-70B-Instruct-Turbo

вход ₽11.40

выход ₽36.48

Llama-4-Maverick-17B-128E-Instruct-FP8 1M ctx

Llama 4 Maverick — нативно мультимодальная модель семейства Llama 4, построенная на архитектуре Mixture‑of‑Experts и предназначенная для работы с текстом и изображениями в одном workflow. Вариант Maverick использует 17 млрд активных параметров и 128 экспертов, сочетая сильное понимание текста и визуального контента с высокой пропускной способностью. Подходит для мультимодальных ассистентов, визуального анализа и задач, где важны длинный контекст и универсальность.

meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8

вход ₽17.10

выход ₽68.40

Meta-Llama-3.1-70B-Instruct-Turbo 131K ctx

Meta-Llama-3.1-70B-Instruct-Turbo — ускоренная версия instruction‑модели семейства Llama 3.1 на 70B параметров. Она предназначена для диалоговых и общих текстовых задач, где нужен баланс между качеством крупной модели и более высокой скоростью инференса. Подходит для продакшн‑ассистентов и сервисов с высокой нагрузкой.

meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo

вход ₽45.60

выход ₽45.60

Meta-Llama-3.1-8B-Instruct-Turbo 131K ctx

Meta-Llama-3.1-8B-Instruct-Turbo — ускоренная версия instruction‑модели семейства Llama 3.1 на 8B параметров. Подходит для чата, базовой генерации текста и других сценариев, где особенно важны скорость и невысокая стоимость запуска. Хороший выбор для лёгких продакшн‑нагрузок.

meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo

вход ₽2.28

выход ₽3.42

NVIDIA-Nemotron-3-Super-120B-A12B 262K ctx

NVIDIA Nemotron 3 Super — открытая гибридная MoE‑модель, оптимизированная под высокую вычислительную эффективность и точность в многоагентных приложениях и специализированных agentic‑системах. Она рассчитана на запуск большого числа взаимодействующих агентов в рамках одного приложения, в том числе на одном GPU, сохраняя сильные результаты в reasoning, использовании инструментов и следовании инструкциям. Подходит для сложных агентных workflow, где важны throughput, длинный контекст и гибкость развёртывания.

nvidia/NVIDIA-Nemotron-3-Super-120B-A12B

вход ₽11.40

выход ₽57.00

NVIDIA-Nemotron-Nano-12B-v2-VL 131K ctx

NVIDIA Nemotron Nano 12B v2 VL — мультимодальная vision‑language модель семейства Nemotron, ориентированная на document intelligence, video understanding и визуальные reasoning‑задачи. Она поддерживает анализ нескольких изображений, visual Q&A, обработку документов и суммаризацию и хорошо подходит для корпоративных AI‑workflow. Модель можно использовать в визуальных copilot‑системах, document assistants и пайплайнах автоматизации знаний.

nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL

вход ₽22.80

выход ₽68.40

PaddleOCR-VL-0.9B 16K ctx

PaddleOCR-VL-0.9B — ресурсно‑эффективная vision‑language модель, разработанная для разбора документов и точного распознавания элементов страницы. Она сочетает визуальный энкодер с динамическим разрешением в стиле NaViT и языковую модель ERNIE-4.5-0.3B, что позволяет уверенно извлекать текст, таблицы, формулы и графики. Модель поддерживает 109 языков, показывает сильные результаты в document parsing и element recognition и хорошо подходит для практического OCR и document AI.

PaddlePaddle/PaddleOCR-VL-0.9B

вход ₽15.96

выход ₽91.20

Qwen3-Coder-480B-A35B-Instruct-Turbo 262K ctx

Qwen3-Coder-480B-A35B-Instruct-Turbo — одна из самых сильных agentic‑моделей Qwen для программирования, ориентированная на Agentic Coding, Browser Use и другие базовые инженерные задачи. Она подходит для workflow с вызовом инструментов, навигацией по репозиториям и длинным контекстом и показывает производительность, сопоставимую с сильными моделями класса Claude Sonnet. Это хороший вариант для сложных кодинговых агентов и полуавтономной разработки.

Qwen/Qwen3-Coder-480B-A35B-Instruct-Turbo

вход ₽25.08

выход ₽114.00

Seed-1.8 256K ctx

Seed-1.8 — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Ориентирована на рассуждения и сложные задачи. Поддерживает кэширование промптов. Контекст до 256000 токенов.

ByteDance/Seed-1.8

вход ₽28.50

выход ₽228.00

Seed-2.0-mini 256K ctx

Seed-2.0-mini — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Ориентирована на рассуждения и сложные задачи. Поддерживает кэширование промптов. Контекст до 256000 токенов.

ByteDance/Seed-2.0-mini

вход ₽11.40

выход ₽45.60

claude-4-opus 200K ctx

claude-4-opus — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Поддерживает управление глубиной рассуждений. Контекст до 200000 токенов.

anthropic/claude-4-opus

вход ₽1881.00

выход ₽9405.00

claude-4-sonnet 200K ctx

claude-4-sonnet — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Поддерживает управление глубиной рассуждений. Контекст до 200000 токенов.

anthropic/claude-4-sonnet

вход ₽376.20

выход ₽1881.00

gpt-oss-120b-Turbo 131K ctx

gpt-oss-120b-Turbo — вариант open‑source модели OpenAI `gpt-oss-120b`, доступный через DeepInfra. Подходит для задач рассуждений, агентных сценариев и общего промышленного использования, когда нужна совместимость с экосистемой `gpt-oss` через стороннего провайдера. Это практичный способ использовать модель в продакшене без прямого хостинга.

openai/gpt-oss-120b-Turbo

вход ₽17.10

выход ₽68.40

olmOCR-2-7B-1025 16K ctx

olmOCR-2-7B-1025 — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Контекст до 16384 токенов.

allenai/olmOCR-2-7B-1025

вход ₽10.26

выход ₽21.66