Каталог моделей: OpenAI, Anthropic, Google, DeepSeek, Meta, Qwen, Mistral, MoonShot AI, Nvidia, Microsoft, MiniMax

Каталог моделей
Сравнить модели
GPT-5.4 Nano 400K ctx
openai
GPT-5.4 Nano — самый лёгкий и экономичный вариант в семействе GPT-5.4, оптимизированный для скорость-критичных и высоконагруженных задач. Поддерживает текстовый и визуальный ввод и предназначен для сценариев с низкой задержкой: классификация, извлечение данных, ранжирование и выполнение подагентов. Модель ставит отзывчивость и эффективность выше глубокого рассуждения, что делает её идеальной для пайплайнов, требующих быстрых и надёжных результатов в масштабе. GPT-5.4 Nano хорошо подходит для фоновых задач, систем реального времени и распределённых агентных архитектур, где критично минимизировать стоимость и задержку.
openai/gpt-5.4-nano
вход ₽22.80
выход ₽142.50
GPT-5.4 Mini 400K ctx
openai
GPT-5.4 Mini — быстрая и эффективная версия GPT-5.4, оптимизированная для высоконагруженных сценариев. Поддерживает текстовый и визуальный ввод с сильными результатами в рассуждениях, программировании и вызове инструментов при сниженной задержке и стоимости для масштабных развёртываний. Модель спроектирована для продакшн-сред, требующих баланса между возможностями и эффективностью: чат-приложения, ассистенты для программирования и агентные рабочие процессы. GPT-5.4 Mini обеспечивает надёжное следование инструкциям, уверенные многошаговые рассуждения и стабильную работу на разнообразных задачах с улучшенной стоимостной эффективностью.
openai/gpt-5.4-mini
вход ₽85.50
выход ₽513.00
GPT-5.4 1M ctx
openai
GPT-5.4 — новейшая фронтирная модель OpenAI, объединяющая линейки Codex и GPT в единую систему. Модель поддерживает контекстное окно более 1M токенов (922K вход, 128K выход) с текстовым и визуальным вводом, что позволяет выполнять рассуждения на длинном контексте, программирование и мультимодальный анализ в рамках одного рабочего процесса. Модель демонстрирует улучшенные результаты в программировании, анализе документов, вызове инструментов и следовании инструкциям. Она спроектирована как сильный универсальный выбор для общих задач и разработки ПО, способна генерировать код продакшн-качества, синтезировать информацию из множества источников и выполнять сложные многошаговые рабочие процессы с меньшим числом итераций и большей токен-эффективностью.
openai/gpt-5.4
вход ₽285.00
выход ₽1710.00
Qwen3.5-122B-A10B 262K ctx
qwen
Нативная vision‑language модель Qwen3.5 122B‑A10B построена на гибридной архитектуре, объединяющей линейное внимание с разреженной MoE‑моделью, что обеспечивает более высокую эффективность инференса. По общей производительности эта модель уступает только Qwen3.5‑397B‑A17B. Её текстовые возможности существенно превосходят Qwen3‑235B‑2507, а визуальные — превосходят Qwen3‑VL‑235B.
qwen/qwen3.5-122b-a10b
вход ₽33.06
выход ₽330.60
GPT-5.3 Codex 400K ctx
openai
GPT-5.3-Codex — продвинутая агентная модель OpenAI для программирования, сочетающая сильные инженерные возможности семейства Codex с более широкими рассуждениями и профессиональными знаниями GPT-5.2. Она хорошо подходит для сложной разработки, отладки, деплоя и длительных workflow с инструментами, включая работу в терминале и многоязычное программирование. Помимо кодинга, модель уверенно справляется со структурированными задачами вроде подготовки документов, анализа таблиц и операционных исследований. По сравнению с предыдущими моделями Codex она более токен‑эффективна, быстрее в работе и лучше подходит для профессиональных end‑to‑end сценариев.
openai/gpt-5.3-codex
вход ₽199.50
выход ₽1596.00
MiniMax M2.5 196K ctx
minimax
MiniMax-M2.5 — языковая модель, ориентированная на реальные продуктивные сценарии. Она развивает кодинговые возможности M2.1 и расширяет их на офисные задачи, включая генерацию и использование файлов Word, Excel и PowerPoint, переключение между программными средами и совместную работу людей и агентов. Модель хорошо подходит для программирования, анализа документов и многошаговых прикладных workflow, где важны качество, скорость и токен‑эффективность.
minimax/minimax-m2.5
вход ₽3.42
выход ₽13.68
GLM 5 80K ctx
z-ai
GLM-5 — крупная open‑source модель Z.ai, разработанная для проектирования сложных систем и агентных workflow на длинном горизонте. Она ориентирована на крупномасштабные задачи программирования, агентное планирование, глубокие backend‑рассуждения и итеративную самокоррекцию. Подходит для опытных разработчиков и систем, где модель должна не только генерировать код, но и помогать строить целостные решения.
z-ai/glm-5
вход ₽91.20
выход ₽291.84
Qwen3 Max Thinking 262K ctx
qwen
Qwen3‑Max‑Thinking — крупная модель рассуждений серии Qwen3, предназначенная для сложных задач, требующих глубоких многошаговых выводов. Она делает акцент на фактической точности, следовании инструкциям, устойчивом агентном поведении и работе с задачами повышенной сложности. Подходит для аналитических сценариев, где качество reasoning важнее минимальной задержки.
qwen/qwen3-max-thinking
вход ₽136.80
выход ₽684.00
Kimi K2.5 262K ctx
moonshotai
Kimi K2.5 — нативная мультимодальная модель Moonshot AI, ориентированная на визуальное программирование, общие рассуждения и агентное использование инструментов. Она построена на базе Kimi K2 и дополнительно обучена на большом объёме смешанных визуальных и текстовых данных. Подходит для сценариев, где нужно сочетать текстовые, визуальные и агентные возможности в одном workflow.
moonshotai/kimi-k2.5
вход ₽51.30
выход ₽256.50
GLM 4.7 Flash 202K ctx
z-ai
GLM-4.7-Flash — быстрая модель класса 30B, ориентированная на баланс производительности и эффективности. Она оптимизирована для агентного программирования, планирования задач на длинном горизонте и совместной работы с инструментами. Подходит для сценариев, где нужен хороший уровень кодинговых возможностей при более низкой задержке.
z-ai/glm-4.7-flash
вход ₽6.84
выход ₽45.60
GPT-5.2 Codex 400K ctx
openai
GPT-5.2-Codex — улучшенная версия GPT-5.1-Codex, оптимизированная для инженерных и программных рабочих процессов. Она подходит как для интерактивной разработки, так и для длительного автономного выполнения сложных задач, включая создание проектов с нуля, разработку функций, отладку, рефакторинг и ревью кода. По сравнению с GPT-5.1-Codex, модель лучше следует инструкциям, выдаёт более чистый код и поддерживает настройку глубины рассуждений через `reasoning.effort`. Модель интегрируется в IDE, CLI, GitHub и облачные среды разработки, адаптируя усилие рассуждений под масштаб задачи. Она также поддерживает мультимодальные входы и использование инструментов, что делает её подходящей для агентных сценариев программирования.
openai/gpt-5.2-codex
вход ₽199.50
выход ₽1596.00
Olmo 3.1 32B Instruct 65K ctx
allenai
Olmo 3.1 32B Instruct — крупная языковая модель на 32 млрд параметров, настроенная под инструкции и ориентированная на высокопроизводительный разговорный ИИ, многоходовые диалоги и практическое следование инструкциям. Как часть семейства Olmo 3.1, эта версия делает упор на отзывчивость к сложным пользовательским указаниям и устойчивые чат‑взаимодействия, сохраняя сильные возможности в бенчмарках рассуждений и программирования. Разработанная Ai2 под лицензией Apache 2.0, Olmo 3.1 32B Instruct отражает приверженность инициативы Olmo открытости и прозрачности.
allenai/olmo-3.1-32b-instruct
вход ₽22.80
выход ₽68.40
MiniMax M2.1 196K ctx
minimax
MiniMax-M2.1 — лёгкая языковая модель, оптимизированная для программирования, агентных workflow и современной разработки приложений. При небольшом числе активных параметров она сохраняет низкую задержку, хорошую масштабируемость и высокую эффективность по стоимости. Подходит для IDE, кодинговых инструментов и ассистентов общего назначения, где важны быстрые и чистые ответы.
minimax/minimax-m2.1
вход ₽30.78
выход ₽108.30
GLM 4.7 202K ctx
z-ai
GLM-4.7 — крупная модель Z.ai с улучшенными возможностями программирования и более стабильными многошаговыми рассуждениями. Она хорошо подходит для сложных агентных задач, естественного диалога и сценариев, где важны качество кода и аккуратная генерация интерфейсов.
z-ai/glm-4.7
вход ₽45.60
выход ₽199.50
Nemotron 3 Nano 30B A3B 262K ctx
nvidia
NVIDIA Nemotron 3 Nano 30B A3B — небольшая MoE‑языковая модель с максимальной вычислительной эффективностью и точностью для разработчиков, создающих специализированные агентные ИИ‑системы. Модель полностью открыта: веса, датасеты и рецепты доступны, поэтому разработчики могут легко настраивать, оптимизировать и развёртывать её на своей инфраструктуре для максимальной приватности и безопасности.
nvidia/nemotron-3-nano-30b-a3b
вход ₽5.70
выход ₽22.80
GPT-5.2 400K ctx
openai
GPT-5.2 — новейшая фронтирная модель в серии GPT-5, обеспечивающая более сильные агентные возможности и лучшую работу на длинном контексте по сравнению с GPT-5.1. Она использует адаптивные рассуждения для динамического распределения вычислений, быстро отвечая на простые запросы и углубляясь в сложные задачи. Созданная для широкого спектра задач, GPT-5.2 демонстрирует стабильный прирост в математике, программировании, научных задачах и вызове инструментов, предлагая более связные развёрнутые ответы и повышенную надёжность при использовании инструментов.
openai/gpt-5.2
вход ₽199.50
выход ₽1596.00
GLM 4.6V 131K ctx
z-ai
GLM-4.6V — крупная мультимодальная модель, предназначенная для высокоточной визуальной интерпретации и рассуждений на длинном контексте по изображениям, документам и смешанным медиа. Она поддерживает до 128K токенов, обрабатывает сложные макеты страниц и графики напрямую как визуальные входы и интегрирует нативный мультимодальный вызов функций, связывая восприятие с выполнением инструментов. Модель также поддерживает чередуемую генерацию изображений и текста и рабочие процессы реконструкции UI, включая преобразование скриншотов в HTML и итеративное визуальное редактирование.
z-ai/glm-4.6v
вход ₽34.20
выход ₽102.60
GPT-5.1 Codex Max 400K ctx
openai
GPT-5.1-Codex-Max — новейшая агентная модель OpenAI для программирования, предназначенная для длительных, высококонтекстных задач разработки ПО. Она основана на обновлённой версии стека рассуждений 5.1 и обучена на агентных рабочих процессах в программной инженерии, математике и исследованиях. GPT-5.1-Codex-Max обеспечивает более высокую скорость, улучшенные рассуждения и более эффективное использование токенов на протяжении всего цикла разработки.
openai/gpt-5.1-codex-max
вход ₽142.50
выход ₽1140.00
DeepSeek V3.2 163K ctx
deepseek
DeepSeek‑V3.2 — большая языковая модель, сочетающая высокую вычислительную эффективность с сильными рассуждениями и агентным использованием инструментов. Она использует DeepSeek Sparse Attention (DSA), чтобы снижать стоимость обучения и инференса без заметной потери качества на длинном контексте, а масштабируемое постобучение с подкреплением дополнительно усиливает reasoning‑возможности. Модель хорошо подходит для сложных сценариев с кодом, поиском и использованием инструментов, а режим рассуждений можно включать и выключать через параметр `reasoning.enabled`.
deepseek/deepseek-v3.2
вход ₽29.64
выход ₽43.32
GPT-5.1 400K ctx
openai
GPT-5.1 — новейшая фронтирная модель серии GPT-5, обеспечивающая более сильные универсальные рассуждения, улучшенное следование инструкциям и более естественный разговорный стиль по сравнению с GPT-5. Она использует адаптивные рассуждения для динамического распределения вычислений, быстро отвечая на простые запросы и углубляясь в сложные задачи. Модель выдаёт более ясные и обоснованные объяснения с меньшим количеством жаргона, что облегчает восприятие даже в технических или многошаговых задачах. Созданная для широкого спектра задач, GPT-5.1 демонстрирует стабильный прирост в математике, программировании и задачах структурированного анализа, с более связными развёрнутыми ответами и улучшенной надёжностью использования инструментов. Также улучшена разговорная выравненность, что обеспечивает более тёплые и интуитивные ответы без ущерба точности. GPT-5.1 служит основным полнофункциональным преемником GPT-5
openai/gpt-5.1
вход ₽142.50
выход ₽1140.00
GPT-5.1 Codex 400K ctx
openai
GPT-5.1-Codex — специализированная версия GPT-5.1, оптимизированная для инженерных и программных рабочих процессов. Она подходит как для интерактивной разработки, так и для длительного автономного выполнения сложных задач, включая создание проектов с нуля, разработку функций, отладку, рефакторинг и ревью кода. По сравнению с GPT-5.1, модель лучше следует инструкциям разработчика, выдаёт более чистый код и поддерживает настройку глубины рассуждений через `reasoning.effort`. Модель интегрируется в IDE, CLI, GitHub и облачные среды разработки, адаптируя усилие рассуждений под масштаб задачи. Она также поддерживает мультимодальные входы и использование инструментов, что делает её подходящей для агентных сценариев программирования.
openai/gpt-5.1-codex
вход ₽142.50
выход ₽1140.00
GPT-5.1 Codex Mini 400K ctx
openai
GPT-5.1-Codex-Mini — меньшая и более быстрая версия GPT-5.1-Codex.
openai/gpt-5.1-codex-mini
вход ₽28.50
выход ₽228.00
gpt-oss-safeguard-20b 131K ctx
openai
gpt-oss-safeguard-20b — safety‑модель рассуждений от OpenAI, построенная на базе gpt-oss-20b. Эта открытая MoE‑модель на 21B параметров предназначена для задач безопасности с низкой задержкой: классификация контента, фильтрация LLM и модерация.
openai/gpt-oss-safeguard-20b:free
вход
выход
Llama 3.3 Nemotron Super 49B V1.5 131K ctx
nvidia
Llama-3.3-Nemotron-Super-49B-v1.5 — англоцентричная модель рассуждений/чата на 49B параметров, производная от Meta Llama-3.3-70B-Instruct с контекстом 128K. Она пост‑обучена для агентных рабочих процессов (RAG, вызов инструментов) через SFT на математике, коде, науке и многоходовом чате, затем через несколько стадий RL: Reward‑aware Preference Optimization (RPO) для выравнивания, RL with Verifiable Rewards (RLVR) для пошаговых рассуждений и итеративное DPO для улучшения поведения при использовании инструментов. Дистилляционно‑управляемый Neural Architecture Search («Puzzle») заменяет часть attention‑блоков и варьирует ширину FFN для уменьшения памяти и повышения throughput, позволяя развёртывание на одном GPU (H100/H200) при сохранении следования инструкциям и качества CoT. Во внутренних оценках (NeMo-Skills, до 16 прогонов, temp = 0.6, top_p = 0.95) модель показывает сильные результаты по рассуждениям/кодингу: например, MATH500 pass@1 = 97.4, AIME-2024 = 87.5, AIME-2025 = 82.71, GPQA = 71.97, LiveCodeBench (24.10–25.02) = 73.58 и MMLU-Pro (CoT) = 79.53. Модель ориентирована на практическую эффективность инференса (высокие токены/с, сниженное потребление VRAM) с поддержкой Transformers/vLLM и явными режимами «reasoning on/off» (по умолчанию chat‑first; при отключении рекомендуется greedy). Подходит для построения агентов, ассистентов и систем долговременного поиска, где важен баланс точности/стоимости и надёжное использование инструментов.
nvidia/llama-3.3-nemotron-super-49b-v1.5
вход ₽11.40
выход ₽45.60
Qwen3 VL 30B A3B Instruct 131K ctx
qwen
Qwen3-VL-30B-A3B-Instruct — мультимодальная модель, объединяющая сильную генерацию текста с визуальным пониманием изображений и видео. Instruct‑вариант оптимизирован под следование инструкциям для общих мультимодальных задач. Она отлично справляется с восприятием реальных/синтетических категорий, 2D/3D пространственной привязкой и длинным визуальным пониманием, показывая конкурентные результаты на мультимодальных бенчмарках. Для агентных сценариев она поддерживает многоизображенные многоходовые инструкции, выравнивание по таймлайнам видео, автоматизацию GUI и визуальное программирование — от эскизов до отладки UI. Текстовая производительность соответствует флагманским моделям Qwen3, что делает её подходящей для document AI, OCR, помощи в UI, пространственных задач и исследований агентных систем.
qwen/qwen3-vl-30b-a3b-instruct
вход ₽17.10
выход ₽68.40
GLM 4.6 204K ctx
z-ai
По сравнению с GLM-4.5 это поколение приносит несколько ключевых улучшений: Более длинное контекстное окно: контекст расширен с 128K до 200K токенов, что позволяет модели справляться с более сложными агентными задачами. Повышенная производительность в кодинге: модель получает более высокие оценки на кодовых бенчмарках и демонстрирует лучшую практическую производительность в приложениях вроде Claude Code, Cline, Roo Code и Kilo Code, включая улучшения в генерации визуально отполированных фронтенд‑страниц. Продвинутые рассуждения: GLM-4.6 показывает заметный рост в способности рассуждать и поддерживает использование инструментов во время инференса, что повышает общую мощность. Более сильные агенты: GLM-4.6 демонстрирует улучшения в использовании инструментов и поисковых агентах и лучше интегрируется в агентные фреймворки. Улучшенное письмо: лучше соответствует человеческим предпочтениям по стилю и читаемости и естественнее ведёт себя в ролевых сценариях.
z-ai/glm-4.6
вход ₽49.02
выход ₽198.36
DeepSeek V3.2 Exp 163K ctx
deepseek
DeepSeek-V3.2-Exp — экспериментальная языковая модель DeepSeek, выпущенная как промежуточный шаг между V3.1 и будущими архитектурами. Она использует DeepSeek Sparse Attention (DSA) — механизм разреженного внимания, предназначенный для повышения эффективности обучения и инференса на длинном контексте без заметной потери качества. Модель позволяет управлять поведением рассуждений через параметр `reasoning.enabled` и ориентирована прежде всего на исследование архитектурных оптимизаций для long-context сценариев.
deepseek/deepseek-v3.2-exp
вход ₽23.94
выход ₽36.48
Qwen3 VL 235B A22B Instruct 262K ctx
qwen
Qwen3-VL-235B-A22B Instruct — open‑weight мультимодальная модель, объединяющая сильную генерацию текста с визуальным пониманием изображений и видео. Instruct‑вариант нацелен на общее использование в vision‑language задачах (VQA, разбор документов, извлечение данных из графиков/таблиц, многоязычный OCR). Серия делает акцент на устойчивом восприятии (распознавание разнообразных реальных и синтетических категорий), пространственном понимании (2D/3D привязка) и длинной визуальной интерпретации, показывая конкурентные результаты на публичных мультимодальных бенчмарках как в восприятии, так и в рассуждениях. Помимо анализа, Qwen3‑VL поддерживает агентное взаимодействие и использование инструментов: может следовать сложным инструкциям в многоизображенных, многоходовых диалогах; сопоставлять текст с временными шкалами видео для точных запросов по времени; и управлять элементами GUI для задач автоматизации. Модели также поддерживают визуальные рабочие процессы программирования — превращение скетчей/макетов в код и помощь в отладке UI — при сохранении сильной текстовой производительности, сопоставимой с флагманскими языковыми моделями Qwen3. Это делает Qwen3‑VL подходящей для продакшн‑сценариев: document AI, многоязычный OCR, помощь в разработке UI, пространственные задачи и исследования агентных vision‑language систем.
qwen/qwen3-vl-235b-a22b-instruct
вход ₽22.80
выход ₽100.32
Qwen3 Max 262K ctx
qwen
Qwen3‑Max — обновлённый релиз на базе серии Qwen3, предлагающий значительные улучшения в рассуждениях, следовании инструкциям, многоязычной поддержке и покрытии редких знаний по сравнению с версией января 2025 года. Он обеспечивает более высокую точность в задачах математики, программирования, логики и науки, надёжнее следует сложным инструкциям на китайском и английском, снижает галлюцинации и выдаёт более качественные ответы для открытых вопросов, письма и диалога. Модель поддерживает более 100 языков с улучшенным переводом и здравым смыслом и оптимизирована для retrieval‑augmented generation (RAG) и вызова инструментов, хотя не включает отдельный режим «thinking».
qwen/qwen3-max
вход ₽136.80
выход ₽684.00
GPT-5 Codex 400K ctx
openai
GPT-5-Codex — специализированная версия GPT-5, оптимизированная для инженерных и программных рабочих процессов. Она подходит как для интерактивной разработки, так и для длительного автономного выполнения сложных задач, включая создание проектов с нуля, разработку функций, отладку, рефакторинг и ревью кода. По сравнению с GPT-5, модель лучше следует инструкциям разработчика, выдаёт более чистый код и поддерживает настройку глубины рассуждений через `reasoning.effort`. Модель интегрируется в IDE, CLI, GitHub и облачные среды разработки, адаптируя усилие рассуждений под масштаб задачи. Она также поддерживает мультимодальные входы и использование инструментов, что делает её подходящей для агентных сценариев программирования.
openai/gpt-5-codex
вход ₽142.50
выход ₽1140.00
DeepSeek V3.1 Terminus 163K ctx
deepseek
DeepSeek‑V3.1 Terminus — обновление [DeepSeek V3.1](/deepseek/deepseek-chat-v3.1), сохраняющее базовые возможности модели и улучшающее согласованность языка, агентные функции и поведение в задачах программирования и поиска. Это крупная гибридная модель рассуждений с режимами thinking и non‑thinking, расширенная двухфазным обучением на длинном контексте и оптимизированная для более эффективного инференса. Модель улучшает работу с инструментами, генерацию кода и общую эффективность рассуждений, поддерживает structured tool calling, code agents и search agents и хорошо подходит для исследований, программирования и агентных workflow. Управление режимом рассуждений доступно через параметр `reasoning.enabled`.
deepseek/deepseek-v3.1-terminus
вход ₽23.94
выход ₽90.06
Qwen3 Next 80B A3B Instruct 262K ctx
qwen
Qwen3-Next-80B-A3B-Instruct — чат‑модель серии Qwen3‑Next, настроенная на инструкции и оптимизированная для быстрых, стабильных ответов без «thinking»‑трейсов. Она нацелена на сложные задачи рассуждений, генерации кода, знаний и многоязычного использования, сохраняя устойчивость в выравнивании и форматировании. По сравнению с предыдущими Qwen3 instruct‑вариантами, модель делает акцент на более высокую пропускную способность и стабильность на ультрадлинных входах и многоходовых диалогах, что делает её хорошо подходящей для RAG, использования инструментов и агентных рабочих процессов, где важны последовательные финальные ответы без видимой цепочки рассуждений. Модель использует масштаб‑эффективное обучение и декодирование для улучшения параметрической эффективности и скорости инференса и проверена на широком наборе публичных бенчмарков, где достигает или приближается к более крупным системам Qwen3 в ряде категорий, превосходя более ранние средние базовые модели. Лучше всего подходит как общий ассистент, помощник по коду и решатель задач на длинном контексте в продакшене, где предпочтительны детерминированные ответы, строго следующие инструкциям.
qwen/qwen3-next-80b-a3b-instruct
вход ₽10.26
выход ₽125.40
Nemotron Nano 9B V2 131K ctx
nvidia
NVIDIA-Nemotron-Nano-9B-v2 — языковая модель (LLM), обученная с нуля NVIDIA, предназначенная как единая модель для задач с рассуждениями и без них. Она отвечает на запросы, сначала генерируя трассу рассуждений, а затем финальный ответ. Возможности рассуждений можно контролировать через системный промпт. Если пользователь предпочитает ответы без промежуточных рассуждений, модель можно настроить соответствующим образом.
nvidia/nemotron-nano-9b-v2
вход ₽4.56
выход ₽18.24
Kimi K2 Instruct 0905 262K ctx
moonshotai
Kimi K2 Instruct 0905 — сентябрьское обновление Kimi K2, расширяющее контекст до 256K токенов. Улучшает агентное программирование, повышает точность и обобщение по каркасам, а также улучшает фронтенд‑кодинг.
moonshotai/kimi-k2-instruct-0905:free
вход
выход
DeepSeek V3.1 32K ctx
deepseek
DeepSeek‑V3.1 — крупная гибридная модель рассуждений с режимами thinking и non‑thinking, построенная на базе DeepSeek‑V3 и дообученная для длинного контекста. Она использует FP8‑microscaling для более эффективного инференса, улучшает работу с инструментами и генерацию кода и подходит для сложных агентных сценариев. Модель поддерживает structured tool calling, code agents и search agents, а режим рассуждений можно контролировать через параметр `reasoning.enabled`. Она приходит на смену [DeepSeek V3‑0324](/deepseek/deepseek-chat-v3-0324) и хорошо подходит для исследований, программирования и общего аналитического использования.
deepseek/deepseek-chat-v3.1
вход ₽23.94
выход ₽90.06
GPT-5 400K ctx
openai
GPT-5 — самая продвинутая модель OpenAI, обеспечивающая существенные улучшения в рассуждениях, качестве кода и пользовательском опыте. Она оптимизирована для сложных задач, требующих пошаговых рассуждений, следования инструкциям и высокой точности в критичных сценариях. Поддерживает маршрутизацию на этапе ответа и продвинутое понимание промптов, включая заданный пользователем настрой вроде «думай тщательнее». Улучшения включают снижение галлюцинаций и угодничества, а также более высокую производительность в программировании, письме и задачах, связанных со здравоохранением.
openai/gpt-5
вход ₽142.50
выход ₽1140.00
GPT-5 Mini 400K ctx
openai
GPT-5 Mini — компактная версия GPT-5, предназначенная для более лёгких задач рассуждения. Она обеспечивает те же преимущества в следовании инструкциям и настройках безопасности, что и GPT-5, но с меньшей задержкой и стоимостью. GPT-5 Mini является преемником модели OpenAI o4-mini.
openai/gpt-5-mini
вход ₽28.50
выход ₽228.00
GPT-5 Nano 400K ctx
openai
GPT-5-Nano — самый маленький и быстрый вариант в системе GPT-5, оптимизированный для инструментов разработчика, быстрых взаимодействий и сред с ультранизкой задержкой. Хотя глубина рассуждений ограничена по сравнению с более крупными версиями, модель сохраняет ключевые функции следования инструкциям и безопасности. Она является преемником GPT-4.1-nano и предлагает лёгкий вариант для чувствительных к стоимости или реальному времени приложений.
openai/gpt-5-nano
вход ₽5.70
выход ₽45.60
gpt-oss-120b 131K ctx
openai
gpt-oss-120b — открытая MoE‑языковая модель OpenAI на 117B параметров, предназначенная для задач с высоким уровнем рассуждений, агентных сценариев и общего промышленного использования. Она активирует 5.1B параметров за один проход и оптимизирована для работы на одном GPU H100 с нативной квантизацией MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке мыслей и нативное использование инструментов, включая вызов функций, браузинг и генерацию структурированных выходных данных.
openai/gpt-oss-120b
вход ₽4.45
выход ₽21.66
gpt-oss-120b 131K ctx
openai
gpt-oss-120b — открытая MoE‑языковая модель OpenAI на 117B параметров, предназначенная для задач с высоким уровнем рассуждений, агентных сценариев и общего промышленного использования. Она активирует 5.1B параметров за один проход и оптимизирована для работы на одном GPU H100 с нативной квантизацией MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке мыслей и нативное использование инструментов, включая вызов функций, браузинг и генерацию структурированных выходных данных.
openai/gpt-oss-120b:free
вход
выход
gpt-oss-20b 131K ctx
openai
gpt-oss-20b — открытая модель на 21B параметров, выпущенная OpenAI под лицензией Apache 2.0. Она использует архитектуру Mixture‑of‑Experts (MoE) с 3.6B активных параметров на проход, оптимизирована для инференса с меньшей задержкой и развёртывания на потребительском или одном GPU. Модель обучена в формате ответов OpenAI Harmony и поддерживает настройку уровня рассуждений, fine‑tuning и агентные возможности, включая вызов функций, использование инструментов и структурированные выходы.
openai/gpt-oss-20b:free
вход
выход
gpt-oss-20b 131K ctx
openai
gpt-oss-20b — открытая модель на 21B параметров, выпущенная OpenAI под лицензией Apache 2.0. Она использует архитектуру Mixture‑of‑Experts (MoE) с 3.6B активных параметров на проход, оптимизирована для инференса с меньшей задержкой и развёртывания на потребительском или одном GPU. Модель обучена в формате ответов OpenAI Harmony и поддерживает настройку уровня рассуждений, fine‑tuning и агентные возможности, включая вызов функций, использование инструментов и структурированные выходы.
openai/gpt-oss-20b
вход ₽3.42
выход ₽15.96
Qwen3 235B A22B Thinking 2507 131K ctx
qwen
Qwen3-235B-A22B-Thinking-2507 — высокопроизводительная open‑weight MoE‑модель, оптимизированная для сложных задач рассуждений. Она активирует 22B из 235B параметров на проход и нативно поддерживает контекст до 262 144 токенов. Этот вариант «только thinking» усиливает структурированное логическое мышление, математику, науку и длинные генерации, показывая сильные результаты на бенчмарках AIME, SuperGPQA, LiveCodeBench и MMLU‑Redux. Модель принудительно использует специальный режим рассуждений (</think>) и рассчитана на большие объёмы вывода (до 81 920 токенов) в сложных доменах. Модель настроена на инструкции и отлично справляется с пошаговыми рассуждениями, использованием инструментов, агентными рабочими процессами и многоязычными задачами. Этот релиз — наиболее мощный open‑source вариант в серии Qwen3‑235B, превосходящий многие закрытые модели в задачах структурированных рассуждений.
qwen/qwen3-235b-a22b-thinking-2507
вход ₽26.22
выход ₽262.20
Qwen3 Coder 480B A35B 262K ctx
qwen
Qwen3-Coder-480B-A35B-Instruct — MoE‑модель генерации кода, разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование инструментов и рассуждения на длинном контексте по репозиториям. Модель содержит 480 млрд параметров, из которых 35 млрд активируются за проход (8 из 160 экспертов). Цены на эндпоинтах Alibaba зависят от длины контекста. Если запрос превышает 128k входных токенов, применяется повышенная тарификация.
qwen/qwen3-coder
вход ₽45.60
выход ₽182.40
Qwen3 235B A22B Instruct 2507 262K ctx
qwen
Qwen3-235B-A22B-Instruct-2507 — многоязычная MoE‑модель, настроенная на инструкции, на базе архитектуры Qwen3-235B, с 22B активных параметров на проход. Она оптимизирована для универсальной генерации текста, включая следование инструкциям, логические рассуждения, математику, код и использование инструментов. Модель поддерживает нативный контекст 262K и не реализует «thinking mode» (блоки <think>). По сравнению с базовой версией этот вариант даёт заметные улучшения в покрытии знаний, рассуждениях на длинном контексте, кодинговых бенчмарках и выравнивании под открытые задачи. Она особенно сильна в многоязычном понимании, математических рассуждениях (например, AIME, HMMT) и оценках выравнивания вроде Arena‑Hard и WritingBench.
qwen/qwen3-235b-a22b-2507
вход ₽8.09
выход ₽11.40
Kimi K2 Instruct 131K ctx
moonshotai
Kimi K2 Instruct — крупномасштабная MoE‑модель от Moonshot AI с 1 трлн параметров и 32 млрд активных на проход. Оптимизирована для агентных возможностей: продвинутое использование инструментов, рассуждения и синтез кода. Показывает сильные результаты в кодинге (LiveCodeBench, SWE‑bench), рассуждениях (ZebraLogic, GPQA) и использовании инструментов (Tau2, AceBench). Поддерживает контекст до 128K токенов.
moonshotai/kimi-k2-instruct:free
вход
выход
Mistral Small 3.2 24B 128K ctx
mistralai
Mistral-Small-3.2-24B-Instruct-2506 — обновлённая 24B‑модель от Mistral, оптимизированная для следования инструкциям, снижения повторов и улучшенного вызова функций. По сравнению с релизом 3.1 версия 3.2 заметно повышает точность на WildBench и Arena Hard, уменьшает бесконечные генерации и улучшает работу с инструментами и задачами структурированных выходов. Поддерживает входы изображение+текст со структурированными выходами, вызов функций/инструментов и сильные результаты в программировании (HumanEval+, MBPP), STEM (MMLU, MATH, GPQA) и vision‑бенчмарках (ChartQA, DocVQA).
mistralai/mistral-small-3.2-24b-instruct
вход ₽8.55
выход ₽22.80
Gemini 2.5 Flash 1M ctx
google
Gemini 2.5 Flash — универсальная модель Google для задач рассуждений, программирования, математики и науки. Она поддерживает режим thinking, что помогает давать более точные ответы и лучше работать со сложным контекстом. Подходит для широкого круга продакшн‑сценариев, где нужен баланс между скоростью и качеством reasoning.
google/gemini-2.5-flash
вход ₽34.20
выход ₽285.00
Gemini 2.5 Pro 1M ctx
google
Gemini 2.5 Pro — сильная модель Google для сложных задач рассуждений, программирования, математики и науки. Она использует режим thinking, что помогает выстраивать более точные и последовательные ответы на многошаговые запросы. Подходит для задач, где приоритетны качество reasoning, длинный контекст и надёжная работа со сложными инструкциями.
google/gemini-2.5-pro
вход ₽142.50
выход ₽1140.00
R1 0528 163K ctx
deepseek
Обновление от 28 мая для [исходной модели DeepSeek R1](/deepseek/deepseek-r1). Производительность на уровне [OpenAI o1](/openai/o1), но с открытым исходным кодом и полностью открытыми токенами рассуждений. Размер — 671B параметров, из них 37B активны за один проход инференса. Полностью open‑source модель.
deepseek/deepseek-r1-0528
вход ₽57.00
выход ₽245.10
Llama Guard 4 12B 163K ctx
meta-llama
Llama Guard 4 — мультимодальная предобученная модель на базе Llama 4 Scout, дообученная для классификации безопасности контента. Как и предыдущие версии, она может использоваться для классификации контента как во входных данных LLM (классификация промптов), так и в ответах LLM (классификация ответов). Она действует как LLM — генерирует текст, указывающий, является ли заданный запрос или ответ безопасным или небезопасным, и если небезопасным, перечисляет нарушенные категории контента. Llama Guard 4 выровнена по стандартизированной таксономии рисков MLCommons и создана для поддержки мультимодальных возможностей Llama 4. В частности, она объединяет возможности предыдущих моделей Llama Guard, обеспечивает модерацию контента на английском и ряде поддерживаемых языков, а также расширенную работу со смешанными запросами «текст+изображение», включая несколько изображений. Кроме того, Llama Guard 4 интегрирована в Llama Moderations API, расширяя надёжную классификацию безопасности для текста и изображений.
meta-llama/llama-guard-4-12b
вход ₽20.52
выход ₽20.52
Qwen3 30B A3B 40K ctx
qwen
Qwen3, новое поколение в серии крупных языковых моделей Qwen, сочетает плотные и mixture‑of‑experts (MoE) архитектуры, чтобы превосходно справляться с рассуждениями, многоязычной поддержкой и продвинутыми агентными задачами. Её уникальная способность бесшовно переключаться между режимом thinking для сложных рассуждений и режимом non‑thinking для эффективного диалога обеспечивает универсальную, высококачественную работу. Существенно превосходя предыдущие модели вроде QwQ и Qwen2.5, Qwen3 обеспечивает более сильные результаты в математике, программировании, здравом смысле, творческом письме и интерактивном диалоге. Вариант Qwen3‑30B‑A3B включает 30.5 млрд параметров (3.3 млрд активных), 48 слоёв, 128 экспертов (8 активируются на задачу) и поддерживает контекст до 131K токенов с YaRN, задавая новый стандарт среди open‑source моделей.
qwen/qwen3-30b-a3b
вход ₽9.12
выход ₽31.92
Qwen3 14B 40K ctx
qwen
Qwen3‑14B — плотная причинная языковая модель на 14.8B параметров из серии Qwen3, разработанная для сложных рассуждений и эффективного диалога. Она поддерживает бесшовное переключение между режимом «thinking» для задач математики, программирования и логических выводов и режимом «non‑thinking» для общения общего назначения. Модель дообучена на следование инструкциям, использование инструментов агентами, творческое письмо и многоязычные задачи на 100+ языках и диалектах. Она нативно поддерживает контекст до 32K токенов и может расширяться до 131K токенов с помощью YaRN‑масштабирования.
qwen/qwen3-14b
вход ₽13.68
выход ₽27.36
Qwen3 32B 40K ctx
qwen
Qwen3‑32B — плотная причинная языковая модель на 32.8B параметров из серии Qwen3, оптимизированная для сложных рассуждений и эффективного диалога. Она поддерживает бесшовное переключение между режимом «thinking» для задач математики, программирования и логических выводов и режимом «non‑thinking» для более быстрого общения общего назначения. Модель демонстрирует высокую производительность в следовании инструкциям, использовании инструментов агентами, творческом письме и многоязычных задачах на 100+ языках и диалектах. Она нативно поддерживает контекст до 32K токенов и может расширяться до 131K токенов с помощью YaRN‑масштабирования.
qwen/qwen3-32b:free
вход
выход
Qwen3 32B 40K ctx
qwen
Qwen3‑32B — плотная причинная языковая модель на 32.8B параметров из серии Qwen3, оптимизированная для сложных рассуждений и эффективного диалога. Она поддерживает бесшовное переключение между режимом «thinking» для задач математики, программирования и логических выводов и режимом «non‑thinking» для более быстрого общения общего назначения. Модель демонстрирует высокую производительность в следовании инструкциям, использовании инструментов агентами, творческом письме и многоязычных задачах на 100+ языках и диалектах. Она нативно поддерживает контекст до 32K токенов и может расширяться до 131K токенов с помощью YaRN‑масштабирования.
qwen/qwen3-32b
вход ₽9.12
выход ₽31.92
Llama 4 Scout 327K ctx
meta-llama
Llama 4 Scout 17B Instruct (16E) — языковая модель Mixture‑of‑Experts (MoE), разработанная Meta, активирующая 17 млрд параметров из общего числа 109B. Она поддерживает нативный мультимодальный ввод (текст и изображение) и многоязычные выходы (текст и код) на 12 поддерживаемых языках. Созданная для ассистентных сценариев и визуальных рассуждений, Scout использует 16 экспертов на проход и имеет контекст длиной 10 миллионов токенов, при обучающем корпусе около 40 трлн токенов. Разработанная для высокой эффективности и локального или коммерческого развёртывания, Llama 4 Scout использует раннее слияние модальностей для бесшовной интеграции. Она обучена на инструкции для многоязычного чата, описания и понимания изображений. Выпущена под лицензией Llama 4 Community License, последняя итерация обучения — данные до августа 2024 года, публичный релиз — 5 апреля 2025 года.
meta-llama/llama-4-scout
вход ₽9.12
выход ₽34.20
Llama 4 Scout 327K ctx
meta-llama
Llama 4 Scout 17B Instruct (16E) — языковая модель Mixture‑of‑Experts (MoE), разработанная Meta, активирующая 17 млрд параметров из общего числа 109B. Она поддерживает нативный мультимодальный ввод (текст и изображение) и многоязычные выходы (текст и код) на 12 поддерживаемых языках. Созданная для ассистентных сценариев и визуальных рассуждений, Scout использует 16 экспертов на проход и имеет контекст длиной 10 миллионов токенов, при обучающем корпусе около 40 трлн токенов. Разработанная для высокой эффективности и локального или коммерческого развёртывания, Llama 4 Scout использует раннее слияние модальностей для бесшовной интеграции. Она обучена на инструкции для многоязычного чата, описания и понимания изображений. Выпущена под лицензией Llama 4 Community License, последняя итерация обучения — данные до августа 2024 года, публичный релиз — 5 апреля 2025 года.
meta-llama/llama-4-scout:free
вход
выход
Qwen2.5 VL 32B Instruct 128K ctx
qwen
Qwen2.5-VL-32B — мультимодальная vision‑language модель, дообученная с подкреплением для более сильных математических рассуждений, структурированных выходов и визуального решения задач. Она хорошо справляется с визуальным анализом, включая распознавание объектов, интерпретацию текста на изображениях и точную локализацию событий в длинных видео. Модель подходит для мультимодальной аналитики, OCR‑сценариев, задач математики и генерации кода.
qwen/qwen2.5-vl-32b-instruct
вход ₽22.80
выход ₽68.40
DeepSeek V3 0324 163K ctx
deepseek
DeepSeek V3 — крупная MoE‑модель на 685 млрд параметров, продолжающая основную чат‑линейку DeepSeek. Она хорошо справляется с широким спектром задач, включая общий диалог, программирование и аналитическую работу, и подходит как универсальная модель общего назначения.
deepseek/deepseek-chat-v3-0324
вход ₽22.80
выход ₽87.78
Gemma 3 4B 131K ctx
google
Gemma 3 вводит мультимодальность, поддерживая входы «изображение+текст» и текстовые выходы. Она обрабатывает контекст до 128k токенов, понимает более 140 языков и предлагает улучшенные возможности в математике, рассуждениях и чате, включая структурированные выходы и вызов функций.
google/gemma-3-4b-it
вход ₽4.56
выход ₽9.12
Gemma 3 12B 131K ctx
google
Gemma 3 вводит мультимодальность, поддерживая входы «изображение+текст» и текстовые выходы. Она обрабатывает контекст до 128k токенов, понимает более 140 языков и предлагает улучшенные возможности в математике, рассуждениях и чате, включая структурированные выходы и вызов функций. Gemma 3 12B — вторая по размеру в семействе Gemma 3 после [Gemma 3 27B](google/gemma-3-27b-it)
google/gemma-3-12b-it
вход ₽4.56
выход ₽14.82
Gemma 3 27B 131K ctx
google
Gemma 3 вводит мультимодальность, поддерживая входы «изображение+текст» и текстовые выходы. Она обрабатывает контекст до 128k токенов, понимает более 140 языков и предлагает улучшенные возможности в математике, рассуждениях и чате, включая структурированные выходы и вызов функций. Gemma 3 27B — новейшая open‑source модель Google, преемница [Gemma 2](google/gemma-2-27b-it)
google/gemma-3-27b-it
вход ₽9.12
выход ₽18.24
Claude 3.7 Sonnet 200K ctx
anthropic
Claude 3.7 Sonnet — продвинутая языковая модель Anthropic с улучшенными возможностями рассуждения, программирования и решения сложных задач. Она поддерживает гибридный режим reasoning, позволяющий выбирать между быстрыми ответами и более глубоким пошаговым разбором для трудных запросов. Модель показывает сильные результаты в агентных workflow, фронтенд-разработке и многошаговых задачах, где важны качество инструкционного следования и устойчивость поведения.
anthropic/claude-3.7-sonnet
вход ₽376.20
выход ₽1881.00
o3-mini 200K ctx
openai
OpenAI o3-mini — экономичная языковая модель, оптимизированная для задач рассуждений в STEM, особенно сильная в науке, математике и программировании. Эта модель поддерживает параметр `reasoning_effort`, который можно установить в значения "high", "medium" или "low" для управления временем на рассуждения. Значение по умолчанию — "medium". OpenRouter также предлагает слаг модели `openai/o3-mini-high`, чтобы по умолчанию использовать параметр "high". Модель имеет три регулируемых уровня усилия рассуждений и поддерживает ключевые возможности для разработчиков, включая вызов функций, структурированные выходные данные и стриминг, но не поддерживает обработку изображений. Модель демонстрирует значительные улучшения по сравнению с предшественником: эксперты предпочитали её ответы в 56% случаев и отмечали снижение серьёзных ошибок на сложных вопросах на 39%. При среднем уровне усилия рассуждений o3-mini соответствует производительности более крупной модели o1 на сложных оценках рассуждений, таких как AIME и GPQA, сохраняя меньшую задержку и стоимость.
openai/o3-mini
вход ₽125.40
выход ₽501.60
Mistral Small 3 32K ctx
mistralai
Mistral Small 3 — языковая модель на 24 млрд параметров, оптимизированная для низкой задержки в типичных AI‑задачах. Она выпущена под лицензией Apache 2.0 и подходит для эффективного локального развёртывания. Это хороший вариант, когда нужен баланс между качеством модели среднего класса и высокой скоростью работы.
mistralai/mistral-small-24b-instruct-2501
вход ₽5.70
выход ₽9.12
DeepSeek R1 Distill Llama 70B 131K ctx
deepseek
DeepSeek R1 Distill Llama 70B — дистиллированная языковая модель на базе [Llama‑3.3‑70B‑Instruct](/meta-llama/llama-3.3-70b-instruct), использующая выходы [DeepSeek R1](/deepseek/deepseek-r1). Она переносит сильные reasoning‑способности DeepSeek R1 в более компактный форм‑фактор и хорошо подходит для задач математики, программирования и аналитики. Это практичный вариант, когда нужен баланс между качеством рассуждений и вычислительной стоимостью.
deepseek/deepseek-r1-distill-llama-70b
вход ₽79.80
выход ₽91.20
Phi 4 16K ctx
microsoft
Phi-4 — модель Microsoft Research, разработанная для эффективной работы в сложных задачах рассуждения и сценариях с ограниченной памятью или требованиями к быстрой отдаче. При размере 14 млрд параметров она обучена на смеси синтетических датасетов, отобранных веб‑данных и академических материалов и хорошо подходит для точного следования инструкциям. Лучше всего работает с английским языком.
microsoft/phi-4
вход ₽7.98
выход ₽15.96
DeepSeek V3 163K ctx
deepseek
DeepSeek‑V3 — новейшая модель команды DeepSeek, развивающая способности следования инструкциям и программирования по сравнению с предыдущими версиями. Предобученная почти на 15 трлн токенов, по опубликованным оценкам она превосходит другие open‑source модели и соперничает с ведущими закрытыми моделями. Подробности о модели см. в [репозитории DeepSeek‑V3](https://github.com/deepseek-ai/DeepSeek-V3) или в [анонсе запуска](https://api-docs.deepseek.com/news/news1226).
deepseek/deepseek-chat
вход ₽36.48
выход ₽101.46
Llama 3.3 Euryale 70B 131K ctx
sao10k
Euryale L3.3 70B — модель, ориентированная на креативный ролевой отыгрыш, от [Sao10k](https://ko-fi.com/sao10k). Это преемник [Euryale L3 70B v2.2](/models/sao10k/l3-euryale-70b).
sao10k/l3.3-euryale-70b
вход ₽96.90
выход ₽96.90
Llama 3.3 70B Versatile 131K ctx
meta-llama
Llama 3.3 70B Instruct — мультиязычная instruction‑модель Meta на 70B параметров, оптимизированная для диалога. Поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Превосходит многие открытые и закрытые чат‑модели на стандартных бенчмарках.
meta-llama/llama-3.3-70b-versatile:free
вход
выход
Llama 3.1 Nemotron 70B Instruct 131K ctx
nvidia
NVIDIA Llama 3.1 Nemotron 70B — языковая модель на базе [Llama 3.1 70B](/models/meta-llama/llama-3.1-70b-instruct), дообученная с использованием RLHF для генерации более точных и полезных ответов. Она хорошо подходит для приложений, где важны качество диалога, следование инструкциям и общая полезность ответов в разных доменах. Это универсальная модель для ассистентных и аналитических сценариев.
nvidia/llama-3.1-nemotron-70b-instruct
вход ₽136.80
выход ₽136.80
Llama 3.2 11B Vision Instruct 131K ctx
meta-llama
Llama 3.2 11B Vision — мультимодальная модель на 11 млрд параметров для задач, сочетающих визуальные и текстовые данные. Она хорошо подходит для описания изображений, visual Q&A и других сценариев, где требуется объединить генерацию языка с визуальными рассуждениями. Модель обучена на большом наборе пар «изображение‑текст» и подходит для анализа изображений, создания контента, клиентских ассистентов и исследовательских задач.
meta-llama/llama-3.2-11b-vision-instruct
вход ₽5.59
выход ₽5.59
Qwen2.5 72B Instruct 32K ctx
qwen
Qwen2.5 72B Instruct — крупная языковая модель серии Qwen2.5 с заметными улучшениями в знаниях, программировании, математике и следовании инструкциям по сравнению с Qwen2. Она хорошо работает с длинными текстами, таблицами, структурированными данными и JSON‑выходами и поддерживает контекст до 128K токенов. Модель также ориентирована на многоязычное использование и подходит для чата, аналитики, кода и задач со сложными системными промптами.
qwen/qwen-2.5-72b-instruct
вход ₽13.68
выход ₽44.46
Llama 3.1 Euryale 70B v2.2 131K ctx
sao10k
Euryale L3.1 70B v2.2 — модель, ориентированная на креативный ролевой отыгрыш, от [Sao10k](https://ko-fi.com/sao10k). Это преемник [Euryale L3 70B v2.1](/models/sao10k/l3-euryale-70b).
sao10k/l3.1-euryale-70b
вход ₽96.90
выход ₽96.90
Hermes 3 70B Instruct 131K ctx
nousresearch
Hermes 3 — универсальная языковая модель со множеством улучшений по сравнению с [Hermes 2](/models/nousresearch/nous-hermes-2-mistral-7b-dpo), включая продвинутые агентные возможности, значительно улучшенный ролевой диалог, рассуждения, многоходовые беседы, устойчивость на длинном контексте и улучшения по всем направлениям. Hermes 3 70B — конкурентный, а иногда и превосходящий, finetune базовой модели [Llama-3.1 70B](/models/meta-llama/llama-3.1-70b-instruct), ориентированный на выравнивание LLM под пользователя, с мощными возможностями управления и контролем, переданными пользователю. Серия Hermes 3 развивает набор возможностей Hermes 2, включая более мощные и надёжные вызовы функций и структурированные выходы, универсальные функции ассистента и улучшенные навыки генерации кода.
nousresearch/hermes-3-llama-3.1-70b
вход ₽34.20
выход ₽34.20
Hermes 3 405B Instruct 131K ctx
nousresearch
Hermes 3 — универсальная языковая модель со множеством улучшений по сравнению с Hermes 2, включая продвинутые агентные возможности, значительно улучшенный ролевой диалог, рассуждения, многоходовые беседы, устойчивость на длинном контексте и улучшения по всем направлениям. Hermes 3 405B — полноразмерный fine-tune базовой модели Llama‑3.1 405B, ориентированный на более точное выравнивание поведения модели под пользователя и расширенный контроль над ответами. Серия Hermes 3 развивает набор возможностей Hermes 2, включая более мощные и надёжные вызовы функций и структурированные выходы, универсальные функции ассистента и улучшенные навыки генерации кода. Hermes 3 конкурентоспособна, а иногда и превосходит, модели Llama‑3.1 Instruct по общим возможностям, при этом сильные и слабые стороны различаются между двумя линиями.
nousresearch/hermes-3-llama-3.1-405b
вход ₽114.00
выход ₽114.00
Llama 3.1 70B Instruct 131K ctx
meta-llama
Llama 3.1 70B Instruct — крупная instruction‑модель семейства Llama 3.1, ориентированная на качественный диалог и универсальные текстовые задачи. Она подходит для ассистентов, аналитических сценариев и генерации текста, где требуется более высокий уровень качества по сравнению с компактными версиями. Хороший выбор для продакшн‑систем общего назначения.
meta-llama/llama-3.1-70b-instruct
вход ₽45.60
выход ₽45.60
Llama 3.1 8B 16K ctx
meta-llama
Llama 3.1 8B Instruct — быстрая и эффективная instruction‑модель семейства Llama 3.1. Она хорошо подходит для лёгких чат‑сценариев, повседневной генерации текста и приложений, чувствительных к задержке. Это практичный вариант, когда важны скорость и умеренная стоимость.
meta-llama/llama-3.1-8b-instruct
вход ₽2.28
выход ₽5.70
Llama 3.1 8B 16K ctx
meta-llama
Llama 3.1 8B Instruct — быстрая и эффективная instruction‑модель семейства Llama 3.1. Она хорошо подходит для лёгких чат‑сценариев, повседневной генерации текста и приложений, чувствительных к задержке. Это практичный вариант, когда важны скорость и умеренная стоимость.
meta-llama/llama-3.1-8b-instruct:free
вход
выход
Llama 3.1 8B Instant 131K ctx
meta-llama
Llama 3.1 8B Instruct — быстрая и эффективная instruction‑модель Meta из семейства Llama 3.1 на 8B параметров. Показывает сильные результаты по сравнению с ведущими закрытыми моделями в пользовательских оценках.
meta-llama/llama-3.1-8b-instant:free
вход
выход
Mistral Nemo 131K ctx
mistralai
Модель на 12B параметров с контекстом 128k токенов, созданная Mistral в сотрудничестве с NVIDIA. Модель многоязычная: поддерживает английский, французский, немецкий, испанский, итальянский, португальский, китайский, японский, корейский, арабский и хинди. Поддерживает вызов функций и распространяется по лицензии Apache 2.0.
mistralai/mistral-nemo
вход ₽2.28
выход ₽4.56
Llama 3 8B Instruct 8K ctx
meta-llama
Llama 3 8B Instruct — компактная instruction‑модель семейства Llama 3, оптимизированная для качественных диалоговых сценариев. Она хорошо подходит для чат‑приложений и общих текстовых задач, где важны скорость, управляемость и разумная стоимость. Это практичный вариант для лёгких ассистентных сценариев.
meta-llama/llama-3-8b-instruct
вход ₽3.42
выход ₽4.56
Mixtral 8x7B Instruct 32K ctx
mistralai
Mixtral 8x7B Instruct — instruction‑модель Mistral на архитектуре Sparse Mixture of Experts, предназначенная для чата и задач следования инструкциям. Она включает 8 экспертов при общем числе 47 млрд параметров и сочетает хорошее качество с эффективным использованием вычислений. Подходит для общих текстовых задач и ассистентных сценариев.
mistralai/mixtral-8x7b-instruct
вход ₽61.56
выход ₽61.56
MythoMax 13B 4K ctx
gryphe
MythoMax 13B — популярный fine‑tune на базе Llama 2 13B, ориентированный на выразительный диалог, ролевое взаимодействие и креативную генерацию текста. Подходит для conversational и roleplay‑сценариев, где важны стиль, вариативность и богатая подача.
gryphe/mythomax-l2-13b
вход ₽45.60
выход ₽45.60
ALLaM 2 7B 8K ctx
allam
ALLaM 2 7B — языковая модель от Saudi Data and AI Authority (SDAIA), оптимизированная для арабского и английского языков.
allam/allam-2-7b:free
вход
выход
DeepSeek-OCR 8K ctx
deepseek-ai
DeepSeek-OCR — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Контекст до 8192 токенов.
deepseek-ai/DeepSeek-OCR
вход ₽3.42
выход ₽11.40
DeepSeek-R1-0528-Turbo 32K ctx
deepseek-ai
DeepSeek-R1-0528-Turbo — модель для генерации текста и решения прикладных задач. Ориентирована на рассуждения и сложные задачи. Контекст до 32768 токенов.
deepseek-ai/DeepSeek-R1-0528-Turbo
вход ₽114.00
выход ₽342.00
Gemma 4 26B A4B Instruct 262K ctx
google
Gemma 4 26B A4B Instruct — эффективная mixture-of-experts модель семейства Gemma 4 от Google DeepMind. Она является мультимодальной, поддерживает текстовый и визуальный ввод и генерирует текстовый вывод. Подходит для сценариев, где нужен баланс между возможностями семейства Gemma 4 и более экономичным инференсом.
google/gemma-4-26b-a4b-it
вход ₽9.12
выход ₽39.90
Gemma 4 31B Instruct 262K ctx
google
Gemma 4 31B Instruct — мультимодальная модель семейства Gemma 4 от Google DeepMind, поддерживающая текстовый и визуальный ввод с генерацией текстового вывода. Подходит для задач, где нужны сильные multimodal-возможности Gemma 4 на большем масштабе по сравнению с более компактными вариантами линейки.
google/gemma-4-31b-it
вход ₽14.82
выход ₽43.32
L3-8B-Lunaris-v1-Turbo 8K ctx
Sao10K
L3-8B-Lunaris-v1-Turbo — языковая модель семейства Lunaris, доступная через DeepInfra. Подходит для общих текстовых сценариев и креативного взаимодействия в более лёгком и недорогом классе моделей. Может использоваться как компактный вариант для чата, roleplay‑сценариев и повседневных задач генерации текста.
Sao10K/L3-8B-Lunaris-v1-Turbo
вход ₽4.56
выход ₽5.70
Llama Prompt Guard 2 22M 8K ctx
meta-llama
Llama Prompt Guard 2 22M — лёгкий классификатор от Meta на 22M параметров для обнаружения prompt‑инъекций и jailbreak‑атак.
meta-llama/llama-prompt-guard-2-22m:free
вход
выход
Llama Prompt Guard 2 86M 8K ctx
meta-llama
Llama Prompt Guard 2 86M — классификатор от Meta на 86M параметров для обнаружения prompt‑инъекций и jailbreak‑атак. Увеличенная версия Prompt Guard 2 с повышенной точностью.
meta-llama/llama-prompt-guard-2-86m:free
вход
выход
Llama-3.3-70B-Instruct-Turbo 131K ctx
meta-llama
Llama 3.3-70B Instruct Turbo — ускоренная версия Llama 3.3-70B с FP8‑квантизацией, оптимизированная для более быстрого инференса при небольшом компромиссе по точности. Модель ориентирована на полезные, безопасные и гибкие ответы и подходит для диалоговых сценариев, генерации текста и перевода. Это хороший вариант, когда нужен баланс между качеством 70B‑класса и более высокой пропускной способностью.
meta-llama/Llama-3.3-70B-Instruct-Turbo
вход ₽11.40
выход ₽36.48
Llama-4-Maverick-17B-128E-Instruct-FP8 1M ctx
meta-llama
Llama 4 Maverick — нативно мультимодальная модель семейства Llama 4, построенная на архитектуре Mixture‑of‑Experts и предназначенная для работы с текстом и изображениями в одном workflow. Вариант Maverick использует 17 млрд активных параметров и 128 экспертов, сочетая сильное понимание текста и визуального контента с высокой пропускной способностью. Подходит для мультимодальных ассистентов, визуального анализа и задач, где важны длинный контекст и универсальность.
meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8
вход ₽17.10
выход ₽68.40
Meta-Llama-3.1-70B-Instruct-Turbo 131K ctx
meta-llama
Meta-Llama-3.1-70B-Instruct-Turbo — ускоренная версия instruction‑модели семейства Llama 3.1 на 70B параметров. Она предназначена для диалоговых и общих текстовых задач, где нужен баланс между качеством крупной модели и более высокой скоростью инференса. Подходит для продакшн‑ассистентов и сервисов с высокой нагрузкой.
meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo
вход ₽45.60
выход ₽45.60
Meta-Llama-3.1-8B-Instruct-Turbo 131K ctx
meta-llama
Meta-Llama-3.1-8B-Instruct-Turbo — ускоренная версия instruction‑модели семейства Llama 3.1 на 8B параметров. Подходит для чата, базовой генерации текста и других сценариев, где особенно важны скорость и невысокая стоимость запуска. Хороший выбор для лёгких продакшн‑нагрузок.
meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo
вход ₽2.28
выход ₽3.42
NVIDIA-Nemotron-3-Super-120B-A12B 262K ctx
nvidia
NVIDIA Nemotron 3 Super — открытая гибридная MoE‑модель, оптимизированная под высокую вычислительную эффективность и точность в многоагентных приложениях и специализированных agentic‑системах. Она рассчитана на запуск большого числа взаимодействующих агентов в рамках одного приложения, в том числе на одном GPU, сохраняя сильные результаты в reasoning, использовании инструментов и следовании инструкциям. Подходит для сложных агентных workflow, где важны throughput, длинный контекст и гибкость развёртывания.
nvidia/NVIDIA-Nemotron-3-Super-120B-A12B
вход ₽11.40
выход ₽57.00
NVIDIA-Nemotron-Nano-12B-v2-VL 131K ctx
nvidia
NVIDIA Nemotron Nano 12B v2 VL — мультимодальная vision‑language модель семейства Nemotron, ориентированная на document intelligence, video understanding и визуальные reasoning‑задачи. Она поддерживает анализ нескольких изображений, visual Q&A, обработку документов и суммаризацию и хорошо подходит для корпоративных AI‑workflow. Модель можно использовать в визуальных copilot‑системах, document assistants и пайплайнах автоматизации знаний.
nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL
вход ₽22.80
выход ₽68.40
PaddleOCR-VL-0.9B 16K ctx
PaddlePaddle
PaddleOCR-VL-0.9B — ресурсно‑эффективная vision‑language модель, разработанная для разбора документов и точного распознавания элементов страницы. Она сочетает визуальный энкодер с динамическим разрешением в стиле NaViT и языковую модель ERNIE-4.5-0.3B, что позволяет уверенно извлекать текст, таблицы, формулы и графики. Модель поддерживает 109 языков, показывает сильные результаты в document parsing и element recognition и хорошо подходит для практического OCR и document AI.
PaddlePaddle/PaddleOCR-VL-0.9B
вход ₽15.96
выход ₽91.20
Qwen3-Coder-480B-A35B-Instruct-Turbo 262K ctx
Qwen
Qwen3-Coder-480B-A35B-Instruct-Turbo — одна из самых сильных agentic‑моделей Qwen для программирования, ориентированная на Agentic Coding, Browser Use и другие базовые инженерные задачи. Она подходит для workflow с вызовом инструментов, навигацией по репозиториям и длинным контекстом и показывает производительность, сопоставимую с сильными моделями класса Claude Sonnet. Это хороший вариант для сложных кодинговых агентов и полуавтономной разработки.
Qwen/Qwen3-Coder-480B-A35B-Instruct-Turbo
вход ₽25.08
выход ₽114.00
Seed-1.8 256K ctx
ByteDance
Seed-1.8 — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Ориентирована на рассуждения и сложные задачи. Поддерживает кэширование промптов. Контекст до 256000 токенов.
ByteDance/Seed-1.8
вход ₽28.50
выход ₽228.00
Seed-2.0-mini 256K ctx
ByteDance
Seed-2.0-mini — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Ориентирована на рассуждения и сложные задачи. Поддерживает кэширование промптов. Контекст до 256000 токенов.
ByteDance/Seed-2.0-mini
вход ₽11.40
выход ₽45.60
claude-4-opus 200K ctx
anthropic
claude-4-opus — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Поддерживает управление глубиной рассуждений. Контекст до 200000 токенов.
anthropic/claude-4-opus
вход ₽1881.00
выход ₽9405.00
claude-4-sonnet 200K ctx
anthropic
claude-4-sonnet — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Поддерживает управление глубиной рассуждений. Контекст до 200000 токенов.
anthropic/claude-4-sonnet
вход ₽376.20
выход ₽1881.00
gpt-oss-120b-Turbo 131K ctx
openai
gpt-oss-120b-Turbo — вариант open‑source модели OpenAI `gpt-oss-120b`, доступный через DeepInfra. Подходит для задач рассуждений, агентных сценариев и общего промышленного использования, когда нужна совместимость с экосистемой `gpt-oss` через стороннего провайдера. Это практичный способ использовать модель в продакшене без прямого хостинга.
openai/gpt-oss-120b-Turbo
вход ₽17.10
выход ₽68.40
olmOCR-2-7B-1025 16K ctx
allenai
olmOCR-2-7B-1025 — модель для генерации текста и решения прикладных задач. Поддерживает мультимодальные входы (изображения и текст). Контекст до 16384 токенов.
allenai/olmOCR-2-7B-1025
вход ₽10.26
выход ₽21.66