Сравнение моделей Mistral Small 3.2 24B vs Llama 3.3 Nemotron Super 49B V1.5

Сравнение моделей Mistral Small 3.2 24B vs Llama 3.3 Nemotron Super 49B V1.5 по цене, контексту и дате релиза.

mistralai

Mistral Small 3.2 24B

mistralai/mistral-small-3.2-24b-instruct

Mistral-Small-3.2-24B-Instruct-2506 — обновлённая 24B‑модель от Mistral, оптимизированная для следования инструкциям, снижения повторов и улучшенного вызова функций. По сравнению с релизом 3.1 версия 3.2 заметно повышает точность на WildBench и Arena Hard, уменьшает бесконечные генерации и улучшает работу с инструментами и задачами структурированных выходов. Поддерживает входы изображение+текст со структурированными выходами, вызов функций/инструментов и сильные результаты в программировании (HumanEval+, MBPP), STEM (MMLU, MATH, GPQA) и vision‑бенчмарках (ChartQA, DocVQA).

Контекст 128K

Вход / 1M ₽8.55

Выход / 1M ₽22.80

Выпущена 20 Jun 2025

К модели

nvidia

Llama 3.3 Nemotron Super 49B V1.5

nvidia/llama-3.3-nemotron-super-49b-v1.5

Llama-3.3-Nemotron-Super-49B-v1.5 — англоцентричная модель рассуждений/чата на 49B параметров, производная от Meta Llama-3.3-70B-Instruct с контекстом 128K. Она пост‑обучена для агентных рабочих процессов (RAG, вызов инструментов) через SFT на математике, коде, науке и многоходовом чате, затем через несколько стадий RL: Reward‑aware Preference Optimization (RPO) для выравнивания, RL with Verifiable Rewards (RLVR) для пошаговых рассуждений и итеративное DPO для улучшения поведения при использовании инструментов. Дистилляционно‑управляемый Neural Architecture Search («Puzzle») заменяет часть attention‑блоков и варьирует ширину FFN для уменьшения памяти и повышения throughput, позволяя развёртывание на одном GPU (H100/H200) при сохранении следования инструкциям и качества CoT. Во внутренних оценках (NeMo-Skills, до 16 прогонов, temp = 0.6, top_p = 0.95) модель показывает сильные результаты по рассуждениям/кодингу: например, MATH500 pass@1 = 97.4, AIME-2024 = 87.5, AIME-2025 = 82.71, GPQA = 71.97, LiveCodeBench (24.10–25.02) = 73.58 и MMLU-Pro (CoT) = 79.53. Модель ориентирована на практическую эффективность инференса (высокие токены/с, сниженное потребление VRAM) с поддержкой Transformers/vLLM и явными режимами «reasoning on/off» (по умолчанию chat‑first; при отключении рекомендуется greedy). Подходит для построения агентов, ассистентов и систем долговременного поиска, где важен баланс точности/стоимости и надёжное использование инструментов.

Контекст 131K

Вход / 1M ₽11.40

Выход / 1M ₽45.60

Выпущена 10 Oct 2025

К модели