nvidia

Llama 3.3 Nemotron Super 49B V1.5

nvidia/llama-3.3-nemotron-super-49b-v1.5

Llama-3.3-Nemotron-Super-49B-v1.5 — англоцентричная модель рассуждений/чата на 49B параметров, производная от Meta Llama-3.3-70B-Instruct с контекстом 128K. Она пост‑обучена для агентных рабочих процессов (RAG, вызов инструментов) через SFT на математике, коде, науке и многоходовом чате, затем через несколько стадий RL: Reward‑aware Preference Optimization (RPO) для выравнивания, RL with Verifiable Rewards (RLVR) для пошаговых рассуждений и итеративное DPO для улучшения поведения при использовании инструментов. Дистилляционно‑управляемый Neural Architecture Search («Puzzle») заменяет часть attention‑блоков и варьирует ширину FFN для уменьшения памяти и повышения throughput, позволяя развёртывание на одном GPU (H100/H200) при сохранении следования инструкциям и качества CoT. Во внутренних оценках (NeMo-Skills, до 16 прогонов, temp = 0.6, top_p = 0.95) модель показывает сильные результаты по рассуждениям/кодингу: например, MATH500 pass@1 = 97.4, AIME-2024 = 87.5, AIME-2025 = 82.71, GPQA = 71.97, LiveCodeBench (24.10–25.02) = 73.58 и MMLU-Pro (CoT) = 79.53. Модель ориентирована на практическую эффективность инференса (высокие токены/с, сниженное потребление VRAM) с поддержкой Transformers/vLLM и явными режимами «reasoning on/off» (по умолчанию chat‑first; при отключении рекомендуется greedy). Подходит для построения агентов, ассистентов и систем долговременного поиска, где важен баланс точности/стоимости и надёжное использование инструментов.

Открыть чат Сравнить

Контекст

131K

Вход / 1M

₽11.40

Выход / 1M

₽45.60

Выпущена

10 Oct 2025

Быстрый старт

Как использовать модель

Готовые примеры, где модель уже указана в запросе.

curl https://api.routify.ru/v1/chat/completions \
  -H "Authorization: Bearer $ROUTIFY_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/llama-3.3-nemotron-super-49b-v1.5",
    "messages": [
      {"role": "system", "content": "Ты - полезный ассистент."},
      {"role": "user", "content": "Объясни, что такое API"}
    ]
  }'

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["ROUTIFY_API_KEY"],
    base_url="https://api.routify.ru/v1",
)

response = client.chat.completions.create(
    model="nvidia/llama-3.3-nemotron-super-49b-v1.5",
    messages=[
        {"role": "system", "content": "Ты - полезный ассистент."},
        {"role": "user", "content": "Объясни, что такое API"},
    ],
)

print(response.choices[0].message.content)

const response = await fetch("https://api.routify.ru/v1/chat/completions", {
  method: "POST",
  headers: {
    "Authorization": `Bearer ${process.env.ROUTIFY_API_KEY}`,
    "Content-Type": "application/json",
  },
  body: JSON.stringify({
    model: "nvidia/llama-3.3-nemotron-super-49b-v1.5",
    messages: [
      { role: "system", content: "Ты - полезный ассистент." },
      { role: "user", content: "Объясни, что такое API" }
    ]
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);