meta-llama

Llama 3.2 11B Vision Instruct

meta-llama/llama-3.2-11b-vision-instruct

Llama 3.2 11B Vision — мультимодальная модель на 11 млрд параметров для задач, сочетающих визуальные и текстовые данные. Она хорошо подходит для описания изображений, visual Q&A и других сценариев, где требуется объединить генерацию языка с визуальными рассуждениями. Модель обучена на большом наборе пар «изображение‑текст» и подходит для анализа изображений, создания контента, клиентских ассистентов и исследовательских задач.

Контекст
131K
Вход / 1M
₽5.59
Выход / 1M
₽5.59
Выпущена
25 Sep 2024
Быстрый старт

Как использовать модель

Готовые примеры, где модель уже указана в запросе.

curl https://api.routify.ru/v1/chat/completions \
  -H "Authorization: Bearer $ROUTIFY_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/llama-3.2-11b-vision-instruct",
    "messages": [
      {"role": "system", "content": "Ты - полезный ассистент."},
      {"role": "user", "content": "Объясни, что такое API"}
    ]
  }'