Skip to main content

LLM — Large Language Models

LLM — AI-продукт, предоставляющий организации возможности фундаментальных языковых моделей. Обеспечивает централизованный доступ к LLM для всех команд и продуктов.


Назначение

LLM как продукт решает задачу единого управления доступом к языковым моделям:

  • стандартизация использования LLM в организации
  • контроль затрат и безопасности
  • обеспечение других AI-продуктов (Knowledge Assistant, Code Agent, Automation AI) базовыми возможностями генерации

Варианты развёртывания

Организация выбирает модель развёртывания в зависимости от требований:

  • Облачные API — OpenAI, Anthropic, Google; минимальные затраты на инфраструктуру, быстрый старт
  • On-premise / Private Cloud — развёртывание open-source моделей (Llama, Mistral, Qwen); полный контроль данных
  • Гибридный — облачные API для некритичных задач, on-premise для чувствительных данных

Сценарии использования

LLM применяется для широкого спектра задач:

  • генерация текстов (отчёты, письма, документация)
  • суммаризация документов
  • классификация и категоризация
  • извлечение информации из неструктурированных данных
  • перевод и локализация
  • генерация кода
  • анализ тональности

Ключевые решения

При формировании LLM-продукта необходимо принять следующие решения:

  • Cloud vs. On-premise — баланс между стоимостью, конфиденциальностью данных и латентностью
  • Выбор моделей — какие модели использовать для каких задач (стоимость vs. качество)
  • Fine-tuning vs. Prompting — дообучение модели под задачу или работа через промпт-инжиниринг
  • Управление затратами — токен-экономика, бюджетирование, лимиты на команды

Инфраструктура

Инфраструктура LLM-продукта включает:

  • GPU-кластеры — для on-premise развёртывания и fine-tuning
  • API Gateway — маршрутизация запросов, rate limiting, аутентификация
  • Prompt Management — управление и версионирование промптов
  • Guardrails — фильтрация входов и выходов (safety, compliance)
  • Observability — логирование запросов, метрики качества, мониторинг затрат
  • Кэширование — снижение затрат на повторяющиеся запросы

Управление затратами

Затраты на LLM могут быстро расти. Необходимо:

  • отслеживать потребление по командам и продуктам
  • устанавливать лимиты и квоты
  • выбирать модель подходящего размера для задачи
  • использовать кэширование для типовых запросов
  • оптимизировать промпты для снижения количества токенов

Риски

  • Конфиденциальность данных — передача чувствительной информации во внешние API
  • Галлюцинации — генерация недостоверной информации
  • Vendor lock-in — зависимость от одного провайдера
  • Регуляторные требования — соответствие требованиям к обработке данных

Связанные разделы

Knowledge Assistant (RAG)