LLM — Large Language Models

LLM — AI-продукт, предоставляющий организации возможности фундаментальных языковых моделей. Обеспечивает централизованный доступ к LLM для всех команд и продуктов.

Назначение

LLM как продукт решает задачу единого управления доступом к языковым моделям:

стандартизация использования LLM в организации
контроль затрат и безопасности
обеспечение других AI-продуктов (Knowledge Assistant, Code Agent, Automation AI) базовыми возможностями генерации

Варианты развёртывания

Организация выбирает модель развёртывания в зависимости от требований:

Облачные API — OpenAI, Anthropic, Google; минимальные затраты на инфраструктуру, быстрый старт
On-premise / Private Cloud — развёртывание open-source моделей (Llama, Mistral, Qwen); полный контроль данных
Гибридный — облачные API для некритичных задач, on-premise для чувствительных данных

Сценарии использования

LLM применяется для широкого спектра задач:

генерация текстов (отчёты, письма, документация)
суммаризация документов
классификация и категоризация
извлечение информации из неструктурированных данных
перевод и локализация
генерация кода
анализ тональности

Ключевые решения

При формировании LLM-продукта необходимо принять следующие решения:

Cloud vs. On-premise — баланс между стоимостью, конфиденциальностью данных и латентностью
Выбор моделей — какие модели использовать для каких задач (стоимость vs. качество)
Fine-tuning vs. Prompting — дообучение модели под задачу или работа через промпт-инжиниринг
Управление затратами — токен-экономика, бюджетирование, лимиты на команды

Инфраструктура

Инфраструктура LLM-продукта включает:

GPU-кластеры — для on-premise развёртывания и fine-tuning
API Gateway — маршрутизация запросов, rate limiting, аутентификация
Prompt Management — управление и версионирование промптов
Guardrails — фильтрация входов и выходов (safety, compliance)
Observability — логирование запросов, метрики качества, мониторинг затрат
Кэширование — снижение затрат на повторяющиеся запросы

Управление затратами

Затраты на LLM могут быстро расти. Необходимо:

отслеживать потребление по командам и продуктам
устанавливать лимиты и квоты
выбирать модель подходящего размера для задачи
использовать кэширование для типовых запросов
оптимизировать промпты для снижения количества токенов

Риски

Конфиденциальность данных — передача чувствительной информации во внешние API
Галлюцинации — генерация недостоверной информации
Vendor lock-in — зависимость от одного провайдера
Регуляторные требования — соответствие требованиям к обработке данных

Связанные разделы

Knowledge Assistant (RAG)

Назначение​

Варианты развёртывания​

Сценарии использования​

Ключевые решения​

Инфраструктура​

Управление затратами​

Риски​

Связанные разделы​