Февраль 2026
Никита Устриков
CPO Робота Макса
Как Госуслуги внедрили LLM в Робота Макса
и вырастили точность ответов
РТЛабс — компания, которая отвечает за разработку и эксплуатацию государственных цифровых сервисов. Работает с одним из самых высоконагруженных продуктов в стране: порталом Госуслуги, семейством мобильных приложений Госуслуги Авто, Госуслуги Моя Школа, Госуслуги Болельщик, Единая система идентификации и аутентификации (ЕСИА).

Госуслуги — крупнейший в России сервис для получения государственных услуг в электронном виде. Портал объединяет более 2000 услуг: от записи к врачу до регистрации бизнеса. Ежедневная аудитория портала — около 13 млн человек.

Робот Макс — AI-ассистент Госуслуг, который помогает пользователям находить нужные услуги и отвечает на вопросы о государственных сервисах. Доступен в веб-версии портала, мобильном приложении и на голосовой линии поддержки.
  • TL;DR

    Решение: РТЛабс интегрировал LLM в Робота Макса. Выстроили управляемый пайплайн с промпт-инжинирингом против галлюцинаций, гибридный векторный поиск и систему динамического выбора моделей под каждый кластер запросов.

    Результат: DAU вырос с 1 до 2.7 млн за 2 года. CSAT поднялся с 59% до 73%. Более 100 млн ответов через LLM, прогноз к маю 2026 — 1 млрд. 95% пользователей работают с версией на LLM

Проблема: 78% качественных ответов недостаточно для государственного сервиса

Качество ответов AI-ассистента зависит от двух факторов: полноты (как много он знает) и точности (насколько уверенно ориентируется в своих знаниях).

У людей низкая терпимость к ошибкам в государственном контексте: одна неточность может привести к оттоку пользователя на несколько месяцев.

Поэтому ключевая метрика команды — доля качественных ответов с первого раза, когда человеку не нужно переформулировать запрос или искать информацию в другом месте.

Стартовые показатели Робота Макса на начало 2023 года:
78% качественных ответов с первого раза
59% CSAT (доля лайков от пользователей)

Услуги с нетривиальным сценарием невозможно закрыть классическими методами?

Из 2000 услуг Госуслуг около 200 дают более 90% всех заказов. Это популярные услуги вроде записи к врачу, получения выписки из ЕГРН, записи в ГИБДД или МВД.

Остальные 1800 услуг — редкие, сложные и разнообразные сценарии. Например, получение разрешения на строительство в водоохранной зоне или оформление льгот для определенных категорий граждан.

Топ-200 услуг команда закрыла классическими инструментами: ML-классификаторами, готовыми навыками для бота и полнотекстовым поиском по базе знаний. Но масштабировать этот подход на все 1800 оставшихся услуг оказалось неэффективно: слишком дорого и долго.

Даже если увеличить объем контента в базе знаний в сотни раз, существующие инструменты не справились бы с точным поиском нужной информации в таком массиве данных.
Примеры того, как работали классические инструменты
Быстрый Proof-of-Concept на базе больших языковых моделей показал команде, что LLM помогут добиться лучшего результата.

Решение: облачные LLM vs собственная инфраструктура

Первое стратегическое решение, которое нужно было принять — работать в облаке или строить собственную инфраструктуру (on-prem).

Собственная инфраструктура требует колоссальных ресурсов:
    • Сначала нужен микрокластер для первых экспериментов и тестов
    • Потом полноценный ЦОД с GPU для production-нагрузки
    • Система управления и мониторинга моделей
    • Существенное усиление команды дата-сайентистов
    • Долгие сроки развертывания, высокие затраты, риски простоев при масштабировании
При этом команда не могла позволить себе строить дорогую инфраструктуру без гарантий результата. Нужно было быстро проверить гипотезу и получить результат.

Бенчмарк GuLU: проверка моделей в государственном контексте

Чтобы убедиться, что облачные LLM справляются с задачами в государственном контексте, команда разработала бенчмарк GuLU 1 (Gosuslugi Language Understanding).

Понятность для человека — ключевой принцип редполитики Госуслуг. Государственные документы часто написаны сложным канцелярским языком, и команде было важно проверить, умеют ли модели переводить с «государственного» языка на понятный человеческий язык без потери смысла и точности.

Что включает GuLU 1:
    • 200 вопросов по государственным услугам
    • 4 варианта ответа на каждый вопрос (итого 1000 вариантов)
    • 12 доменов: от налогов и недвижимости до здравоохранения и образования
Результаты первых тестов: 92-93% правильных ответов в облачных моделях от российских провайдеров.

Путь к продакшену: LLM — это не магическая коробка

Путь от первого успешного теста до полноценного продакшн-запуска занял месяцы работы над множеством проблем.

Проблема 1: Галлюцинации даже при использовании RAG

Для пользователей Госуслуг достоверность информации критична — люди принимают важные решения на основе полученных ответов. Поэтому команда с самого начала применила RAG: модель отвечает только на основе информации из внутренней базы знаний Госуслуг.

Казалось бы, RAG должен был решить проблему галлюцинаций, но нет.
Пример галлюцинаций
Решение: Выстроили управляемый пайплан с промпт-инжинирингом, контролем контекста и ​​постобработкой ответов модели. Это помогло снизить количество галлюцинаций, повысить достоверность и предсказуемость ответов, не теряя при этом их полноты и глубины.

Проблема 2: Обход этических ограничений и манипуляции с контекстом

Вторая группа проблем — управление контекстом и попытки пользователей обойти встроенные этические ограничения моделей.
Пример с «Битвой бабуинов»
Решение: Команда добавила модули для валидации запросов пользователей и контроля контекста перед передачей в языковую модель.

Проблема 3: Отсутствие структуры в ответах модели

Базово ответ языковой модели выглядел как сплошной монолитный текст без структуры, форматирования или разметки.
Решение: Создали обертку, которая структурирует текст от модели — добавляет заголовки, списки, выделения важных моментов и другие элементы форматирования в зависимости от типа вопроса и содержания ответа.

Проблема 4: Слишком жесткие встроенные этические фильтры

Чтобы не допустить провокаций и неэтичного использования моделей, облачные провайдеры выстраивают сложную многоуровневую систему этических фильтров. Для Госуслуг эта система оказалась слишком жесткой и начала блокировать легитимные запросы.

Например, модели просто отказывались отвечать на большинство вопросов, связанных с выборами — считали их потенциально провокационными. При этом выборы были одной из ключевых тем в определенные периоды, и пользователи массово задавали нормальные вопросы про процедуру голосования, документы для участия и так далее.
Решение: Команда внедрила свой слой этики поверх встроенных фильтров провайдеров. Это позволило гибко работать с вопросами, касающимися государства и политики, не снижая при этом общий уровень защиты от действительно неэтичных запросов.

Проблема 5: Проблемы с производительностью под нагрузкой

При количестве запросов выше 25 в секунду система начинала давать отклики с задержкой свыше 10 секунд или вообще уходила в таймауты.

Для сервиса с миллионной аудиторией это было критично — в пиковые часы количество запросов легко превышало эти значения в разы.
Метрики отказоустойчивости при нагрузочном тестировании
Решение: Облачные партнеры для команды Госуслуг выделили расширенные квоты и оптимизировали инфраструктуру, после чего стабильность системы восстановилась даже при высоких нагрузках.

Проблема 6: Поиск по базе знаний требовал улучшения

Качество ответа пользователю зависит от качества работы всех компонентов пайплайна, и поиск релевантной информации в базе знаний — критичный этап. Если в RAG-систему попадет нерелевантный контекст, даже самая мощная LLM не сможет дать хороший ответ.

Команда протестировала разные подходы к поиску — сравнила собственный полнотекстовый поиск с Yandex Search API, работающим по закрытой базе знаний Госуслуг. Также экспериментировали с векторными базами данных и гибридными подходами.
Решение: Остановились на гибридном решении — использовали векторизацию текстов от Яндекса и создали собственный векторный поиск, оптимизированный под специфику государственных услуг. Это решение показало прирост точности на 7% по сравнению с классическим полнотекстовым поиском.

Первые результаты: beta-запуск показал 90% ответов с первого раза

Приближаясь к запуску beta-версии Робота Макса с интегрированными большими языковыми моделями, команда наконец получила ожидаемые результаты на тестовых данных. Теперь модель:
Учитывает контекст вопроса.
И ищет ответы по всем источникам на Госуслугах — каждой доступной странице с контентом, а не только в базе знаний для бота.
Строит пошаговые инструкции.
Она объединяет данные из нескольких источников в логичный путь, который легко выполнить пользователю.
Поддерживает гибкий формат ответа.
Если вопрос требует короткого ответа — модель отвечает тезисно, без лишней воды. Но при этом дает возможность продолжить диалог по теме и задать уточняющие вопросы.
Сохраняет контекста диалога.
Модель стала глубже запоминать контекст предыдущих сообщений в диалоге.
По замерам на ретроспективных данных перед запуском команда получила значительное улучшение: вместо 78% качественных ответов с первого раза система показывала порядка 90%.
На beta-запуске 9 из 10 пользователей получали нужную информацию сразу, без необходимости переформулировать вопрос.

Управляемый запуск beta-версии

Команда осознанно запускала beta-версию в управляемом формате, с возможностью включать и настраивать режим работы с большими языковыми моделями для разных сегментов аудитории.

В продакшен-среде люди всегда ведут себя иначе, чем в тестах. Они задают неожиданные вопросы, пытаются использовать систему для нестандартных задач, меняют свою модель поведения. Все это требует мгновенной корректировки настроек и промптов.

Beta-версия и постепенная раскатка на все большие сегменты аудитории помогли команде быстро отладить новый режим работы на реальных пользователях, не рискуя при этом качеством сервиса для всей многомиллионной аудитории сразу.

Метрики на первых 5% аудитории превзошли ожидания

  • Возвращаемость пользователей выросла в 2.5 раза.
    Почти 70% из тех, кто воспользовался новой версией бота, вернулись задать новые вопросы в течение следующих двух недель.
  • Количество сложных вопросов выросло в 3.5 раза.
    Доля многосоставных вопросов, требующих развернутого ответа с несколькими частями, выросла до 28%.
  • Доля уникальных вопросов выросла в 2.5 раза.
    Доля вопросов, которые задаются всего 1 раз за сутки (то есть очень специфичных, нешаблонных запросов), выросла до 40%.

Результаты масштабирования: DAU вырос в 2 раза за 2 года

За прошедшие 2 года с момента первых экспериментов команда Госуслуг прошла путь от поиска лучшего технического решения до масштабирования на всю многомиллионную аудиторию портала.
Охват аудитории
Сейчас 95% пользователей Робота Макса по умолчанию используют версию с интегрированными большими языковыми моделями.
Рост активной аудитории
Уникальная дневная аудитория (DAU) Робота Макса выросла за 2 года больше, чем в 2 раза: с 1 миллиона пользователей в день до 2.7 миллиона.
Удовлетворенность пользователей
CSAT (доля положительных оценок от пользователей) находится на отметке 73% — это существенный рост с исходных 59%.
Объем обработанных запросов
Более 100 миллионов ответов было дано пользователям через систему с большими языковыми моделями. По прогнозу команды, уже к маю 2026 года этот показатель перейдет отметку в 1 миллиард ответов — это колоссальный масштаб применения LLM в государственном сервисе.

Продолжение развития: умный пайплайн для выбора моделей

После успешного запуска и масштабирования команда продолжила улучшать качество ответов за счет более сложной архитектуры системы.

Сейчас внутри у Робота Макса не просто пайплайн с последовательным вызовом поиска и языковой модели. Команда добавила интеллектуальные инструменты, решающие две важные задачи.

Автоматическая адаптация запросов пользователей

Аудитория на Госуслугах разнообразная: молодежь, семьи с детьми, пожилые пользователи, госслужащие. У всех разные стили общения и разная глубина формулировки запросов.

Специальный механизм нормализует вопрос пользователя — сохраняет его исходный смысл и все важные детали, но делает формулировку более понятной для языковой модели. Это повышает точность финального ответа.

Динамический выбор лучшей модели для каждого типа запросов

Внутри пайплайна реализован интеллектуальный механизм, который по ретроспективным данным анализирует, какая из доступных языковых моделей лучше справляется с конкретным кластером запросов, и автоматически направляет вопрос туда, где результат будет точнее и качественнее.
Схема пайплайна в Роботе Максе

Применение AI в экосистеме Госуслуг

Команда расширила использование AI на несколько других продуктов в экосистеме Госуслуг. Это позволяет получить синергетический эффект и улучшить пользовательский опыт на всех точках контакта.

Кейс 1: Конструктор знаний, где AI помогает создавать контент для бота

  • Что это за продукт
    Конструктор знаний — это внутренний инструмент, в котором сотрудники государственных организаций создают сценарии и ответы для AI-ассистента. Это позволяет экспертам из разных ведомств самостоятельно обучать бота, не привлекая каждый раз команду разработки.
  • Масштаб использования
    К системе Конструктора знаний уже подключены 85 регионов России, 10 федеральных органов исполнительной власти и несколько государственных организаций.
  • Две AI-функции в Конструкторе
    Функция 1: Рефразер. Сотрудник может загрузить неструктурированный текст из документа или регламента, и модель превратит его в читаемый, клиентоцентричный контент, соответствующий редполитике Госуслуг.
Так устроена функция Рефразер
  • Функция 2: Автоматическая проверка качества контента. Модель оценивает созданные ответы и сценарии по 10-балльной шкале качества. Она подсвечивает места, где текст не соответствует редполитике Госуслуг — например, использует канцелярские обороты или содержит неточные формулировки.
Раньше срок от начала подготовки контента до публикации составлял три часа, сейчас этот процесс занимает всего двадцать минут — ускорение в 9 раз.
  • Возможности AI-инструментов из Конструктора знаний открыты для всех продуктов в экосистеме Госуслуг через внутреннее API. Сейчас к ним подключается система ВКУ (Виртуальный Конструктор Услуг) для автовалидации контента при публикации новых услуг на портале.

Кейс 2: Единая система поддержки с Co-pilot для операторов

В 2025 году команда Госуслуг создала контакт-центр под названием Единая система поддержки (ЕСП). Это решение для работы операторов службы поддержки, которое объединяет все инструменты в одном интерфейсе.
  • Возможности ЕСП
    • Рабочее место оператора с полным контекстом предыдущего общения пользователя с Роботом Максом
    • Полная информация об услугах пользователя, истории его обращений и статусе заявлений
    • Детальные метрики эффективности работы — по каждому оператору, по скилл-группам или по всему контакт-центру
    • Инструменты для эскалации сложных случаев и передачи контекста между операторами
  • Ключевой элемент: AI Co-pilot
    Co-pilot на базе LLM анализирует обращение пользователя по мере того, как оператор его читает, и проактивно предлагает готовые ответы на основе базы знаний и успешных решений прошлых обращений.

    В будущем Co-pilot будет выполнять функции troubleshooting. Пока оператор читает сообщение клиента, система в фоновом режиме будет проверять возможные технические проблемы — доступность услуги, корректность данных пользователя.

Кейс 3: Голосовая линия, где 100% запросов обрабатывает AI

Сегодня 100% всего входящего трафика на голосовую линию Госуслуг уже обрабатывается Роботом Максом с интегрированными LLM.

Команда оптимизировала пайплайн, чтобы снизить задержку генерации ответа. После генерации ответ адаптируется под голосовой канал, обогащается SSML-разметкой и оптимизируется по длине.

Кейс 4: Автоматическое пополнение базы знаний

Благодаря интеграции Робота во все каналы коммуникации Госуслуги научились накапливать новые знания. Система выявляет ответы, которые дают живые операторы, но которых еще нет в базе Робота. Это значит, что решение возникло в ходе работы второй и третьей линий поддержки.

Сейчас процесс автоматизирован: AI валидирует и унифицирует новые ответы, а человеку остается лишь финальная проверка. В перспективе этот процесс станет полностью автономным — при сохранении надежности и безопасности.
Схема накопления знаний

Результаты внедрения

До 2,7 млн
Выросла дневная аудитория Робота Макса за 2 года
73% CSAT
Удовлетворенность пользователей
100 млн+
Ответов дано пользователям через систему с LLM. Прогноз к маю 2026 — 1 млрд
70%
Входящего трафика на голосовую линию обрабатывается AI без участия оператора
95%
Пользователей Робота Макса работают с версией на базе LLM
Команда проекта

Что дальше: развитие AI-агентов для автоматизации услуг

Команда Госуслуг продолжает развивать применение искусственного интеллекта в разных направлениях. Следующий большой кейс — использование AI-агентов для автоматизации адаптации государственных услуг в диалоговый формат. AI-агенты решают другую задачу — как быстро превратить тысячи существующих услуг из традиционных веб-форм в удобный диалоговый формат.

Больше про AI на Госуслугах и не только читайте в телеграм-канале CPO Робота Макса Никиты Устрикова: https://t.me/ustrikovn.

Другие кейсы