Тренд на RAG: разбираем новый стандарт архитектуры GenAI

Классические LLM не всегда могут дать корректный ответ: иногда они генерируют устаревшие данные. И это нормально: у них просто нет доступа к актуальному контексту. RAG решает эту проблему, потому что сочетает возможности LLM с динамическим поиском по внешним и внутренним базам знаний.

В статье разберем, что такое эти ваши технологии RAG, что такое агенты RAG, на чем они построены и на что компании делают упор. А еще расскажем, что ждет RAG как технологию в 2025 и почему это уже мощный тренд.

Главные технологии RAG

Векторные базы данных: поиск по смыслу, а не по словам

Сердце системы RAG (RetrievalAugmented Generation) — векторное хранилище, в котором текстовые данные представлены в виде числовых векторов. На практике это выглядит так: документы, статьи, FAQ и другие источники сначала разбиваются на небольшие логические фрагменты — абзацы или предложения. Каждый из них затем преобразуется в вектор — то есть в числовое представление смысла фрагмента — с помощью обученной модели-энкодера (например, BERT, SentenceTransformers, GTE и др.).

Далее векторы сохраняются в специальной базе — векторном хранилище, оптимизированном под быстрый поиск по смыслу, а не по ключевым словам. Это и позволяет системе RAG не просто искать точные совпадения, а находить релевантные фрагменты, даже если в запросе пользователя нет ни одного совпадающего слова.

Например, пользователь вводит: «Как настроить безопасное соединение?». Система не ищет документ с точной фразой, а превращает запрос в вектор и находит близкие по смыслу фрагменты — например, абзац с описанием настройки SSL/TLS. Такая логика особенно ценна при работе с объемной технической документацией, где одни и те же понятия могут быть описаны разными словами. Благодаря этому подходу RAG может обеспечить более точный поиск по базам знаний, документации, тикетам и другим корпоративным источникам.

Encoder models: как сделать поиск точным

Для преобразования текста в векторы в RAG-системах применяются специальные эмбеддинг-модели (embedding models) — они обучены «понимать» смысл текста и представлять его в виде многомерных числовых векторов. Один из самых популярных примеров — text-embedding-ada-002 от OpenAI. Эта модель широко используется в связке с GPT-4 и считается эффективным решением для задач семантического поиска. Именно с ее помощью можно, например, превратить статью, документацию или пользовательский запрос в вектор, который отражает суть текста, а не просто набор слов.

Качество эмбеддингов напрямую влияет на точность работы всей RAG-системы: если вектор плохо отражает смысл текста, модель не найдет релевантный контекст, и итоговый ответ будет неподходящим. Поэтому выбор embedding-модели — критически важный этап. Он определяет, насколько эффективно система сможет находить нужные фрагменты в большом объеме информации.

Отдельный тренд последних лет — instruct-embeddings. Это модели, обученные не просто кодировать текст, а учитывать намерение запроса пользователя. Например, если запрос — это инструкция, вопрос или гипотеза, модель старается уловить именно это намерение, а не только формулировку. Это особенно важно в реальных сценариях — таких как поиск в базе знаний, техподдержке или в документации, где пользователь может формулировать один и тот же смысл разными словами. Instruct-embeddings помогают существенно повысить точность и релевантность поиска, потому что они «понимают», зачем задается вопрос, а не только «о чем» он.

LLM для генерации: превращаем данные в ответы

Еще один ключевой компонент RAG-системы — генеративная модель, которая формирует финальный ответ. Она берет на вход два типа данных: запрос пользователя и фрагменты текста, найденные в векторной базе. Эти фрагменты добавляются к запросу в качестве контекста, и уже на основе этого дополненного ввода модель генерирует связный, осмысленный ответ — как будто она изначально знала всю нужную информацию.

Для этой задачи можно использовать любую LLM (large language model), способную воспринимать контекст в расширенном виде. На практике чаще всего используют модели от OpenAI (например, GPT-4), Anthropic (Claude), Mistral, Google Gemini или собственные LLM, обученные в компании под конкретную область (например, юридическую или медицинскую).

Есть одно технически важное условие: модель должна поддерживать большое контекстное окно. То есть уметь удерживать в памяти длинные цепочки текста. Чем больше окно, тем больше фрагментов из базы знаний можно передать модели вместе с вопросом. Это особенно критично, если вопрос сложный, и для ответа нужно учесть сразу несколько кусков информации. Если окно будет слишком узким — часть нужного контекста просто не поместится, и ответ окажется неполным или неточным.

Фреймворки: внедрение RAG без разработки

Построение RAG-системы включает кучу вспомогательных этапов: конвертация документов из PDF или DOCX в текст, разбиение на чанки, векторизация, организация индекса, генерация ответа и пост-обработка.

Для ускорения разработки существуют готовые фреймворки, например, такие, которые позволяют связать LLM с векторными хранилищами. Эти библиотеки берут на себя многие детали: можно указать путь к папке с документами — и за пару команд получить готовый REST API для вопросно-ответной системы на их основе.

Еще один вариант ускорить внедрение RAG — использовать готовое решение. Вы можете загрузить документацию и инструкции в Jay Knowledge Hub, проиндексировать их, а затем получать ответы с использованием этой информации. Читайте, как это сделали в КНАУФ.

Контроль качества и безопасность с помощью RAG

Поскольку LLM склонны иногда «выдумывать» ответ, в RAG-практиках все чаще используются дополнительные надстройки: Guardrails, Moderation API, LLM-checkers. Эти инструменты не уникальны для RAG, но особенно важны в связке с генерацией по внутренним данным: компании требуют, чтобы ответы не только были фактически верны, но и не разглашали лишнего.

Поэтому иногда внедряют ролевые модели и политики, ограничивающие, какой контент можно выдавать пользователю (например, чтобы внутренний бот не цитировал конфиденциальный документ целиком).

Вокруг LLM-систем формируется слой обеспечения надежности: отслеживание ошибок, журналирование запросов/ответов, а для RAG – еще и оценка полноты поиска (не пропустил ли поисковый модуль важный документ).

RAG и бизнес-применение

Расскажем о самых популярных вариантах использования RAG, которые уже обкатывают в компаниях.

Чат-бот для коммуникации с клиентами

Чат-боты на базе RAG могут анализировать внутренние технические характеристики продуктов, отзывы клиентов и рекомендации производителей. Например, клиент спросит: «Какой цемент лучше всего подходит для заливки фундамента в условиях повышенной влажности?» А чат-бот на базе RAG, в отличие от обычной LLM, найдет точный ответ в базе данных компании и даст конкретную рекомендацию из каталога компании.

Техническая поддержка

В поддержки RAG будет полезен для анализа описаний проблем и поиска аналогичных случаев в базе знаний. Например, у строителя возникла проблема с использованием материала. LLM с RAG сможет проанализировать проблему, проверить внутренние гайдлайны компании и предложить релевантное решение.

Умные корпоративные ассистенты

RAG позволяет сотрудникам быстрее находить информацию в больших массивах данных. Можно интегрировать данные из CRM, ERP и HR-систем с внешними источниками, такими как отраслевые отчеты и API. Например, маркетинговый отдел может анализировать отзывы клиентов и веб-аналитику для автоматического формирования отчетов, а HR-команда — ускорять подбор персонала за счет извлечения ключевой информации из резюме.

Фишка RAG в том, что бизнесу не нужно поддерживать актуальность данных так, как в случае с LLM. Без RAG пришлось бы регулярно обновлять цены, перечень товаров, отчетов — LLM пришлось бы обучать заново, а это всегда очень дорого. К тому же, если LLM получит запрос, который не будет входить в ту часть данных, на основе которых ее обучили, то она может выдавать ответы с галлюцинациями.

Тренды RAG в 2025: куда движется рынок

Широкое внедрение в компаниях и рост инвестиций

В 2024 году был взрывной ростом интереса к генеративному AI, и RAG стал стандартом для построения корпоративных AI-ассистентов. По данным Menlo Ventures, доля приложений с RAG выросла с ~31% до 51% всего за 2024 год — более половины компаний теперь используют RAG, тогда как доля fine-tuning моделей упала до 9%. Это значит, что компании предпочитают подмешивать свои данные в LLM при инференсе, нежели заниматься долгим и дорогим тренингом под каждую задачу.

От решения проблем галлюцинаций — к расширению возможностей модели

Изначально RAG рассматривался как «костыль» для решения ограничений LLM (статичность данных, галлюцинации). Однако сейчас роль RAG переосмысливается: это способ наделить модель доступом к динамическим данным и сделать ее частью более сложных цепочек рассуждений.

Появляется концепция AI-агентов, которые могут не только ответить по известной базе знаний, но и совершить действия: выполнить поиск, затем расчет, затем снова поиск, чтобы достичь цели. RAG здесь — компонент, позволяющий агенту при необходимости «спросить у базы/интернета» и использовать полученную информацию в своих шагах. 2024 год называют годом всплеска интереса к агентам, и в 2025 эта волна продолжится.

Решение проблемы данных: подготовка и обработка корпоративных знаний

Качество RAG-решения напрямую зависит от качества данных: если корпоративные документы хаотично разбросаны и слабо связаны, никакая супер-модель не вытащит из них смысл. Поэтому еще один тренд — инвестиции во внутренние хранилища знаний. Согласно исследованию MIT Sloan, компании пересматривают старые системы управления документами, вспоминают про концепции knowledge management.

Появляются и новые инструменты, помогающие автоматизировать подготовку данных — от парсеров и классификаторов документов до облачных «интеграторов» ко всем внутренним системам, чтобы собрать знания воедино. Но пока что, как отмечает MIT Sloan, загрузить «как есть» все документы в окно ChatGPT — не панацея: нужны люди, которые укажут модели, какие данные верные и важные. В краткосрочной перспективе роль человека в цикле RAG остается существенной — хотя бы на этапе верификации и отбора контента.

Комбинирование RAG с обучением моделей

Некоторые специалисты полагают, что на одних только подсказках и выборке далеко не уедешь, и предсказывают возврат интереса к дообучению моделей под свои данные, но в новом виде. Так, в обзоре Madrona Ventures указано, что RAG — это лишь отправная точка, а впереди — эволюция архитектуры AI+Data.

В 2025 году компаниям, вероятно, придется сочетать несколько подходов: использовать предобученные большие модели для общего понимания, среднеобучение (mid-training) – включать свои датасеты еще на стадии обучения модели-основы, финальное дообучение (fine-tuning) под конкретные задачи, а помимо этого — применять методы reinforcement learning и более длинные вычислительные цепочки при выводе (chain-of-thought, reasoning).

Все эти техники будут дополнять RAG, чтобы преодолеть его ограничения. Проще говоря, если данные компании сильно специфичны и не похожи на то, на чем училась LLM, то одной лишь подстановкой контекстов может не хватить — модель не сможет правильно интерпретировать данные.

Ожидается, что в 2025 появятся более простые инструменты для fine-tuning без больших затрат, и организации смогут обучать «частные LLM» на своих текстах, комбинируя это с RAG для актуальности. То есть формируется многоуровневая стратегия: общая LLM (общие знания) → специализированная модель (знания отрасли) → RAG (знания компании в данный момент). Это позволит AI давать ответы, максимально близкие по стилю и сути к тому, что нужно конкретному бизнесу.

Вывод

RAG уже стал бизнес-стандартом в AI-решениях. Компании, которые внедряют эту технологию, получают не просто чат-ботов, а мощные инструменты автоматизации и анализа.

Технологический стек вокруг RAG активно развивается: появляются более совершенные модели, базы и фреймворки, упрощающие внедрение. RAG фактически превращает статичные LLM в живые базы знаний с доступом к актуальной информации, — и именно в этом направлении и есть будущее корпоративного AI на 2025 годы.

«RAG уже активно меняет подход к поиску данных и становится одним из самых перспективных кейсов применения LLM для бизнеса в России. Если раньше поиск информации был удобен только в публичном секторе (через поисковики), сейчас он становится простым и доступным и в закрытом контуре компаний.

За счет прямого внедрения в инфраструктуру компании через интеграции с инструментами, например, Jira и Confluence, мы получаем полноценного поискового агента, говорящего на естественном языке и доступном для бизнеса любого размера. А с развитием AI-агентов этот инструмент станет уже не просто поисковиком, но и активным участником работы, который сможет выполнять рутинные действия (в перспективе и довольно сложные типа создания годового отчета) за человека».

Виталий Виноградов

Product owner в Just AI:

Вопрос теперь не в том, нужно ли внедрять RAG, а в том, как правильно его интегрировать в бизнес-процессы.

Другие материалы

Международные стартапы с генеративным AI

Тренды зарубежных стартапов на базе генеративного AI

Нейросети в российском ритейле

Кейсы применения генеративного ИИ от Ozon, X5 и Ecom.tech

Устройство стартапа по созданию презентаций с помощью нейросетей

Как придумать продукт на рынке генеративного искусственного интеллекта