Система где AI сначала находит релевантные фрагменты а потом отвечает

Автор: Артур Хайруллин | Дата публикации: 2025-07-27

Система, где AI сначала находит релевантные фрагменты, а потом отвечает

Почему RAG важен для работы с текстами?
В корпоративной среде объем текстовых данных — договоров, спецификаций, тикетов поддержки, бухгалтерских журналов — растет стремительно. Если скормить всё это обычной языковой модели, ответы часто получаются неточными или выдуманными. RAG решает проблему: сначала отбираются только релевантные фрагменты текста, а затем модель генерирует ответ на их основе, минимизируя ошибки.

Как построить RAG-систему для продакшена
Создание RAG-системы начинается с обработки данных. Нужно отсканировать бумажные документы (PDF, TIFF) или выгрузить данные из ERP-систем в форматах CSV или Excel. Важно учесть, что ошибки в OCR (например, от штампов или подписей) могут привести к дублированию данных. Для подготовки текста его токенизируют, разбивают на чанки (обычно 300–500 токенов) и нормализуют даты или номера. Разбиение по смыслу, а не просто по количеству слов, помогает сохранить контекст.

Далее текст преобразуется в векторы с помощью эмбеддинг-моделей, таких как sentence-transformers или OpenAI text-embedding-ada-002. Выбор модели критичен: слишком сложная увеличивает задержки, а слишком простая теряет точность. Векторы хранятся в индексах (например, Faiss, Milvus или Qdrant с HNSW), где неправильный выбор типа индекса может удвоить потребление памяти.

На этапе поиска по запросу (через REST или GraphQL) система извлекает топ-k релевантных фрагментов, фильтруя их по метаданным, таким как дата или тип документа. Эти фрагменты отправляются в языковую модель (например, ChatGPT или LLaMA) для генерации ответа. Превышение лимита токенов может вызвать ошибки, поэтому чанки нужно оптимизировать.

Для эксплуатации важно настроить мониторинг: логи в консоли, метрики в Prometheus и алерты в Grafana. Без метрик сложно понять, где система тормозит или ошибается. Для хранения векторов и текста требуется в 1,5–2 раза больше места, чем объем исходных данных. Например, для 200 ГБ архивных PDF нужно 350–400 ГБ на SSD с учетом RAID и бэкапов, особенно в бэк-офисе.

Примеры из практики
В одном проекте клиент загрузил архив счетов за 10 лет. OCR (Tesseract с кастомными словарями) давал 85% точности, но шумы (штампы, подписи) мешали. Пост-процессор для очистки текста и разбиение только по смысловым блокам ускорили поиск в 2–3 раза и устранили ошибки.

В другом кейсе сравнивались эмбеддинг-модели: sentence-transformers/all-MiniLM-L6-v2 и text-embedding-ada-002. Первая лучше работала с техническими терминами, но была медленнее (250 мс против 30 мс). Гибридный подход — быстрый ada с переходом на MiniLM при недостатке результатов — решил проблему.

В документообороте добавление метаданных (например, valid_until) и фильтрация по актуальности исключили выдачу устаревших договоров. При работе с 30 млн эмбеддингов для юридической фирмы Qdrant с HNSW показал на 15% лучшее качество поиска, чем Faiss, но требовал больше CPU. Гибридный подход с кэшированием в RAM ускорил работу.

Проблема с фронт-приложением возникла из-за сбоя в API-gateway (Kong) после обновления. Неправильный заголовок Content-Encoding ломал логи, но откат и проверка в CI/CD восстановили стабильность.

Типичные ошибки и их решения
Слишком большие чанки приводят к превышению лимита токенов — лучше делить текст по предложениям с окном в 300 токенов. Неподходящая эмбеддинг-модель снижает качество — тестируйте несколько моделей, оценивая MRR и recall. Без метаданных невозможно фильтровать данные по времени или типу, поэтому добавляйте атрибуты вроде docid или createdat. OCR-ошибки (например, путаница между «0» и «О») устраняются пост-процессингом и отраслевыми словарями. Неправильная индексация замедляет поиск — проводите бенчмарки на части данных, выбирая Faiss, HNSW или Qdrant. Без мониторинга (latency, error_rate, top-k relevance) деградация системы останется незамеченной — настройте дашборды в Grafana.

Преимущества RAG для бизнеса
RAG обеспечивает точные ответы, опираясь только на проверенные данные, что снижает риск выдумок. Систему легко обновлять: новые документы добавляются в индекс без переобучения модели. Она гибко адаптируется под разные роли пользователей (менеджеры, бухгалтеры, техподдержка) через фильтрацию по метаданным. RAG экономит ресурсы: поиск выполняется локально, а языковая модель вызывается разово. Для аудита и регуляторных проверок ответы привязываются к конкретным источникам, упрощая контроль.

Ключевые шаги для успешного RAG
- Сканируйте и очищайте данные, избегая дубликатов и ошибок OCR.
- Разбивайте текст на чанки с учетом смысла, а не только размера.
- Выбирайте эмбеддинг-модель, балансируя скорость и точность.
- Используйте подходящий векторный индекс (Faiss, Qdrant) и фильтруйте по метаданным.
- Настройте мониторинг и логи для быстрого выявления проблем.
- Планируйте достаточно дискового пространства с учетом бэкапов.

Что дальше?

Протестируй прямо сейчас

AI сначала находит фрагменты, а потом отвечает — добавьте файлы и протестируйте RAG прямо сейчас!