Автоматизация тендеров с AI: парсинг, LLM, RAG | JimmyNeuron

Работа с тендерами отнимает у компаний десятки часов: поиск подходящих заказов, проверка требований, формирование заявок и документов. Мы автоматизировали этот процесс с помощью AI и внутренних инструментов — и сократили время на один тендер с нескольких часов до 20–30 минут. В этой статье подробно разбираем задачу клиента, архитектуру решения, используемые термины и технологии, а также полученные результаты и практические выводы для бизнеса и стартапов.

Задача клиента

Клиент участвует в госзакупках и коммерческих тендерах. Сотрудники вручную мониторили площадки (zakupki.gov.ru, коммерческие площадки), скачивали документацию, читали технические задания и собирали пакет ответов. На одну заявку уходило несколько часов; при высокой загрузке часть тендеров пропускали из-за нехватки времени.

Что такое тендер и зачем его автоматизировать

Тендер — это формализованная процедура отбора подрядчика на выполнение работ или поставку товаров. Для бизнеса это инструмент получения заказов, но процесс участия включает множество рутинных операций: мониторинг площадок, сбор и верификация документов, подготовка коммерческих предложений и соблюдение формальных требований. Автоматизация тендерного процесса — это внедрение инструментов, которые уменьшают ручную работу, повышают скорость реакции и снижают риск ошибок. Для компаний с регулярными закупками это прямой путь к масштабированию объёма подаваемых заявок и улучшению показателей конверсии.

Типичные боли

Ошибки в оформлении и несоответствие формальным требованиям приводили к отклонению заявок. Копипаст из старых документов создавал риски неактуальности и несоответствия конкретному ТЗ. Менеджеры тратили большую часть времени на рутину, а не на оценку целесообразности участия и содержательную часть ответа. В результате — упущенные возможности и растущие издержки на подготовку одной заявки.

Решение: парсинг, фильтры и LLM

Мы внедрили систему из трёх частей: сбор данных с площадок, отбор по критериям и генерация черновиков с помощью AI. Ниже — развернутое описание каждого блока, ключевых технологий и того, как они работают вместе.

Архитектурный обзор: что входит в систему

Система состоит из нескольких компонентов: парсер (сборщик данных), модуль фильтрации и ранжирования, подсистема хранения и поиска (поиск по текстам, embeddings), LLM-модуль для анализа и генерации ответов, модуль валидации и выгрузки документов по шаблонам. Между модулями находятся каналы интеграции: API, вебхуки, очереди сообщений и cron-задачи для планового запуска. Такая архитектура делает решение масштабируемым и расширяемым.

Парсер тендерных площадок — что это и как работает

Парсер — программный модуль, который автоматически собирает данные с целевых сайтов и агрегаторов. В контексте тендеров парсер периодически (по расписанию или в режиме реального времени) проверяет площадки, обнаруживает новые лоты и скачивает документацию: извещениях, спецификациях, образцах договоров и формализованных формах.

Типы данных: HTML-страницы, PDF, DOCX, изображения.
Инструменты: HTTP-клиенты, селекторы DOM, XPath/ CSS-селекторы, API площадок (если доступны).
Сложности: антибот-защиты, капчи, структурно разнородные документы и вложенные архивы.

Парсер превращает разрозненные документы в структурированные данные: метаданные (номер лота, заказчик, сроки), текстовые поля, вложения. Часто в парсере применяется OCR (оптическое распознавание текста) для извлечения текста из отсканированных PDF и изображений. Это важная часть процесса, потому что значительная доля официальных документов приходит в виде сканов.

Фильтрация и приоритизация тендеров — почему это важно

Фильтр — это бизнес-правила, которые отсеивают нерелевантные лоты. Типичные критерии: отрасль, сумма контракта, регион, сроки подачи, требования к квалификации, наличие обеспечений или специальных сертификатов. Чем точнее настройки фильтра, тем меньше ложных срабатываний и тем более релевантные заявки попадают в работу менеджера.

Ранжирование — это моделирование приоритетов: какие тендеры стоит обрабатывать в первую очередь. Ранжирование может учитывать вероятную маржинальность, срок исполнения, грузоподъёмность команды и историю успешных побед. Для ранжирования часто применяют скоринговые модели и эвристики, а также similarity search (поиск по векторным embedding) для сопоставления ТЗ с профилем компании.

Анализ ТЗ и генерация черновика — роль LLM и RAG

LLM (large language model) — большие языковые модели, обученные на широком корпусе текстов и способные выполнять задачи понимания и генерации текста. В нашем решении LLM отвечает за:

извлечение ключевых требований из ТЗ;
сопоставление требований с внутренней базой знаний и кейсами компании;
генерацию черновика ответа: описание опыта, план работ, коммерческие предложения и обязательные формулировки.

Для повышения точности LLM работает в связке с Retrieval-Augmented Generation (RAG) — подходом, при котором модель получает к контексту релевантные документы из корпоративной базы знаний (кейсы, шаблоны, регламенты). Вместо того чтобы полагаться только на "память" модели, RAG подсовывает конкретные выдержки, что уменьшает вероятность галлюцинаций (вымышленных фактов) и повышает соответствие требованиям заказчика.

Шаблоны документов и генерация по структуре

Генерация текста должна соответствовать формальным требованиям площадок: формат, структура, нумерация, обязательные поля. Для этого используются шаблоны документов (document templates), которые задают схему выходного пакета: заголовки, таблицы, подписи, вложения. LLM генерирует текстовые блоки, а система вставляет их в шаблоны, проставляет метаданные и формирует финальную версию в требуемом формате (DOCX, PDF, XLSX).

Валидация и проверка соответствия — правила и схемы

После генерации черновика важно проверить соответствие формальным требованиям: все обязательные разделы заполнены, суммы указаны в нужном формате, дата и номера согласованы. Для этого применяются валидаторы — набор программных проверок, которые анализируют структуру документа и содержимое. Часто используется схема валидации: набор правил, основанных на бизнес-логике и требованиях площадки.

Интеграции: API, хранилище и безопасность

Система интегрируется с внутренними CRM, ERP и файловыми хранилищами клиента. Для передачи данных используются API и защищённые каналы (HTTPS, токены доступа). Хранение документов организовано в зашифрованных репозиториях с разграничением прав доступа по ролям (RBAC). При работе с персональными или конфиденциальными данными добавляются требования по безопасности и соответствию (например, шифрование на хранении и в транзите).

Как работает система на практике — пошаговый сценарий

Ниже мы описываем упрощённый сценарий, который демонстрирует, как все компоненты взаимодействуют при появлении нового тендера.

1. Обнаружение и сбор

Парсер проверяет список площадок каждые 10–30 минут. При обнаружении нового лота он скачивает сопровождающие документы и извлекает метаданные: номер тендера, заказчик, сроки, сумму и прикреплённые файлы. Если файл в формате изображения или скан, запускается OCR — текст превращается в машиночитаемый формат.

2. Первичная фильтрация и уведомление

Группа правил отсекает нерелевантные лоты (например, по сумме, отрасли или региону). Релевантные позиции попадают в рабочую очередь с приоритетом. Менеджер получает уведомление в интерфейсе ситемы или через корпоративный мессенджер с краткой карточкой лота и рекомендованным действием (участвовать/проанализировать позже).

3. Ретривал контекста и анализ ТЗ

Для каждого лота система формирует релевантный контекст: достаёт из базы кейсы, сертификаты, портфолио и шаблоны, которые совпадают по тематике или требованиям. Далее LLM с RAG анализирует ТЗ: выявляет обязательные критерии, риски, требования по документообороту и сроки. Результат — структурированный разбор ТЗ и список ключевых пунктов, требующих внимания менеджера.

4. Генерация черновика

На основе разбора и шаблонов LLM формирует черновик ответа: сопроводительное письмо, описание опыта, план работ и примерная ценовая структура. Все тексты подставляются в документ-шаблон и прогоняются через валидатор. Система предлагает менеджеру финальную версию с пометками, где требуются уточнения или подтверждения.

5. Ручная доработка и отправка

Менеджер проверяет черновик, вносит правки и прикрепляет недостающие документы (например, акты, лицензии). После финальной проверки система экспортирует пакет в требуемом формате и формирует архив для загрузки на площадку или отправки по API.

Технологии и термины — краткий словарь для бизнеса

Чтобы читать дальше было проще, приводим определения ключевых терминов, которые встречаются в статье и в подобных проектах.

Парсер

Программа, автоматизирующая сбор данных с веб-страниц и API. В случае тендеров парсер извлекает лоты, документы и метаданные, делая их доступными для последующей обработки.

OCR (оптическое распознавание символов)

Технология извлечения текста из изображений и PDF. Позволяет перевести картинку с печатным текстом в машинно-читаемый формат.

NLP (Natural Language Processing)

Область машинного обучения, связанная с обработкой естественного языка. Используется для извлечения требований из ТЗ, классификации документов, суммирования и анализа тональности.

LLM (Large Language Model)

Большие языковые модели, способные генерировать и понимать текст. Применяются для генерации черновиков, ответов на вопросы и интерпретации сложных формулировок.

RAG (Retrieval-Augmented Generation)

Подход, при котором генерация текста дополняется релевантными документами из внешнего хранилища. Уменьшает риск ошибок и повышает релевантность создаваемого контента.

Embedding и similarity search

Embedding — векторное представление текста. Similarity search позволяет искать семантически похожие документы по векторным представлениям. Помогает находить релевантные кейсы и шаблоны в базе знаний.

Шаблоны документов (document templates)

Структурированные форматы документов, которые соответствуют требованиям площадок. Шаблоны ускоряют сбор пакета и повышают шансы на прохождение валидации.

Валидация

Проверка соответствия документов формальным требованиям. Может включать как синтаксическую (форматы дат, чисел), так и семантическую (наличие обязательных разделов) проверку.

Результат

Время на подготовку одной заявки сократилось в 3–4 раза: с нескольких часов до 20–30 минут. Количество поданных заявок выросло при том же составе отдела. Качество оформления стабилизировалось — отказов по формальным причинам стало меньше. Ниже — более подробные метрики и практические эффекты.

Показатели эффективности

Снижение времени подготовки заявки: с 120–240 минут до 20–30 минут.
Увеличение числа поданных заявок: +30–70% в зависимости от начальной загрузки команды.
Снижение отказов по формальным причинам: сокращение на 40–80% в первичной воронке.
Увеличение конверсии (побед): часто наблюдается прирост за счёт более качественно подготовленных и своевременных заявок.

Примеры экономии времени

Пример 1: Раньше менеджер тратил 90 минут на поиск, скачивание и первичный разбор ТЗ. Парсер и фильтры делают это за считанные минуты, а LLM генерирует структурированный разбор и черновик за 10–15 минут. Пример 2: Совмещение шаблонов и автоматической валидации исключило необходимость ручной проверки нумерации и формата, что экономит дополнительно 10–20 минут.

Качество и консистентность

Автоматизация позволяет стандартизировать оформление — единые шаблоны, проверенные формулировки, единая база кейсов. Это важно для крупных компаний, где разные менеджеры ранее подготавливают заявки по-разному. Консистентность уменьшает риск отклонения и упрощает контроль качества.

Роль человека и AI

Автоматизация с AI не заменяет экспертизу: решение об участии, оценка рисков и финальная вычитка остаются за людьми. Но рутина — поиск, первичный разбор ТЗ и черновик текста — уходит в систему, и команда может фокусироваться на содержании и стратегии.

Человеческая компетенция важна для оценки коммерческой целесообразности, переговоров и управления рисками. AI выступает в роли ассистента: ускоряет процессы и повышает точность, но не принимает стратегических решений.

Риски, ограничения и допустимые практики

Важно понимать, что автоматизация не устраняет всех рисков. Ниже — основные ограничения и способы их минимизации.

Риск галлюцинаций и ошибки LLM

LLM может генерировать неточные факты (так называемые «галлюцинации»). Применение RAG и строгих валидационных правил снижает этот риск: модель опирается на реальные документы и шаблоны, а итоговый текст проходит проверку менеджера.

Юридические и компрометирующие данные

При работе с конкурентными, персональными или конфиденциальными данными важна защита и соответствие местному законодательству. Рекомендуется хранить чувствительные данные в локальных или сертифицированных хранилищах и ограничивать использование публичных облачных LLM для генерации без шифрования или контроля доступа.

Точность парсинга и поддержка форматов

Парсинг официальных площадок требует поддержки множества форматов и регулярного обновления правил в ответ на изменения в структуре сайтов. Хорошая практика — проектировать парсер модульно и иметь систему мониторинга ошибок парсинга.

Как начать автоматизацию тендеров в вашей компании

Ниже — практические шаги, которые помогут запустить похожий проект.

1. Оцените текущее состояние процесса

Проанализируйте, сколько времени уходит на каждую стадию: мониторинг, скачивание, анализ ТЗ, генерация документации, финальная проверка. Выделите этапы с наибольшей долей рутины и ошибок.

2. Сформируйте требования и KPI

Определите, какие метрики важны: время подготовки, количество поданных заявок, процент отказов по форме. Это поможет выбирать технологические решения и приоритизировать функционал.

3. Наладьте сбор данных

Запустите парсинг ключевых площадок и обеспечьте надёжное хранение и индексацию документов. Подумайте о OCR и обработке нестандартных форматов.

4. Постройте базу знаний

Соберите шаблоны, кейсы, договоры и референсы, которые будут использоваться при генерации. Чем богаче и качественнее база, тем точнее будут черновики.

5. Интегрируйте LLM с RAG и валидаторами

Используйте LLM для генерации и RAG для подстановки релевантного контекста. Настройте валидационные правила, которые автоматически проверяют соответствие формальным требованиям.

6. Начните с пилота

Запустите пилот на ограниченном наборе площадок или для выбранной категории тендеров. Это позволит быстро получить обратную связь и откалибровать систему до масштабирования.

Заключение

Автоматизация подпора заявок на тендеры с применением парсинга, фильтрации и LLM позволяет компаниям существенно ускорить и стандартизировать процесс участия в госзакупках и коммерческих тендерах. Мы помогли клиенту снизить время подготовки заявки в 3–4 раза, повысить количество поданных заявок и снизить долю формальных отказов. Это достижение стало возможным благодаря сочетанию технологий: парсинга, OCR, NLP, RAG и шаблонной генерации, а также грамотной интеграции в бизнес-процессы клиента.

Если вы участвуете в тендерах и хотите автоматизировать подготовку заявок, мы готовы обсудить практическое решение, которое подойдёт именно вашей компании. Обсудим проект →

Как мы автоматизировали работу с тендерами с помощью AI