Перейти к содержанию

Обработка контента

Эта часть отвечает за то, чтобы любой документ стал "поисковым" и пригодным для работы с ИИ.

Как проходит обработка документа

  1. Определение типа файла
    Приложение определяет формат и выбирает подходящий способ чтения.

  2. Извлечение текста
    Для PDF, DOC/DOCX, текстовых форматов, а также для аудио (транскрибация) используется свой сценарий обработки.

  3. Сохранение в базу дела
    Текст, метаданные и служебная информация записываются в SQLite.

  4. Индексация для поиска
    Создается полнотекстовый индекс для быстрого поиска по содержимому.

  5. Подготовка RAG (если включено)
    Текст делится на фрагменты (чанки), чтобы можно было искать по смыслу и использовать контекст в ИИ.

Что важно знать в работе

  • если документ добавлен, но текст не извлечен, поиск по содержимому не сработает;
  • при изменении файла на диске документ может требовать переобработки;
  • для сканов и некачественных PDF результат зависит от OCR и качества исходника;
  • для аудио итог зависит от качества записи и выбранной модели транскрибации.

Анонимизация в этом процессе

До отправки текста в ИИ можно применить:

  • ручные замены (например, ФИО, адреса, номера);
  • regex-правила для типовых шаблонов данных.

Сопоставления сохраняются, чтобы после ответа ИИ выполнить обратную подстановку там, где это разрешено правилами.