Обработка контента

Эта часть отвечает за то, чтобы любой документ стал "поисковым" и пригодным для работы с ИИ.

Как проходит обработка документа

Определение типа файла
Приложение определяет формат и выбирает подходящий способ чтения.
Извлечение текста
Для PDF, DOC/DOCX, текстовых форматов, а также для аудио (транскрибация) используется свой сценарий обработки.
Сохранение в базу дела
Текст, метаданные и служебная информация записываются в SQLite.
Индексация для поиска
Создается полнотекстовый индекс для быстрого поиска по содержимому.
Подготовка RAG (если включено)
Текст делится на фрагменты (чанки), чтобы можно было искать по смыслу и использовать контекст в ИИ.

если документ добавлен, но текст не извлечен, поиск по содержимому не сработает;
при изменении файла на диске документ может требовать переобработки;
для сканов и некачественных PDF результат зависит от OCR и качества исходника;
для аудио итог зависит от качества записи и выбранной модели транскрибации.

До отправки текста в ИИ можно применить:

Сопоставления сохраняются, чтобы после ответа ИИ выполнить обратную подстановку там, где это разрешено правилами.