Обработка контента
Эта часть отвечает за то, чтобы любой документ стал "поисковым" и пригодным для работы с ИИ.
Как проходит обработка документа
-
Определение типа файла
Приложение определяет формат и выбирает подходящий способ чтения. -
Извлечение текста
Для PDF, DOC/DOCX, текстовых форматов, а также для аудио (транскрибация) используется свой сценарий обработки. -
Сохранение в базу дела
Текст, метаданные и служебная информация записываются в SQLite. -
Индексация для поиска
Создается полнотекстовый индекс для быстрого поиска по содержимому. -
Подготовка RAG (если включено)
Текст делится на фрагменты (чанки), чтобы можно было искать по смыслу и использовать контекст в ИИ.
Что важно знать в работе
- если документ добавлен, но текст не извлечен, поиск по содержимому не сработает;
- при изменении файла на диске документ может требовать переобработки;
- для сканов и некачественных PDF результат зависит от OCR и качества исходника;
- для аудио итог зависит от качества записи и выбранной модели транскрибации.
Анонимизация в этом процессе
До отправки текста в ИИ можно применить:
- ручные замены (например, ФИО, адреса, номера);
- regex-правила для типовых шаблонов данных.
Сопоставления сохраняются, чтобы после ответа ИИ выполнить обратную подстановку там, где это разрешено правилами.