mikmik888
Newbie | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Для индексации личной электронной библиотеки вещь конечно суперская! 5 баллов! Что не хватило мне: 1. Индексация djvu с текстовым слоем – без этого никуда. Один из основных форматов у нас. У того же Архивариуса3000 это есть. 2. Распознавание документов djvu и pdf - не знаю насколько это сложно сделать, но если бы можно было сразу распознавать документы без текстового слоя, то было бы очень здорово. 3. Удобный вывод всех найденных результатов на одной странице с настраиваемым пейджингом. То есть чтобы не листать по каждому документу все что нашло, а сразу просмотреть на одной странице все цитаты из документов с данным словосочетанием, конечно со ссылкой на документ первичный. Также в этом выводе результатов надо настраивать размер снипета вокруг найденного слова. Сейчас в левой колонке только очень краткий снипет. Когда результатов много надо чтобы можно было сразу прочитать побольше текста вокруг слова в одном месте. В идеале чтобы можно было настраивать на странице вывода снипетов их размер (причем повторюсь выводить все снипеты в правой колонке, где много места): a. одно предложение, где встречается искомое слово или словосочетание b. абзац, где встречается слово или словосочетание c. количество символов до и после найденного слова или словосочетания 4. Выгрузка данного списка снипетов поисковых результатов (выгрузка в разных форматах doc, txt, pdf) с цитатами (ссылками на документы) того, что нашло. 5. В левой колонке когда больше 300 результатов надо сделать пейджинг чтобы можно было посмотреть следующие 300 результатов. Сейчас можно смотреть только первые 300. Ну или я не нашел как это сделать. 6. Выбор конкретных папок по которым производить поиск и сохранение их в фильтры. Так как нужно искать чаще всего не по каталогам, которые представляют собой верхний уровень, а по нижележащим папкам в разных каталогах. Сейчас есть возможность указать в поиске location: каталог (а на самом деле можно указывать любую папку, с этим путаница в описании), но чаще всего надо искать по набору папок. Отчасти это решается с помощью упорядочивания по расположению, но там выдаются все папки и надо лазить по ним. 7. Требуется удобный вывод информации по индексации файлов – то есть чтобы можно было открыть на некоторой странице информацию по индексированным файлам в каждой папке и увидеть какие файлы проиндексировались, какие нет, какие частично и часть текста там была не распознана. Тут же надо делать возможность отправить конкретную папку и даже группу выбранных файлов на повторную индексацию. Те файлы, которые не проиндексировались, чтобы можно было скопировать в подпапку noindex выбрав по одному или всем скопом. Чтобы можно было потом другим софтом распознать эти файлы. В данный момент это темный мешок (в логах это видно, но с ними не удобно работать), что в конкретной директории проиндесировалось, а что нет. И не удобно с этим дальше работать, то есть отправить на распознавание текста. 8. Когда файл огромный и не загружается в браузере (это не такая уж и редкость для книг быть по 100-200Мб), а его хочется открыть отдельно в Адобе, то надо переносить меню открытия файла по местоположению наверх страницы, а не поверх документа. Так как документ не грузится, а соответственно не грузится и меню, и в результате и в браузере не посмотришь и отдельно не откроешь. 9. Кодировки в результатах вывода надо править. Часто файлы со сломанной кодировкой идут. Хотя ищет по ним нормально (что кстати не понятно как так получается - снипет нормально отображается, а результат вывода кривой). 10. Логи ошибок индексации надо писать в отдельный файл дополнительно, помимо основных логов. Лучше всего разбивать по классам ошибок. Потом это можно использовать в интерфейсе. Это прямо вот что действительно мне нужно. Буду очень благодарен, если это удастся реализовать. | Всего записей: 2 | Зарегистр. 17-02-2023 | Отправлено: 06:37 12-09-2023 | Исправлено: mikmik888, 06:38 12-09-2023 |
|