Office Document Finder - [4] :: Программы :: Компьютерный форум Ru.Board

Для индексации личной электронной библиотеки вещь конечно суперская! 5 баллов!

Что не хватило мне:
1. Индексация djvu с текстовым слоем – без этого никуда. Один из основных форматов у нас. У того же Архивариуса3000 это есть.

2. Распознавание документов djvu и pdf - не знаю насколько это сложно сделать, но если бы можно было сразу распознавать документы без текстового слоя, то было бы очень здорово.

3. Удобный вывод всех найденных результатов на одной странице с настраиваемым пейджингом. То есть чтобы не листать по каждому документу все что нашло, а сразу просмотреть на одной странице все цитаты из документов с данным словосочетанием, конечно со ссылкой на документ первичный.

Также в этом выводе результатов надо настраивать размер снипета вокруг найденного слова.
Сейчас в левой колонке только очень краткий снипет. Когда результатов много надо чтобы можно было сразу прочитать побольше текста вокруг слова в одном месте.

В идеале чтобы можно было настраивать на странице вывода снипетов их размер (причем повторюсь выводить все снипеты в правой колонке, где много места):
a.    одно предложение, где встречается искомое слово или словосочетание
b.    абзац, где встречается слово или словосочетание
c.    количество символов до и после найденного слова или словосочетания

4. Выгрузка данного списка снипетов поисковых результатов (выгрузка в разных форматах doc, txt, pdf) с цитатами (ссылками на документы) того, что нашло.

5. В левой колонке когда больше 300 результатов надо сделать пейджинг чтобы можно было посмотреть следующие 300 результатов. Сейчас можно смотреть только первые 300. Ну или я не нашел как это сделать.

6. Выбор конкретных папок по которым производить поиск и сохранение их в фильтры. Так как нужно искать чаще всего не по каталогам, которые представляют собой верхний уровень, а по нижележащим папкам в разных каталогах.

Сейчас есть возможность указать в поиске location: каталог (а на самом деле можно указывать любую папку, с этим путаница в описании), но чаще всего надо искать по набору папок. Отчасти это решается с помощью упорядочивания по расположению, но там выдаются все папки и надо лазить по ним.

7. Требуется удобный вывод информации по индексации файлов – то есть чтобы можно было открыть на некоторой странице информацию по индексированным файлам в каждой папке и увидеть какие файлы проиндексировались, какие нет, какие частично и часть текста там была не распознана. Тут же надо делать возможность отправить конкретную папку и даже группу выбранных файлов на повторную индексацию. Те файлы, которые не проиндексировались, чтобы можно было скопировать в подпапку noindex выбрав по одному или всем скопом. Чтобы можно было потом другим софтом распознать эти файлы.
В данный момент это темный мешок (в логах это видно, но с ними не удобно работать), что в конкретной директории проиндесировалось, а что нет. И не удобно с этим дальше работать, то есть отправить на распознавание текста.

8. Когда файл огромный и не загружается в браузере (это не такая уж и редкость для книг быть по 100-200Мб), а его хочется открыть отдельно в Адобе, то надо переносить меню открытия файла по местоположению наверх страницы, а не поверх документа. Так как документ не грузится, а соответственно не грузится и меню, и в результате и в браузере не посмотришь и отдельно не откроешь.

9. Кодировки в результатах вывода надо править. Часто файлы со сломанной кодировкой идут. Хотя ищет по ним нормально (что кстати не понятно как так получается - снипет нормально отображается, а результат вывода кривой).

10. Логи ошибок индексации надо писать в отдельный файл дополнительно, помимо основных логов. Лучше всего разбивать по классам ошибок. Потом это можно использовать в интерфейсе.

Это прямо вот что действительно мне нужно. Буду очень благодарен, если это удастся реализовать.

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5