On 2003.07.04 at 17:38:38 +0300, Dmitry Astapov wrote: > > Добрый день, > > Хочу поискать чужого опыта в области индексирования/поиска по большим > объемам почты. Что есть: XEmacs/Gnus для чтения/манипуляций с почтой. Все > замечательно, не хватает только возможности быстро (за единицы секунд) > перелопатить много (около гига) почты и найти там нужные сообщения. Чего не > хочется: перегонять почту в html через mhonarc и напускать на результат > какой-либо html search engine. Причина - результатом поиска является некое > множество почты, и с ним хочется работать привычным способом, т.е. через > Gnus. > > Для Gnus есть nnir, который предоставляет как раз такую функциональность - > использовать результаты command line full-text search tool для построения > виртуального фолдера с найденой почтой. Nnir умеет работать с glimpse, > namazu, swish-e и swish++. У них у всех есть проблемы: 1)с русским, 2)с > MIME вообще и QP/base64 в частности. > > Кто может указать начало дороги к счастью? :)
Насчет начала дороги не скажу, а пару дорожных указателей выставлю: 1. Всякие web-овские искалки, например mnogosearch (рекомендую всячески) умеют индексировать не только html. Plain text (каковым является содержимое Maildir) он тоже прекрасно отиндексирует. И даже можно научить его это делать без использования http, хотя немного нетривиально. 2. Результаты индексирования хранятся в базе данных, лазить в которую можно не только через родную CGI-шку. А можно, например, напрямую с помощью командно-строчнго sql-клиента или перлового скрипта. Собственно в Communiware примерно так и делалось - индексировались не веб-страницы, а итемы content-management-системы, которые отдавались индексатору по очень специальному шаблону. А искалка была встроена в саму CMS. 3. Даже если пользоваться родной CGI-шкой, никто не мешает написать скриптик на shell с использованием wget или на Perl с использованием LWP, который будет предоставлять командно-строчный интерфейс, удовлетворяющий nnir. Хотя, собственно, зачем тут вообще HTTP? Собственно чем данный скрипт хуже апача - может и сам CGI-шку запустить и ее stdout прочитать. Для почты отсутствие лишних сетевизмов может оказаться очень даже полезным.