> ну и 700 тыс. уникальных слов что-то мне не очень верится... если же у
> тебя различные формы склонения и во множ. числе дают разные лексемы, то
> этому можно помочь - ведь этап "послефильтрирования" для signature file
> обязателен.

Не, я их не нормализую :) Храню как есть. Честно :)

Там большое число слов, которые, фактически являются числами. Наверное
с ними надо что-то делать, но "моя это что-то пока явно осилить не
может" :)

Коваленко Дмитрий.

Ответить