On 4 июн, 14:56, Roman Rokytskyy <[EMAIL PROTECTED]> wrote:
> > И вопрос - а что понимается под "каноническим видом"? У нас в дереве
> > адресов штук десять вариаций на тему "город Москва". Есть даже бред
> > "город Москва" в "городе Москва". Ибо до сих пор не могут определиться
> > - а как его корректно представить. А мне лично на эти "корректные"
> > представления - насрать.
>
> Слушай, если у тебя поиск идет по "документам" состоящим из нескольки
> слов, то каким образом ты оцениваешь точность попадания (этот самый
> score) для последующей сортировки?

Каждую ночь считается сколько объектов привязаны к каждому слову.
Для этого перебирается (сейчас) таблица в 14 млн записей. В другую
таблицу, размер которой почти совпадает с число уникальных слов,
записываются результаты. Обсчет длится ... кстати, только вот перешел
с LONG на BINGINT (я про идентификаторы слов), время обсчета
увеличилось с получаса до 45 минут.

Сочетания, будет обсчитываться аналогично.

> ведь на паре слов отличий почти не
> наблюдается...

Да это смотря каких слов. Например, номер дома (цифра) сама по себе
привязана к очень большому числу объектов.
Если к этой цифре "добавить", например, фамилию рыла - то количество
объектов резко сокращается. Правда есть комбинации цифр - например 48
(регион) и 20 (номер центрального филиала), которые входят в описание
большинства объектов недвижимости. Вот такие комбинации даром не
впились. Проше выбирать объекты (мастер множество) в которые входит
одно число и проверять наличие второго.

>или у тебя селективность настолько высокая, что на
> типичных запросах возвращает где-то 10-20 попаданий?

Да ... его знает. Я же пока только начал возиться :) Как сформирую
полную статистику по всем возможным кобинациям (до 3 лексем) - я здесь
отсчитаюсь.

> Может действительно есть смысл посмотреть в сторону signature file? Хотя
> я не совсем понимаю, откуда у тебя 14 млн. уникальных слов... можешь
> какой-то пример из базы привести, чтоб понятней было?

Не, уникальных слов у меня всего 700 тыс. 14 лимонов это, считай,
общее число слов во всех проиндексированных объектах.

Коваленко Дмитрий.

Ответить