Учет морфологии при поиске

Oleg Rodnin · 22 Января 2006

Вот уж что необходимо, так учет морфологии русских слов при поиске по форуму !

Dr.Freddy · 22 Января 2006

Что значит — учёт морфологии? Одна ошибка, две ошибки, восемь ошибок? Пишите при поиске неизменную часть слова, например, «ошиб» и проблем не будет.

Oleg Rodnin · 26 Января 2006

Если бы все было так просто...

Destruction · 26 Января 2006

Не хотите заставлять пользователей так искать?

Ну дык сами отрезайте последние пару букв -)

Oleg Rodnin · 27 Февраля 2006

Как известно, русский и английский языки принадлежат к двум различным группам, а, следовательно, и к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков – различные словоформы образовываются с помощью окончаний. Например, русское имя существительное может принимать шесть падежей в единственном числе, и шесть – во множественном. Таким образом, одно и то же существительное может встречаться в 12 различных формах на одной и той же странице. Кроме того, некоторые словоформы могут образовываться с помощью изменения основы слова, например “что – ложь; чего – лжи”. Для эффективного анализа русскоязычного текста поисковые машины должны использовать сложные лемматизирующие алгоритмы. Такой алгоритм предусматривает, что по определенным правилам составляется лемма слова, то есть набор всех его словоформ, и подсчитывается количество вхождений данного слова в текст документа. По такому принципу работают ведущие российские поисковики, тот же принцип используется при анализе страниц нашим программным обеспечением. С английским ситуация немного проще, поскольку падежей меньше, корни слов изменяются только в исключительных случаях, например, в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. Все основные российские поисковые машины хорошо справляются с анализом русской морфологии, но для англоязычных поисковиков русский до сих пор был проблемой – для того, чтобы включить поддержку русского, нужно было полностью менять систему анализа текстов, дописывать алгоритм анализа морфологии.

Destruction · 27 Февраля 2006

Т.е. Вы предлагаете вытащить откуда-нить базу слов, склонений и написать мощную поисковую машину?

ИМХО - хостер убьёт за такие шуточки, куда легче использовать гуглу, которая с русской морфологией слава богу - в ладах и позволяет искать по определённым сайтам. Можно даже в наглую через курлы или сокеты дёргать информацию из гуглы.

В предложенном мной варианте есть минус - если ввести какое-то слово касающиеся дизайна - то он найдёт все страницы, однако можно улучшить систему заставив искать только в текстовой версии форума и соответсвенно дёргая айдишки топиков.

Собственно не считайте за психа, просто пришло в голову.

профф · 28 Февраля 2006

ну можно перелезть на MSSQL или Oracle и заюзать это http://www.informatic.ru/catalogue/developers/#_rim или это http://www.informatic.ru/catalogue/developers/#_rio

Войти

Учет морфологии при поиске

Рекомендуемые сообщения

Oleg Rodnin

Ссылка на комментарий

Поделиться на других сайтах

Dr.Freddy

Ссылка на комментарий

Поделиться на других сайтах

Oleg Rodnin

Ссылка на комментарий

Поделиться на других сайтах

Destruction

Ссылка на комментарий

Поделиться на других сайтах

Oleg Rodnin

Ссылка на комментарий

Поделиться на других сайтах

Destruction

Ссылка на комментарий

Поделиться на других сайтах

профф

Ссылка на комментарий

Поделиться на других сайтах

Присоединиться к обсуждению

Главная

Активность

Магазин

Support

Важная информация