Перейти к контенту

Учет морфологии при поиске


Рекомендуемые сообщения

Что значит — учёт морфологии? Одна ошибка, две ошибки, восемь ошибок? Пишите при поиске неизменную часть слова, например, «ошиб» и проблем не будет. :D
Ссылка на комментарий
Поделиться на других сайтах

Не хотите заставлять пользователей так искать?

 

Ну дык сами отрезайте последние пару букв -)

Ссылка на комментарий
Поделиться на других сайтах

  • 1 месяц спустя...
Как известно, русский и английский языки принадлежат к двум различным группам, а, следовательно, и к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков – различные словоформы образовываются с помощью окончаний. Например, русское имя существительное может принимать шесть падежей в единственном числе, и шесть – во множественном. Таким образом, одно и то же существительное может встречаться в 12 различных формах на одной и той же странице. Кроме того, некоторые словоформы могут образовываться с помощью изменения основы слова, например “что – ложь; чего – лжи”. Для эффективного анализа русскоязычного текста поисковые машины должны использовать сложные лемматизирующие алгоритмы. Такой алгоритм предусматривает, что по определенным правилам составляется лемма слова, то есть набор всех его словоформ, и подсчитывается количество вхождений данного слова в текст документа. По такому принципу работают ведущие российские поисковики, тот же принцип используется при анализе страниц нашим программным обеспечением. С английским ситуация немного проще, поскольку падежей меньше, корни слов изменяются только в исключительных случаях, например, в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. Все основные российские поисковые машины хорошо справляются с анализом русской морфологии, но для англоязычных поисковиков русский до сих пор был проблемой – для того, чтобы включить поддержку русского, нужно было полностью менять систему анализа текстов, дописывать алгоритм анализа морфологии.
Ссылка на комментарий
Поделиться на других сайтах

Т.е. Вы предлагаете вытащить откуда-нить базу слов, склонений и написать мощную поисковую машину?

 

ИМХО - хостер убьёт за такие шуточки, куда легче использовать гуглу, которая с русской морфологией слава богу - в ладах и позволяет искать по определённым сайтам. Можно даже в наглую через курлы или сокеты дёргать информацию из гуглы.

 

В предложенном мной варианте есть минус - если ввести какое-то слово касающиеся дизайна - то он найдёт все страницы, однако можно улучшить систему заставив искать только в текстовой версии форума и соответсвенно дёргая айдишки топиков.

 

Собственно не считайте за психа, просто пришло в голову.

Ссылка на комментарий
Поделиться на других сайтах

ну можно перелезть на MSSQL или Oracle и заюзать это http://www.informatic.ru/catalogue/developers/#_rim или это http://www.informatic.ru/catalogue/developers/#_rio
Ссылка на комментарий
Поделиться на других сайтах

Присоединиться к обсуждению

Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.

Гость
Ответить в этой теме...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Зарузка...
×
×
  • Создать...

Важная информация

Находясь на нашем сайте, вы соглашаетесь на использование файлов cookie, а также с нашим положением о конфиденциальности Политика конфиденциальности и пользовательским соглашением Условия использования.