Перейти к контенту

Учет морфологии при поиске


Рекомендуемые сообщения

Что значит — учёт морфологии? Одна ошибка, две ошибки, восемь ошибок? Пишите при поиске неизменную часть слова, например, «ошиб» и проблем не будет. :D
Ссылка на комментарий
Поделиться на других сайтах

Не хотите заставлять пользователей так искать?

 

Ну дык сами отрезайте последние пару букв -)

Ссылка на комментарий
Поделиться на других сайтах

  • 1 месяц спустя...
Как известно, русский и английский языки принадлежат к двум различным группам, а, следовательно, и к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков – различные словоформы образовываются с помощью окончаний. Например, русское имя существительное может принимать шесть падежей в единственном числе, и шесть – во множественном. Таким образом, одно и то же существительное может встречаться в 12 различных формах на одной и той же странице. Кроме того, некоторые словоформы могут образовываться с помощью изменения основы слова, например “что – ложь; чего – лжи”. Для эффективного анализа русскоязычного текста поисковые машины должны использовать сложные лемматизирующие алгоритмы. Такой алгоритм предусматривает, что по определенным правилам составляется лемма слова, то есть набор всех его словоформ, и подсчитывается количество вхождений данного слова в текст документа. По такому принципу работают ведущие российские поисковики, тот же принцип используется при анализе страниц нашим программным обеспечением. С английским ситуация немного проще, поскольку падежей меньше, корни слов изменяются только в исключительных случаях, например, в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. Все основные российские поисковые машины хорошо справляются с анализом русской морфологии, но для англоязычных поисковиков русский до сих пор был проблемой – для того, чтобы включить поддержку русского, нужно было полностью менять систему анализа текстов, дописывать алгоритм анализа морфологии.
Ссылка на комментарий
Поделиться на других сайтах

Т.е. Вы предлагаете вытащить откуда-нить базу слов, склонений и написать мощную поисковую машину?

 

ИМХО - хостер убьёт за такие шуточки, куда легче использовать гуглу, которая с русской морфологией слава богу - в ладах и позволяет искать по определённым сайтам. Можно даже в наглую через курлы или сокеты дёргать информацию из гуглы.

 

В предложенном мной варианте есть минус - если ввести какое-то слово касающиеся дизайна - то он найдёт все страницы, однако можно улучшить систему заставив искать только в текстовой версии форума и соответсвенно дёргая айдишки топиков.

 

Собственно не считайте за психа, просто пришло в голову.

Ссылка на комментарий
Поделиться на других сайтах

ну можно перелезть на MSSQL или Oracle и заюзать это http://www.informatic.ru/catalogue/developers/#_rim или это http://www.informatic.ru/catalogue/developers/#_rio
Ссылка на комментарий
Поделиться на других сайтах

Присоединиться к обсуждению

Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.

Гость
Unfortunately, your content contains terms that we do not allow. Please edit your content to remove the highlighted words below.
Ответить в этой теме...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Зарузка...
×
×
  • Создать...

Важная информация

Находясь на нашем сайте, вы соглашаетесь на использование файлов cookie, а также с нашим положением о конфиденциальности Политика конфиденциальности и пользовательским соглашением Условия использования.