Oleg Rodnin Опубликовано 22 Января 2006 Жалоба Поделиться Опубликовано 22 Января 2006 Вот уж что необходимо, так учет морфологии русских слов при поиске по форуму ! Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Dr.Freddy Опубликовано 22 Января 2006 Жалоба Поделиться Опубликовано 22 Января 2006 Что значит — учёт морфологии? Одна ошибка, две ошибки, восемь ошибок? Пишите при поиске неизменную часть слова, например, «ошиб» и проблем не будет. Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Oleg Rodnin Опубликовано 26 Января 2006 Автор Жалоба Поделиться Опубликовано 26 Января 2006 Если бы все было так просто... Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Destruction Опубликовано 26 Января 2006 Жалоба Поделиться Опубликовано 26 Января 2006 Не хотите заставлять пользователей так искать? Ну дык сами отрезайте последние пару букв -) Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Oleg Rodnin Опубликовано 27 Февраля 2006 Автор Жалоба Поделиться Опубликовано 27 Февраля 2006 Как известно, русский и английский языки принадлежат к двум различным группам, а, следовательно, и к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков – различные словоформы образовываются с помощью окончаний. Например, русское имя существительное может принимать шесть падежей в единственном числе, и шесть – во множественном. Таким образом, одно и то же существительное может встречаться в 12 различных формах на одной и той же странице. Кроме того, некоторые словоформы могут образовываться с помощью изменения основы слова, например “что – ложь; чего – лжи”. Для эффективного анализа русскоязычного текста поисковые машины должны использовать сложные лемматизирующие алгоритмы. Такой алгоритм предусматривает, что по определенным правилам составляется лемма слова, то есть набор всех его словоформ, и подсчитывается количество вхождений данного слова в текст документа. По такому принципу работают ведущие российские поисковики, тот же принцип используется при анализе страниц нашим программным обеспечением. С английским ситуация немного проще, поскольку падежей меньше, корни слов изменяются только в исключительных случаях, например, в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. Все основные российские поисковые машины хорошо справляются с анализом русской морфологии, но для англоязычных поисковиков русский до сих пор был проблемой – для того, чтобы включить поддержку русского, нужно было полностью менять систему анализа текстов, дописывать алгоритм анализа морфологии. Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Destruction Опубликовано 27 Февраля 2006 Жалоба Поделиться Опубликовано 27 Февраля 2006 Т.е. Вы предлагаете вытащить откуда-нить базу слов, склонений и написать мощную поисковую машину? ИМХО - хостер убьёт за такие шуточки, куда легче использовать гуглу, которая с русской морфологией слава богу - в ладах и позволяет искать по определённым сайтам. Можно даже в наглую через курлы или сокеты дёргать информацию из гуглы. В предложенном мной варианте есть минус - если ввести какое-то слово касающиеся дизайна - то он найдёт все страницы, однако можно улучшить систему заставив искать только в текстовой версии форума и соответсвенно дёргая айдишки топиков. Собственно не считайте за психа, просто пришло в голову. Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
профф Опубликовано 28 Февраля 2006 Жалоба Поделиться Опубликовано 28 Февраля 2006 ну можно перелезть на MSSQL или Oracle и заюзать это http://www.informatic.ru/catalogue/developers/#_rim или это http://www.informatic.ru/catalogue/developers/#_rio Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Рекомендуемые сообщения
Присоединиться к обсуждению
Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.