Перейти к контенту
  • 0

Список ботов-пауков


Вопрос

Сегодня полез в лог-файл сервера и.... дай думаю, соберу данные "user-agent" ботов посковых систем. Список куцый... с 4 утра до 18 дня...

 

"Googlebot/2.1 (+http://www.google.com/bot.html)"
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
"Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)"
"Yandex/1.01.001 (compatible; Win16; H)"
"Yandex/1.01.001 (compatible; Win16; P)"
"TurtleScanner/1.2 (compatible; MSIE 5.01; Win32)"
"TurnitinBot/2.0 (http://www.turnitin.com/robot/crawlerinfo.html)"
"msnbot/0.3 (+http://search.msn.com/msnbot.htm)"
"ZipppBot/0.11 (ZipppBot; http://www.zippp.net; webmaster@zippp.net)"
"Mozilla/4.0 (compatible; grub-client-2.3)"
"StackRambler/2.0 (MSIE incompatible)"
"http://www.almaden.ibm.com/cs/crawler   [fc4]"
"ia_archiver"
"oBot"

 

 

Ах, да... Ответ "а нафига?", прост. Вторая версия может показывать присутствующих в данный момент ботов, как юзеров. Подробнее см. в Админке - Глобальные (список главных настроек).

 

Список ботов

(категорически не рекомендуется менять порядок следования в списке, особенно в нижней части - последние 5):

[fc4]=^fc4^
oBot=^oBot^
Aport=^Aport^
msnbot=^MSNbot^
Yandex=^Yandex^
WebZIP=^WebZIP^
ZunZun=^ZunZun^
Lycos.com=^Lucos^
OmniWeb=^OmniWeb^
Googlebot=^Google^
Openbot=^Openfind^
Gigabot=^Gigablast^
ZipppBot=^ZipppBot^
GetSmart=^GetSmart^
Vampire=^NetVampire^
MarcoPolo=^MarcoPolo^
PlantyNet=^PlantyNet^
slurp@inktomi=^HotBot^
Ask Jeeves=^AskJeeves^
SpaceBison=^SpaceBison^
grub-client=^GrubClient^
ia_archiver=^IA.Archiver^
TurnitinBot=^TurnitinBot^
Ivan Susanin=^IvanSusanin^
What You Seek=^WhatYouSeek^
FAST-WebCrawler=^AllTheWeb^
Netprospector=^Netprospector^
TurtleScanner=^TurtleScanner^
Yahoo-MMCrawler=^Y!MMCrawler^
Yahoo!=^Yahoo!^
StackRambler=^Rambler^
rambler=^Rambler^
Binky=^libwww.Binky^
amaya=^libwww.amaya^
Webgate=^libwww.Webgate^
W3C_Validator=^libwww.W3C_Validator^
libwww=^libwww.nothing^

Список ботов с неподтверждённым user_agent

(т.е. я ещё не видел их user_agent):

Lycos.com=^Lucos^
rambler=^Rambler^
What You Seek=^WhatYouSeek^
Ask Jeeves=^AskJeeves^
zyborg@looksmart=^WiseNut^
MnoGoSearch=^mnoGoSearch Bot^
booch=^booch Bot^
NaverBot=^NaverBot^

Отдельно стоит вопрос о...

scooter=^Altavista^

Здесь дело в том, что есть юзер-агенты "scooter" и "Scooter", но вот к кому они относятся, к какому поисковику???

 

 

Текст ПОСЛЕ знака "равно" делайте свой..., чтобы было понятно, что это бот, а не юзверь. Я вообще для них создал отдельную группу (бот) - права группы "бот" такие же, как у группы "юзер". Цвет группы не имеет силы - боты всегда нормал-чёрные.

Изменено пользователем Наблюдатель
Ссылка на комментарий
Поделиться на других сайтах

  • Ответы 86
  • Создана
  • Последний ответ

Лучшие авторы в этом вопросе

Лучшие авторы в этом вопросе

Рекомендуемые сообщения

  • 0

Наблюдатель

А я так случайно знаю что и IPB 1.3 расский модифицированный и простой кажись и так показывают!

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Uzaren, нет, не обязателен - это я для понту... чтобы сразу видно было. Я же писал: ПОСЛЕ знака "равно" - ваш текст...

 

часть_его_user_agent=название_бота

 

 

Bulatik, м.б., это не принципиально - мы же про двушку говорим...

Изменено пользователем Наблюдатель
Ссылка на комментарий
Поделиться на других сайтах

  • 0
Хм, сделал тоже группу для ботов, присвоил ей сини цвет, но форум по прежнему их показывает чёрным
Ссылка на комментарий
Поделиться на других сайтах

  • 0

а сбоку хелп читали ? :D

Use this section to list which search engine user-agents you'd like to be treated as a search engine visit along with a 'human' name for the online list in a bot=Human Name format.(one per line)

Example: googlebot=Google.com

Добавлено в [mergetime]1095877352[/mergetime]

то есть должно быть с точностью до наоборот

идентификация_паука=Имя паука
Ссылка на комментарий
Поделиться на других сайтах

  • 0

единственное, что могу добавить:

rambler=^Ramlber

 

и еще спорная ситуация с HotBot...

напомню как было в базовом варианте...

slurp@inktomi=Hot Bot

Ссылка на комментарий
Поделиться на других сайтах

  • 0

С ХотБотом, да... я исправил в первом сообщении.

 

Боюсь, что на rambler=^Rambler будет срабатывать и StackRambler=^StackRambler

 

...я не смотрел как это обрабатывается движком. Понимает он прописные-заглавные...?

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Да, показываются. Только настройки группы (если для них создана отдельная группа) не имеют силы для них - цвет ботов всегда чёрный нежирный. Я пробовал вводить форматирование шрифта непосредственно в имя бота - первый же знак "=" в этом форматировании ломает отображение (не даёт имени отобразиться в списке онлайн). Добавление в имя

<h4>Имя бота</h4>

выводит это имя с новой строки... Короче, полный отстой с форматированием отображения имени. Чёрт с ними, пусть будут чёрными... Я им лапки добавил:

^Имя бота^

- похоже на паучка...

Ссылка на комментарий
Поделиться на других сайтах

  • 0

cepera

Я так пробывал делать, не отображаются они.

Единственное, что удалось мне сделать это заключить названия в тэги

<i>****</i>
<b>****</b>

Ссылка на комментарий
Поделиться на других сайтах

  • 0

тогда вот так:

строку, где отображаются пользователи онлайн, повесь на класс прописанный в css (как раз для ботов)

далее, каждой обычно группе пользователей пропиши необходимые настройки в ACP

для ботов убери все виды отображения (так как все заранее пропишешь в класс)

 

в конечном итоге строка получит вид по умолчанию показа, что все пользователи боты, но при этом реальные пользователи будут "перекрывать" установки

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Я думал как это красимше оформить... Придумал два решения:

1. отображать иконку паучка-бота, а в хинте давать его название

<img title='Google-bot' srs='pauk.gif'>

но... знак "равно"... не даёт

2. обрабатывать эту штуку внешним js-скриптом, но.. там тоже "равно"...

 

А так было-бы красиво... красненькая букашка среди юзеров... В коды лезть надо - неохота...

Ссылка на комментарий
Поделиться на других сайтах

  • 0
<img title='Google-bot' srs='pauk.gif'>

а должно быть

<img title='Google-bot' src='pauk.gif'>

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Iris, да, я только сейчас, когда тему перечитывал, заметил... глаз режет, аж прослезился...

:D

 

cepera, я позже ещё раз перечитаю и уверен!, въеду в твоё предложение со стилями. Т.е. нужно сделать нечто, что было-бы по-умолчанию и показывалось бы без форматирования текста - как в нашем случае. А ВДРУГ, где-то ещё есть текст без форматирования? там букашки и полезут! (зато можно будет смело сказать:"Это БАГ вылез"!!! (баг=букашка)

;) Круть!

Ссылка на комментарий
Поделиться на других сайтах

  • 0

а где и что еще может вылезти?

вы повесите этот класс только на строчку с пользователями онлайн

Ссылка на комментарий
Поделиться на других сайтах

  • 0

вот, поднасобирал (взял кое-что и из сопутствующей темы для 1.x)

 

GoogleBot=Google
slurp@inktomi=HotBot
Ask Jeeves=Ask Jeeves
Lycos=Lycos
WhatUSeek=What You Seek
ia_archiver=IA.Archiver
is_archiver=IA.Archiver
Yandex=Yandex
Yahoo!=Yahoo!
Yahoo-MMCrawler=Yahoo! MMCrawler
TurtleScanner=TurtleScanner
TurnitinBot=TurnitinBot
ZipppBot=ZipppBot
StackRambler=StackRambler
[fc4]=fc4
oBot=oBot
rambler=Rambler
zyborg@looksmart=WiseNut
Jetbot=JetBot
NaverBot=NaverBot
libwww=Punto
aport=Aport
msnbot=MSN
MnoGoSearch=mnoGoSearch
booch=booch_Bot
Openbot=Openfind
Gigabot=Gigablast
scooter=Altavista
WebCrawler=Fast
WebZIP=WebZIP
GetSmart=GetSmart
grub-client=GrubClient
Vampire=Net_Vampire

четыре последних скачивальщики

 

 

Наблюдатель

советую заменить, у тебя там есть неточности, как то:

Lycos.com=^Lucos

What You Seek=^WhatYouSeek

проверь синтаксис :D

Ссылка на комментарий
Поделиться на других сайтах

  • 0

серёга, мне ПОКА не попадались юзер-агенты указанных тобой двух ботов. Как нужно их заменить? Я посмотрел прежние темы на этом форуме... Если ты пишешь, что движок отличает заглавные от прописных, то в тех темах полно ошибок и некоторые боты просто не будут идентифицированы. Поэтому-то я и упираю на конкретные примеры их юзер-агента. У меня полно логов серверов и до 2002 года я регулярно вёл статистику... Потом мне это надоело (наелся) и истории логов больше нет. Есть только недельные логи, но.... я только что выкачал самый маленький... вчерашний... 111 мб... :D А у меня дайлап...

 

Я кое-что добавил в первый список ботов... Но вот как быть с указанными тобой? Я их ПОТОМ исправлю, если покажешь мне их юзер-агенты (или вообще их удалить?)

Добавлено в [mergetime]1096197058[/mergetime]

;):):):) только что увидел в списке юзер-агентов хохму... ;):):D:)

см.#224

Ссылка на комментарий
Поделиться на других сайтах

  • 0

так эти user agents берутся по ereg, то есть по части, зачем перечислять версии? :D

например , Jetbot был долгое время 0.8 (Jetbot 0.8), потом стал 0.9, а сейчас серфится 1.0 ... и что каждый раз указывать новые версии?

Добавлено в [mergetime]1096197856[/mergetime]

насчет пункта 224, вообще-то можно любым скриптом лазить, достаточно лишь самому передать заголовок User-Agent

Ссылка на комментарий
Поделиться на других сайтах

Присоединиться к обсуждению

Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.

Гость
Ответить на вопрос...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Зарузка...

×
×
  • Создать...

Важная информация

Находясь на нашем сайте, вы соглашаетесь на использование файлов cookie, а также с нашим положением о конфиденциальности Политика конфиденциальности и пользовательским соглашением Условия использования.