Перейти к контенту
  • 0

Список ботов-пауков


Вопрос

Сегодня полез в лог-файл сервера и.... дай думаю, соберу данные "user-agent" ботов посковых систем. Список куцый... с 4 утра до 18 дня...

 

"Googlebot/2.1 (+http://www.google.com/bot.html)"
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
"Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)"
"Yandex/1.01.001 (compatible; Win16; H)"
"Yandex/1.01.001 (compatible; Win16; P)"
"TurtleScanner/1.2 (compatible; MSIE 5.01; Win32)"
"TurnitinBot/2.0 (http://www.turnitin.com/robot/crawlerinfo.html)"
"msnbot/0.3 (+http://search.msn.com/msnbot.htm)"
"ZipppBot/0.11 (ZipppBot; http://www.zippp.net; webmaster@zippp.net)"
"Mozilla/4.0 (compatible; grub-client-2.3)"
"StackRambler/2.0 (MSIE incompatible)"
"http://www.almaden.ibm.com/cs/crawler   [fc4]"
"ia_archiver"
"oBot"

 

 

Ах, да... Ответ "а нафига?", прост. Вторая версия может показывать присутствующих в данный момент ботов, как юзеров. Подробнее см. в Админке - Глобальные (список главных настроек).

 

Список ботов

(категорически не рекомендуется менять порядок следования в списке, особенно в нижней части - последние 5):

[fc4]=^fc4^
oBot=^oBot^
Aport=^Aport^
msnbot=^MSNbot^
Yandex=^Yandex^
WebZIP=^WebZIP^
ZunZun=^ZunZun^
Lycos.com=^Lucos^
OmniWeb=^OmniWeb^
Googlebot=^Google^
Openbot=^Openfind^
Gigabot=^Gigablast^
ZipppBot=^ZipppBot^
GetSmart=^GetSmart^
Vampire=^NetVampire^
MarcoPolo=^MarcoPolo^
PlantyNet=^PlantyNet^
slurp@inktomi=^HotBot^
Ask Jeeves=^AskJeeves^
SpaceBison=^SpaceBison^
grub-client=^GrubClient^
ia_archiver=^IA.Archiver^
TurnitinBot=^TurnitinBot^
Ivan Susanin=^IvanSusanin^
What You Seek=^WhatYouSeek^
FAST-WebCrawler=^AllTheWeb^
Netprospector=^Netprospector^
TurtleScanner=^TurtleScanner^
Yahoo-MMCrawler=^Y!MMCrawler^
Yahoo!=^Yahoo!^
StackRambler=^Rambler^
rambler=^Rambler^
Binky=^libwww.Binky^
amaya=^libwww.amaya^
Webgate=^libwww.Webgate^
W3C_Validator=^libwww.W3C_Validator^
libwww=^libwww.nothing^

Список ботов с неподтверждённым user_agent

(т.е. я ещё не видел их user_agent):

Lycos.com=^Lucos^
rambler=^Rambler^
What You Seek=^WhatYouSeek^
Ask Jeeves=^AskJeeves^
zyborg@looksmart=^WiseNut^
MnoGoSearch=^mnoGoSearch Bot^
booch=^booch Bot^
NaverBot=^NaverBot^

Отдельно стоит вопрос о...

scooter=^Altavista^

Здесь дело в том, что есть юзер-агенты "scooter" и "Scooter", но вот к кому они относятся, к какому поисковику???

 

 

Текст ПОСЛЕ знака "равно" делайте свой..., чтобы было понятно, что это бот, а не юзверь. Я вообще для них создал отдельную группу (бот) - права группы "бот" такие же, как у группы "юзер". Цвет группы не имеет силы - боты всегда нормал-чёрные.

Изменено пользователем Наблюдатель
Ссылка на комментарий
Поделиться на других сайтах

  • Ответы 86
  • Создана
  • Последний ответ

Лучшие авторы в этом вопросе

Лучшие авторы в этом вопросе

Рекомендуемые сообщения

  • 0

Наблюдатель

А я так случайно знаю что и IPB 1.3 расский модифицированный и простой кажись и так показывают!

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Uzaren, нет, не обязателен - это я для понту... чтобы сразу видно было. Я же писал: ПОСЛЕ знака "равно" - ваш текст...

 

часть_его_user_agent=название_бота

 

 

Bulatik, м.б., это не принципиально - мы же про двушку говорим...

Изменено пользователем Наблюдатель
Ссылка на комментарий
Поделиться на других сайтах

  • 0
Хм, сделал тоже группу для ботов, присвоил ей сини цвет, но форум по прежнему их показывает чёрным
Ссылка на комментарий
Поделиться на других сайтах

  • 0

а сбоку хелп читали ? :D

Use this section to list which search engine user-agents you'd like to be treated as a search engine visit along with a 'human' name for the online list in a bot=Human Name format.(one per line)

Example: googlebot=Google.com

Добавлено в [mergetime]1095877352[/mergetime]

то есть должно быть с точностью до наоборот

идентификация_паука=Имя паука
Ссылка на комментарий
Поделиться на других сайтах

  • 0

единственное, что могу добавить:

rambler=^Ramlber

 

и еще спорная ситуация с HotBot...

напомню как было в базовом варианте...

slurp@inktomi=Hot Bot

Ссылка на комментарий
Поделиться на других сайтах

  • 0

С ХотБотом, да... я исправил в первом сообщении.

 

Боюсь, что на rambler=^Rambler будет срабатывать и StackRambler=^StackRambler

 

...я не смотрел как это обрабатывается движком. Понимает он прописные-заглавные...?

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Да, показываются. Только настройки группы (если для них создана отдельная группа) не имеют силы для них - цвет ботов всегда чёрный нежирный. Я пробовал вводить форматирование шрифта непосредственно в имя бота - первый же знак "=" в этом форматировании ломает отображение (не даёт имени отобразиться в списке онлайн). Добавление в имя

<h4>Имя бота</h4>

выводит это имя с новой строки... Короче, полный отстой с форматированием отображения имени. Чёрт с ними, пусть будут чёрными... Я им лапки добавил:

^Имя бота^

- похоже на паучка...

Ссылка на комментарий
Поделиться на других сайтах

  • 0

cepera

Я так пробывал делать, не отображаются они.

Единственное, что удалось мне сделать это заключить названия в тэги

<i>****</i>
<b>****</b>

Ссылка на комментарий
Поделиться на других сайтах

  • 0

тогда вот так:

строку, где отображаются пользователи онлайн, повесь на класс прописанный в css (как раз для ботов)

далее, каждой обычно группе пользователей пропиши необходимые настройки в ACP

для ботов убери все виды отображения (так как все заранее пропишешь в класс)

 

в конечном итоге строка получит вид по умолчанию показа, что все пользователи боты, но при этом реальные пользователи будут "перекрывать" установки

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Я думал как это красимше оформить... Придумал два решения:

1. отображать иконку паучка-бота, а в хинте давать его название

<img title='Google-bot' srs='pauk.gif'>

но... знак "равно"... не даёт

2. обрабатывать эту штуку внешним js-скриптом, но.. там тоже "равно"...

 

А так было-бы красиво... красненькая букашка среди юзеров... В коды лезть надо - неохота...

Ссылка на комментарий
Поделиться на других сайтах

  • 0
<img title='Google-bot' srs='pauk.gif'>

а должно быть

<img title='Google-bot' src='pauk.gif'>

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Iris, да, я только сейчас, когда тему перечитывал, заметил... глаз режет, аж прослезился...

:D

 

cepera, я позже ещё раз перечитаю и уверен!, въеду в твоё предложение со стилями. Т.е. нужно сделать нечто, что было-бы по-умолчанию и показывалось бы без форматирования текста - как в нашем случае. А ВДРУГ, где-то ещё есть текст без форматирования? там букашки и полезут! (зато можно будет смело сказать:"Это БАГ вылез"!!! (баг=букашка)

;) Круть!

Ссылка на комментарий
Поделиться на других сайтах

  • 0

а где и что еще может вылезти?

вы повесите этот класс только на строчку с пользователями онлайн

Ссылка на комментарий
Поделиться на других сайтах

  • 0

вот, поднасобирал (взял кое-что и из сопутствующей темы для 1.x)

 

GoogleBot=Google
slurp@inktomi=HotBot
Ask Jeeves=Ask Jeeves
Lycos=Lycos
WhatUSeek=What You Seek
ia_archiver=IA.Archiver
is_archiver=IA.Archiver
Yandex=Yandex
Yahoo!=Yahoo!
Yahoo-MMCrawler=Yahoo! MMCrawler
TurtleScanner=TurtleScanner
TurnitinBot=TurnitinBot
ZipppBot=ZipppBot
StackRambler=StackRambler
[fc4]=fc4
oBot=oBot
rambler=Rambler
zyborg@looksmart=WiseNut
Jetbot=JetBot
NaverBot=NaverBot
libwww=Punto
aport=Aport
msnbot=MSN
MnoGoSearch=mnoGoSearch
booch=booch_Bot
Openbot=Openfind
Gigabot=Gigablast
scooter=Altavista
WebCrawler=Fast
WebZIP=WebZIP
GetSmart=GetSmart
grub-client=GrubClient
Vampire=Net_Vampire

четыре последних скачивальщики

 

 

Наблюдатель

советую заменить, у тебя там есть неточности, как то:

Lycos.com=^Lucos

What You Seek=^WhatYouSeek

проверь синтаксис :D

Ссылка на комментарий
Поделиться на других сайтах

  • 0

серёга, мне ПОКА не попадались юзер-агенты указанных тобой двух ботов. Как нужно их заменить? Я посмотрел прежние темы на этом форуме... Если ты пишешь, что движок отличает заглавные от прописных, то в тех темах полно ошибок и некоторые боты просто не будут идентифицированы. Поэтому-то я и упираю на конкретные примеры их юзер-агента. У меня полно логов серверов и до 2002 года я регулярно вёл статистику... Потом мне это надоело (наелся) и истории логов больше нет. Есть только недельные логи, но.... я только что выкачал самый маленький... вчерашний... 111 мб... :D А у меня дайлап...

 

Я кое-что добавил в первый список ботов... Но вот как быть с указанными тобой? Я их ПОТОМ исправлю, если покажешь мне их юзер-агенты (или вообще их удалить?)

Добавлено в [mergetime]1096197058[/mergetime]

;):):):) только что увидел в списке юзер-агентов хохму... ;):):D:)

см.#224

Ссылка на комментарий
Поделиться на других сайтах

  • 0

так эти user agents берутся по ereg, то есть по части, зачем перечислять версии? :D

например , Jetbot был долгое время 0.8 (Jetbot 0.8), потом стал 0.9, а сейчас серфится 1.0 ... и что каждый раз указывать новые версии?

Добавлено в [mergetime]1096197856[/mergetime]

насчет пункта 224, вообще-то можно любым скриптом лазить, достаточно лишь самому передать заголовок User-Agent

Ссылка на комментарий
Поделиться на других сайтах

Присоединиться к обсуждению

Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.

Гость
Unfortunately, your content contains terms that we do not allow. Please edit your content to remove the highlighted words below.
Ответить на вопрос...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Зарузка...

×
×
  • Создать...

Важная информация

Находясь на нашем сайте, вы соглашаетесь на использование файлов cookie, а также с нашим положением о конфиденциальности Политика конфиденциальности и пользовательским соглашением Условия использования.