Перейти к контенту
  • 0

Список ботов-пауков


Вопрос

Сегодня полез в лог-файл сервера и.... дай думаю, соберу данные "user-agent" ботов посковых систем. Список куцый... с 4 утра до 18 дня...

 

"Googlebot/2.1 (+http://www.google.com/bot.html)"
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
"Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)"
"Yandex/1.01.001 (compatible; Win16; H)"
"Yandex/1.01.001 (compatible; Win16; P)"
"TurtleScanner/1.2 (compatible; MSIE 5.01; Win32)"
"TurnitinBot/2.0 (http://www.turnitin.com/robot/crawlerinfo.html)"
"msnbot/0.3 (+http://search.msn.com/msnbot.htm)"
"ZipppBot/0.11 (ZipppBot; http://www.zippp.net; webmaster@zippp.net)"
"Mozilla/4.0 (compatible; grub-client-2.3)"
"StackRambler/2.0 (MSIE incompatible)"
"http://www.almaden.ibm.com/cs/crawler   [fc4]"
"ia_archiver"
"oBot"

 

 

Ах, да... Ответ "а нафига?", прост. Вторая версия может показывать присутствующих в данный момент ботов, как юзеров. Подробнее см. в Админке - Глобальные (список главных настроек).

 

Список ботов

(категорически не рекомендуется менять порядок следования в списке, особенно в нижней части - последние 5):

[fc4]=^fc4^
oBot=^oBot^
Aport=^Aport^
msnbot=^MSNbot^
Yandex=^Yandex^
WebZIP=^WebZIP^
ZunZun=^ZunZun^
Lycos.com=^Lucos^
OmniWeb=^OmniWeb^
Googlebot=^Google^
Openbot=^Openfind^
Gigabot=^Gigablast^
ZipppBot=^ZipppBot^
GetSmart=^GetSmart^
Vampire=^NetVampire^
MarcoPolo=^MarcoPolo^
PlantyNet=^PlantyNet^
slurp@inktomi=^HotBot^
Ask Jeeves=^AskJeeves^
SpaceBison=^SpaceBison^
grub-client=^GrubClient^
ia_archiver=^IA.Archiver^
TurnitinBot=^TurnitinBot^
Ivan Susanin=^IvanSusanin^
What You Seek=^WhatYouSeek^
FAST-WebCrawler=^AllTheWeb^
Netprospector=^Netprospector^
TurtleScanner=^TurtleScanner^
Yahoo-MMCrawler=^Y!MMCrawler^
Yahoo!=^Yahoo!^
StackRambler=^Rambler^
rambler=^Rambler^
Binky=^libwww.Binky^
amaya=^libwww.amaya^
Webgate=^libwww.Webgate^
W3C_Validator=^libwww.W3C_Validator^
libwww=^libwww.nothing^

Список ботов с неподтверждённым user_agent

(т.е. я ещё не видел их user_agent):

Lycos.com=^Lucos^
rambler=^Rambler^
What You Seek=^WhatYouSeek^
Ask Jeeves=^AskJeeves^
zyborg@looksmart=^WiseNut^
MnoGoSearch=^mnoGoSearch Bot^
booch=^booch Bot^
NaverBot=^NaverBot^

Отдельно стоит вопрос о...

scooter=^Altavista^

Здесь дело в том, что есть юзер-агенты "scooter" и "Scooter", но вот к кому они относятся, к какому поисковику???

 

 

Текст ПОСЛЕ знака "равно" делайте свой..., чтобы было понятно, что это бот, а не юзверь. Я вообще для них создал отдельную группу (бот) - права группы "бот" такие же, как у группы "юзер". Цвет группы не имеет силы - боты всегда нормал-чёрные.

Изменено пользователем Наблюдатель
Ссылка на комментарий
Поделиться на других сайтах

  • Ответы 86
  • Создана
  • Последний ответ

Лучшие авторы в этом вопросе

Лучшие авторы в этом вопросе

Рекомендуемые сообщения

  • 0
cepera, зачем скриптом - у меня в AtGuard есть режим подмены кук, юзер-агента и реферрера... Оччч удобно. А версии... если ты заметил, я не вставляю, а беру самую "соль" из юзер-агента. Меня вот сегодня снедают сомнения... rambler и StackRambler - это не одно и то-же-ли? Сам "rambler" мне ни разу не попадался.., зато стэка сколько хошь...
Ссылка на комментарий
Поделиться на других сайтах

  • 0

cepera, я проделал ту же работу по сбору ботов из собщений на этой конфе. после отсеивания постороннего текста получил юзер-агенты. Затем загрузил в свой редактор все имеющиеся у меня логи и провёл поиск. Результаты в первом моём сообщении. Те юзер-агенты, которые удалось подтвердить в логах, я внёс в окончательный список ботов. Те, которые не нашёл - в отдельной таблице.

 

Отдельно стоит вопрос о...

scooter=^Altavista^

Здесь дело в том, что есть юзер-агенты "scooter" и "Scooter", но вот к кому они относятся, к какому поисковику???

 

Да, если интересно, то статистика сервера есть здесь (в верхней части ссылки). Там можно ещё наковырять ботов. Боюсь только, они уже устарели...

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Грызун, не пишите в несколько топиков по одному и тому же вопросу

читайте ответ в соседней теме

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Люди, обьясните пожалуйста, где и как это все правильно реальзовать?? (куда вставлять эти боты?)

ИЗвините за скорее всего глупый вопрос, но в инвижене я новичёк

Добавлено в [mergetime]1098709216[/mergetime]

забыл сказать - версия 2.0 полная

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Засёк вот такого зверя:

 

66.249.66.7 - - [27/Oct/2004:08:11:28 +0400] "GET /robots.txt HTTP/1.1" 404 287 "-" "Mediapartners-Google/2.1"
66.249.66.7 - - [27/Oct/2004:08:11:28 +0400] "GET / HTTP/1.1" 200 6142 "-" "Mediapartners-Google/2.1"

 

это детище - дело рук Гугля как я понимаю

Ссылка на комментарий
Поделиться на других сайтах

  • 0

А у меня почему-то в онлайн списке боты отображаются с пробелом после имени. Например: "YandexBot ,".

В списке ботов в админке они без пробелов... Никто не знает почему так? :D

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Здесь глюк движка... На самом деле список ботов хранится в.... файле conf_global.php

 

Но... запись в этот файл происходит ТОЛЬКО после смены дефолтного языка.

 

Алгоритм такой:

1. Проверяешь визуально правильность списка ботов

2. Меняешь язык по-умолчанию конфы с Rus на En

2. Меняешь язык по-умолчанию конфы с En на Rus

 

И всё...

 

Или иди в conf_global.php и вручную там правь список ботов...

 

 

ВИНИМАНИЕ!

При смене языка в этот файл запишется то, что вероятно ещё не записано:

Moved:

Pool:

Pinned:

 

Знакомо это вам?

Имейте ввиду!

 

Т.е. вы можете сколь угодно долго писать в Главных - Темы, сообщения, опросы написание этих префиксов, но показаны на конфе они будут только после смены языка...

 

Глюк, однахом.

Ссылка на комментарий
Поделиться на других сайтах

  • 0

David, ты посмотрел содержимое указанного файла?

 

Есть там список ботов?

Он идентичен списку в админке?

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Там есть

$INFO['search_engine_bots']               =         'googlebot=Google.com
slurp@inktomi=Hot Bot
ask jeeves=Ask Jeeves
lycos=Lycos.com
whatuseek=What You Seek
ia_archiver=Archive.org'

и

$INFO['sp_Aport']                        =        'Aport Bot';
$INFO['sp_Archive_org']                        =        'Archive.org';
$INFO['sp_Rambler']                        =        'Rambler Bot';
$INFO['sp_Yandex']                        =        'Yandex Bot';
$INFO['sp_google']                        =        'GoogleBot';
$INFO['sp_inktomi']                        =        'Hot Bot';
$INFO['sp_jeeves']                        =        'Ask Jeeves';
$INFO['sp_lycos']                        =        'Lycos';
$INFO['sp_wuseek']                        =        'What U Seek';

вот...

В админке прописывал всех ботов, которых только нашёл на этом форуме.

Ссылка на комментарий
Поделиться на других сайтах

  • 0

у меня есть огромный список спайдеров, но в формате форума vBulletin: в одном файле описание бота, во втором - его название. Нужно их собрать вместе на манер IPB :D

Добавлено в [mergetime]1101971998[/mergetime]

всего 293 спайдера

Ссылка на комментарий
Поделиться на других сайтах

  • 0

David, твои коды... верхняя таблица - верно, но... список неполный.

Нижняя - полный бред...

Чтобы верхняя таклица с кодами была полной, нужно провести в админе смену дефолтного языка как я писал. только в этом случае все данные о ботах из админки запишутся в этот файл. (кстати, этот блок должен заканчиваться одинарной кавычкой и точкой с запятой.) Вот мой полный список ботов из файла conf_global.php

$INFO['search_engine_bots'] 	 =	'[fc4]=^fc4^
oBot=^oBot^
Aport=^Aport^
msnbot=^MSN^
Yandex=^Yandex^
WebZIP=^WebZIP^
ZunZun=^ZunZun^
Lycos.com=^Lucos^
OmniWeb=^OmniWeb^
Googlebot=^Google^
Openbot=^Openfind^
Gigabot=^Gigablast^
ZipppBot=^ZipppBot^
GetSmart=^GetSmart^
Vampire=^NetVampire^
MarcoPolo=^MarcoPolo^
PlantyNet=^PlantyNet^
slurp@inktomi=^HotBot^
Ask Jeeves=^AskJeeves^
SpaceBison=^SpaceBison^
grub-client=^GrubClient^
ia_archiver=^IA.Archiver^
TurnitinBot=^TurnitinBot^
Ivan Susanin=^IvanSusanin^
What You Seek=^WhatYouSeek^
FAST-WebCrawler=^AllTheWeb^
Netprospector=^Netprospector^
TurtleScanner=^TurtleScanner^
Yahoo-MMCrawler=^Y!MMCrawler^
Yahoo!=^Yahoo!^
StackRambler=^Rambler^
rambler=^Rambler^
Binky=^libwww.Binky^
amaya=^libwww.amaya^
Webgate=^libwww.Webgate^
W3C_Validator=^libwww.W3C_Validator^
libwww=^libwww.nothing^';

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Хм... Когда меняю язык в админке вылазит

Parse error: parse error, unexpected T_STRING in /home/tcmnewsru/forum/conf_global.php on line 264

Причём, что бы не стояло в этой самой 264 строке...

Что не так?

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Ищи кавычки. Что именно у тебя в этой строке? Там может быть одинарная кавычка, тогда как должна быть двойная.

 

Т.е. синтаксис таков: когда в админке нужно написать что-то в кавычках, то пишешь ТОЛЬКО двойную кавычку ("). Никогда не используй в админке одинарную ('). Хм... "никогда" не совсем верно - никогда в определённых (некоторых) полях. В тех полях админки, которые записываются в conf_global (там можно посмотреть). Глюк в том, что во время записи ошибки в этот файл, сообщение об ошибке не выводится и запись осуществляется. Т.е. во время записи нет проверки на ошибку...

 

Это обусловлено тем, что конструкция содержимого файла conf_global должна быть:

 

$INFO['переменная'] = 'значение';

 

и если внутри ЗНАЧЕНИЯ имеются одинарные кавычки, то ... это и есть ошибка:

$INFO['переменная'] = 'зн'аче'ние';

 

 

А это НЕ ошибка:

$INFO['переменная'] = 'зн"аче"ние';

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Угу... спасибо. С этим разобралси...

Сменил язык два раза без проблем. В conf_clobal упал весь список моих пауков из админки.

Но в списке активных боты так и идут с пробелом опосля имени. Типа "Rambler ,"...

Ссылка на комментарий
Поделиться на других сайтах

  • 0

David, АдминЦентр / Менеджер скинов / Редактирование заменяемых макросов для СКИН

 

Там ищи ACTIVE_LIST_SEP - у тебя там наверняка пробел-зпт-пробел - исправь по вкусу... У меня там на одной конфе пробел-

а на второй пробел-

Ссылка на комментарий
Поделиться на других сайтах

Присоединиться к обсуждению

Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.

Гость
Ответить на вопрос...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Зарузка...

×
×
  • Создать...

Важная информация

Находясь на нашем сайте, вы соглашаетесь на использование файлов cookie, а также с нашим положением о конфиденциальности Политика конфиденциальности и пользовательским соглашением Условия использования.