Перейти к контенту
  • 0

Список ботов-пауков


Вопрос

Сегодня полез в лог-файл сервера и.... дай думаю, соберу данные "user-agent" ботов посковых систем. Список куцый... с 4 утра до 18 дня...

 

"Googlebot/2.1 (+http://www.google.com/bot.html)"
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
"Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)"
"Yandex/1.01.001 (compatible; Win16; H)"
"Yandex/1.01.001 (compatible; Win16; P)"
"TurtleScanner/1.2 (compatible; MSIE 5.01; Win32)"
"TurnitinBot/2.0 (http://www.turnitin.com/robot/crawlerinfo.html)"
"msnbot/0.3 (+http://search.msn.com/msnbot.htm)"
"ZipppBot/0.11 (ZipppBot; http://www.zippp.net; webmaster@zippp.net)"
"Mozilla/4.0 (compatible; grub-client-2.3)"
"StackRambler/2.0 (MSIE incompatible)"
"http://www.almaden.ibm.com/cs/crawler   [fc4]"
"ia_archiver"
"oBot"

 

 

Ах, да... Ответ "а нафига?", прост. Вторая версия может показывать присутствующих в данный момент ботов, как юзеров. Подробнее см. в Админке - Глобальные (список главных настроек).

 

Список ботов

(категорически не рекомендуется менять порядок следования в списке, особенно в нижней части - последние 5):

[fc4]=^fc4^
oBot=^oBot^
Aport=^Aport^
msnbot=^MSNbot^
Yandex=^Yandex^
WebZIP=^WebZIP^
ZunZun=^ZunZun^
Lycos.com=^Lucos^
OmniWeb=^OmniWeb^
Googlebot=^Google^
Openbot=^Openfind^
Gigabot=^Gigablast^
ZipppBot=^ZipppBot^
GetSmart=^GetSmart^
Vampire=^NetVampire^
MarcoPolo=^MarcoPolo^
PlantyNet=^PlantyNet^
slurp@inktomi=^HotBot^
Ask Jeeves=^AskJeeves^
SpaceBison=^SpaceBison^
grub-client=^GrubClient^
ia_archiver=^IA.Archiver^
TurnitinBot=^TurnitinBot^
Ivan Susanin=^IvanSusanin^
What You Seek=^WhatYouSeek^
FAST-WebCrawler=^AllTheWeb^
Netprospector=^Netprospector^
TurtleScanner=^TurtleScanner^
Yahoo-MMCrawler=^Y!MMCrawler^
Yahoo!=^Yahoo!^
StackRambler=^Rambler^
rambler=^Rambler^
Binky=^libwww.Binky^
amaya=^libwww.amaya^
Webgate=^libwww.Webgate^
W3C_Validator=^libwww.W3C_Validator^
libwww=^libwww.nothing^

Список ботов с неподтверждённым user_agent

(т.е. я ещё не видел их user_agent):

Lycos.com=^Lucos^
rambler=^Rambler^
What You Seek=^WhatYouSeek^
Ask Jeeves=^AskJeeves^
zyborg@looksmart=^WiseNut^
MnoGoSearch=^mnoGoSearch Bot^
booch=^booch Bot^
NaverBot=^NaverBot^

Отдельно стоит вопрос о...

scooter=^Altavista^

Здесь дело в том, что есть юзер-агенты "scooter" и "Scooter", но вот к кому они относятся, к какому поисковику???

 

 

Текст ПОСЛЕ знака "равно" делайте свой..., чтобы было понятно, что это бот, а не юзверь. Я вообще для них создал отдельную группу (бот) - права группы "бот" такие же, как у группы "юзер". Цвет группы не имеет силы - боты всегда нормал-чёрные.

Изменено пользователем Наблюдатель
Ссылка на комментарий
Поделиться на других сайтах

  • Ответы 86
  • Создана
  • Последний ответ

Лучшие авторы в этом вопросе

Лучшие авторы в этом вопросе

Рекомендуемые сообщения

  • 0

Засел на форуме этот бот 213.133.164.14

Как его кассифицыровать и сделать так чтобы он отображался?

С этой IP сидит примерно 10-50 ботов.

 

 host 213.133.164.14
14.164.133.213.in-addr.arpa domain name pointer spider.meta.ua.

Ссылка на комментарий
Поделиться на других сайтах

  • 0
что-то форум бота вебальты(77.91.224.5) не хочет признавать.. пробовал webalta, WebAlta, Webalta прописывать.. все равно не видит.
Ссылка на комментарий
Поделиться на других сайтах

  • 0

googlebot=Google Bot

slurp@inktomi=Hot Bot

archive_org=Archive.org Bot

Ask Jeeves=Ask Jeeves Bot

Lycos=Lycos Bot

WhatUSeek=What You Seek Bot

ia_archiver=IA.Archiver Bot

GigaBlast=Gigablast Bot

Yahoo!=Yahoo Bot

Yahoo-MMCrawler=Yahoo-MMCrawler Bot

TurtleScanner=TurtleScanner Bot

TurnitinBot=TurnitinBot

ZipppBot=ZipppBot

StackRambler=StackRambler Bot

oBot=oBot

rambler=Rambler Bot

Jetbot=Jet Bot

NaverBot=Naver Bot

libwww=Punto Bot

aport=Aport Bot

msnbot=MSN Bot

MnoGoSearch=mnoGoSearch Bot

booch=Booch Bot

Openbot=Openfind Bot

scooter=Altavista Bot

WebCrawler=Fast Bot

WebZIP=WebZIP Bot

GetSmart=GetSmart Bot

grub-client=GrubClient Bot

Vampire=Net_Vampire Bot

Rambler=Rambler Bot

appie=Walhello appie

architext=ArchitextSpider

jeeves=AskJeeves

bjaaland=Bjaaland

ferret=Wild Ferret Web Hopper #1, #2, #3

googlebot=Googlebot

gulliver=Northern Light Gulliver

harvest=Harvest

htdig=ht://Dig

linkwalker=LinkWalker

lycos_=Lycos

moget=moget

muscatferret=Muscat Ferret

myweb=Internet Shinchakubin

nomad=Nomad

scooter=Scooter

slurp=Inktomi Slurp

voyager=Voyager

weblayers=weblayers

antibot=Antibot

digout4u=Digout4u

echo=EchO!

fast-webcrawler=Fast-Webcrawler

ia_archiver=Alexa (IA Archiver)

jennybot=JennyBot

mercator=Mercator

msnbot=MSNBot

netcraft=Netcraft

petersnews=Petersnews

unlost_web_crawler=Unlost Web Crawler

voila=Voila

webbase=WebBase

wisenutbot=WISENutbot

fish=Fish search

abcdatos=ABCdatos BotLink

acme.spider=Acme.Spider

ahoythehomepagefinder=Ahoy! The Homepage Finder

alkaline=Alkaline

anthill=Anthill

arachnophilia=Arachnophilia

arale=Arale

araneo=Araneo

aretha=Aretha

ariadne=ARIADNE

arks=arks

aspider=ASpider (Associative Spider)

atn.txt=ATN Worldwide

atomz=Atomz.com Search Robot

auresys=AURESYS

backrub=BackRub

bbot=BBot

bigbrother=Big Brother

blackwidow=BlackWidow

blindekuh=Die Blinde Kuh

bloodhound=Bloodhound

borg-bot=Borg-Bot

brightnet=bright.net caching robot

bspider=BSpider

cactvschemistryspider=CACTVS Chemistry Spider

calif=Calif

cassandra=Cassandra

cgireader=Digimarc Marcspider/CGI

checkbot=Checkbot

christcrawler=ChristCrawler.com

churl=churl

cienciaficcion=cIeNcIaFiCcIoN.nEt

collective=Collective

combine=Combine System

conceptbot=Conceptbot

coolbot=CoolBot

core=Web Core / Roots

cosmos=XYLEME Robot

cruiser=Internet Cruiser Robot

cusco=Cusco

cyberspyder=CyberSpyder Link Test

desertrealm=Desert Realm Spider

deweb=DeWeb© Katalog/Index

dienstspider=DienstSpider

digger=Digger

diibot=Digital Integrity Robot

direct_hit=Direct Hit Grabber

dnabot=DNAbot

download_express=DownLoad Express

dragonbot=DragonBot

dwcp=DWCP (Dridus' Web Cataloging Project)

e-collector=e-collector

ebiness=EbiNess

elfinbot=ELFINBOT

emacs=Emacs-w3 Search Engine

emcspider=ananzi

esther=Esther

evliyacelebi=Evliya Celebi

fastcrawler=FastCrawler

fdse=Fluid Dynamics Search Engine robot

felix=Felix IDE

fetchrover=FetchRover

fido=fido

finnish=Hдmдhдkki

fireball=KIT-Fireball

fouineur=Fouineur

francoroute=Robot Francoroute

freecrawl=Freecrawl

funnelweb=FunnelWeb

gama=gammaSpider, FocusedCrawler

gazz=gazz

gcreep=GCreep

getbot=GetBot

geturl=GetURL

golem=Golem

grapnel=Grapnel/0.01 Experiment

griffon=Griffon

gromit=Gromit

gulperbot=Gulper Bot

hambot=HamBot

havindex=havIndex

hometown=Hometown Spider Pro

htmlgobble=HTMLgobble

hyperdecontextualizer=Hyper-Decontextualizer

iajabot=iajaBot

iconoclast=Popular Iconoclast

ilse=Ingrid

imagelock=Imagelock

incywincy=IncyWincy

informant=Informant

infoseek=InfoSeek Robot 1.0

infoseeksidewinder=Infoseek Sidewinder

infospider=InfoSpiders

inspectorwww=Inspector Web

intelliagent=IntelliAgent

irobot=I, Robot

iron33=Iron33

israelisearch=Israeli-search

javabee=JavaBee

jbot=JBot Java Web Robot

jcrawler=JCrawler

jobo=JoBo Java Web Robot

jobot=Jobot

joebot=JoeBot

jubii=The Jubii Indexing Robot

jumpstation=JumpStation

kapsi=image.kapsi.net

katipo=Katipo

kilroy=Kilroy

ko_yappo_robot=KO_Yappo_Robot

labelgrabber.txt=LabelGrabber

larbin=larbin

legs=legs

linkidator=Link Validator

linkscan=LinkScan

lockon=Lockon

logo_gif=logo.gif Crawler

macworm=Mac WWWWorm

magpie=Magpie

marvin=marvin/infoseek

mattie=Mattie

mediafox=MediaFox

merzscope=MerzScope

meshexplorer=NEC-MeshExplorer

mindcrawler=MindCrawler

mnogosearch=mnoGoSearch search engine software

momspider=MOMspider

monster=Monster

motor=Motor

muncher=Muncher

mwdsearch=Mwd.Search

ndspider=NDSpider

nederland.zoek=Nederland.zoek

netcarta=NetCarta WebMap Engine

netmechanic=NetMechanic

netscoop=NetScoop

newscan-online=newscan-online

nhse=NHSE Web Forager

northstar=The NorthStar Robot

nzexplorer=nzexplorer

objectssearch=ObjectsSearch

occam=Occam

octopus=HKU WWW Octopus

openfind=Openfind data gatherer

orb_search=Orb Search

packrat=Pack Rat

pageboy=PageBoy

parasite=ParaSite

patric=Patric

pegasus=pegasus

perignator=The Peregrinator

perlcrawler=PerlCrawler 1.0

phantom=Phantom

phpdig=PhpDig

piltdownman=PiltdownMan

pimptrain=Pimptrain.com's robot

pioneer=Pioneer

pitkow=html_analyzer

pjspider=Portal Juice Spider

plumtreewebaccessor=PlumtreeWebAccessor

poppi=Poppi

portalb=PortalB Spider

psbot=psbot

python=The Python Robot

raven=Raven Search

rbse=RBSE Spider

resumerobot=Resume Robot

rhcs=RoadHouse Crawling System

road_runner=Road Runner: The ImageScape Robot

robbie=Robbie the Robot

robi=ComputingSite Robi/1.0

robocrawl=RoboCrawl Spider

robofox=RoboFox

robozilla=Robozilla

roverbot=Roverbot

rules=RuLeS

safetynetrobot=SafetyNet Robot

search-info=Sleek

search_au=Search.Aus-AU.COM

searchprocess=SearchProcess

senrigan=Senrigan

sgscout=SG-Scout

shaggy=ShagSeeker

shaihulud=Shai'Hulud

sift=Sift

simbot=Simmany Robot Ver1.0

site-valet=Site Valet

sitetech=SiteTech-Rover

skymob=Skymob.com

slcrawler=SLCrawler

smartspider=Smart Spider

snooper=Snooper

solbot=Solbot

speedy=Speedy Spider

spider_monkey=spider_monkey

spiderbot=SpiderBot

spiderline=Spiderline Crawler

spiderman=SpiderMan

spiderview=SpiderView™

spry=Spry Wizard Robot

ssearcher=Site Searcher

suke=Suke

suntek=suntek search engine

sven=Sven

tach_bw=TACH Black Widow

tarantula=Tarantula

tarspider=tarspider

techbot=TechBOT

templeton=Templeton

titan=TITAN

titin=TitIn

tkwww=The TkWWW Robot

tlspider=TLSpider

ucsd=UCSD Crawl

udmsearch=UdmSearch

urlck=URL Check

valkyrie=Valkyrie

verticrawl=Verticrawl

victoria=Victoria

visionsearch=vision-search

voidbot=void-bot

vwbot=VWbot

w3index=The NWI Robot

w3m2=W3M2

wallpaper=WallPaper (alias crawlpaper)

wanderer=the World Wide Web Wanderer

wapspider=w@pSpider by wap4.com

webbandit=WebBandit Web Spider

webcatcher=WebCatcher

webcopy=WebCopy

webfetcher=webfetcher

webfoot=The Webfoot Robot

webinator=Webinator

weblinker=WebLinker

webmirror=WebMirror

webmoose=The Web Moose

webquest=WebQuest

webreader=Digimarc MarcSpider

webreaper=WebReaper

websnarf=Websnarf

webspider=WebSpider

webvac=WebVac

webwalk=webwalk

webwalker=WebWalker

webwatch=WebWatch

whatuseek=whatUseek Winona

whowhere=WhoWhere Robot

wired-digital=Wired Digital

wmir=w3mir

wolp=WebStolperer

wombat=The Web Wombat

worm=The World Wide Web Worm

wwwc=WWWC Ver 0.2.5

wz101=WebZinger

xget=XGET

aport=Aport

awbot=AWBot

baiduspider=BaiDuSpider

bobby=Bobby

boris=Boris

bumblebee=Bumblebee (relevare.com)

cscrawler=CsCrawler

daviesbot=DaviesBot

exactseek=ExactSeek Crawler

ezresult=sEzresult

gigabot=GigaBot

gnodspider=sGNOD Spider

grub=Grub.org

henrythemiragorobot=Mirago

holmes=Holmes

internetseer=InternetSeer

justview=JustView

linkbot=LinkBot

linkchecker=LinkChecker

mediapartners-google=Google AdSense

metager-linkchecker=MetaGer LinkChecker

microsoft_url_control=Microsoft URL Control

nagios=Nagios

msiecrawler=MSIECrawler

perman=Perman surfer

pompos=Pompos

rambler=StackRambler

redalert=Red Alert

shoutcast=Shoutcast Directory Service

slysearch=SlySearch

surveybot=SurveyBot

turnitinbot=Turn It In

turtle=Turtle

turtlescanner=Turtle

ultraseek=Ultraseek

webclipping.com=WebClipping.com

webcompass=webcompass

wonderer=spider: Web Wombat Redback Spider

yahoo-verticalcrawler=Yahoo Vertical Crawler

zealbot=ZealBot

zyborg=Zyborg

BecomeBot=Become Bot

Yandex=Yandex Bot

StackRambler=Rambler Bot

msnbot=MSN Bot

googlebot=Google Bot

slurp@inktomi=Hot Bot

ask jeeves=Ask Jeeves Bot

lycos=Lycos.com Bot

whatuseek=What You Seek Bot

ia_archiver=Archive.org Bot

Ссылка на комментарий
Поделиться на других сайтах

  • 0

В списке не нашел этого

twiceler=Cuil

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Зато slurp@inktomi=Hot Bot попался на глаза дважды.

 

На самом деле, реальный целевой трафик есть буквально с 5-6 поисковок, а остальных можно смело в бан загонять, чтобы напрасно сервер не грузили.

У меня сделана система автоматического бана для гостей в случае превышения лимита запросов; наверняка половина этих пауков глубоко в бане в .htaccess вместе с многопотоковыми личерами, с флудильными ботами и прочей нечистью.

Ссылка на комментарий
Поделиться на других сайтах

  • 0
У меня сделана система автоматического бана для гостей в случае превышения лимита запросов;

 

Подскажи как такое сделать?

Ссылка на комментарий
Поделиться на других сайтах

Присоединиться к обсуждению

Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.

Гость
Ответить на вопрос...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Зарузка...

×
×
  • Создать...

Важная информация

Находясь на нашем сайте, вы соглашаетесь на использование файлов cookie, а также с нашим положением о конфиденциальности Политика конфиденциальности и пользовательским соглашением Условия использования.