Перейти к контенту
  • 0

Список ботов-пауков


Вопрос

Сегодня полез в лог-файл сервера и.... дай думаю, соберу данные "user-agent" ботов посковых систем. Список куцый... с 4 утра до 18 дня...

 

"Googlebot/2.1 (+http://www.google.com/bot.html)"
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
"Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)"
"Yandex/1.01.001 (compatible; Win16; H)"
"Yandex/1.01.001 (compatible; Win16; P)"
"TurtleScanner/1.2 (compatible; MSIE 5.01; Win32)"
"TurnitinBot/2.0 (http://www.turnitin.com/robot/crawlerinfo.html)"
"msnbot/0.3 (+http://search.msn.com/msnbot.htm)"
"ZipppBot/0.11 (ZipppBot; http://www.zippp.net; webmaster@zippp.net)"
"Mozilla/4.0 (compatible; grub-client-2.3)"
"StackRambler/2.0 (MSIE incompatible)"
"http://www.almaden.ibm.com/cs/crawler   [fc4]"
"ia_archiver"
"oBot"

 

 

Ах, да... Ответ "а нафига?", прост. Вторая версия может показывать присутствующих в данный момент ботов, как юзеров. Подробнее см. в Админке - Глобальные (список главных настроек).

 

Список ботов

(категорически не рекомендуется менять порядок следования в списке, особенно в нижней части - последние 5):

[fc4]=^fc4^
oBot=^oBot^
Aport=^Aport^
msnbot=^MSNbot^
Yandex=^Yandex^
WebZIP=^WebZIP^
ZunZun=^ZunZun^
Lycos.com=^Lucos^
OmniWeb=^OmniWeb^
Googlebot=^Google^
Openbot=^Openfind^
Gigabot=^Gigablast^
ZipppBot=^ZipppBot^
GetSmart=^GetSmart^
Vampire=^NetVampire^
MarcoPolo=^MarcoPolo^
PlantyNet=^PlantyNet^
slurp@inktomi=^HotBot^
Ask Jeeves=^AskJeeves^
SpaceBison=^SpaceBison^
grub-client=^GrubClient^
ia_archiver=^IA.Archiver^
TurnitinBot=^TurnitinBot^
Ivan Susanin=^IvanSusanin^
What You Seek=^WhatYouSeek^
FAST-WebCrawler=^AllTheWeb^
Netprospector=^Netprospector^
TurtleScanner=^TurtleScanner^
Yahoo-MMCrawler=^Y!MMCrawler^
Yahoo!=^Yahoo!^
StackRambler=^Rambler^
rambler=^Rambler^
Binky=^libwww.Binky^
amaya=^libwww.amaya^
Webgate=^libwww.Webgate^
W3C_Validator=^libwww.W3C_Validator^
libwww=^libwww.nothing^

Список ботов с неподтверждённым user_agent

(т.е. я ещё не видел их user_agent):

Lycos.com=^Lucos^
rambler=^Rambler^
What You Seek=^WhatYouSeek^
Ask Jeeves=^AskJeeves^
zyborg@looksmart=^WiseNut^
MnoGoSearch=^mnoGoSearch Bot^
booch=^booch Bot^
NaverBot=^NaverBot^

Отдельно стоит вопрос о...

scooter=^Altavista^

Здесь дело в том, что есть юзер-агенты "scooter" и "Scooter", но вот к кому они относятся, к какому поисковику???

 

 

Текст ПОСЛЕ знака "равно" делайте свой..., чтобы было понятно, что это бот, а не юзверь. Я вообще для них создал отдельную группу (бот) - права группы "бот" такие же, как у группы "юзер". Цвет группы не имеет силы - боты всегда нормал-чёрные.

Изменено пользователем Наблюдатель
Ссылка на комментарий
Поделиться на других сайтах

  • Ответы 86
  • Создана
  • Последний ответ

Лучшие авторы в этом вопросе

Лучшие авторы в этом вопросе

Рекомендуемые сообщения

  • 0

Засел на форуме этот бот 213.133.164.14

Как его кассифицыровать и сделать так чтобы он отображался?

С этой IP сидит примерно 10-50 ботов.

 

 host 213.133.164.14
14.164.133.213.in-addr.arpa domain name pointer spider.meta.ua.

Ссылка на комментарий
Поделиться на других сайтах

  • 0
что-то форум бота вебальты(77.91.224.5) не хочет признавать.. пробовал webalta, WebAlta, Webalta прописывать.. все равно не видит.
Ссылка на комментарий
Поделиться на других сайтах

  • 0

googlebot=Google Bot

slurp@inktomi=Hot Bot

archive_org=Archive.org Bot

Ask Jeeves=Ask Jeeves Bot

Lycos=Lycos Bot

WhatUSeek=What You Seek Bot

ia_archiver=IA.Archiver Bot

GigaBlast=Gigablast Bot

Yahoo!=Yahoo Bot

Yahoo-MMCrawler=Yahoo-MMCrawler Bot

TurtleScanner=TurtleScanner Bot

TurnitinBot=TurnitinBot

ZipppBot=ZipppBot

StackRambler=StackRambler Bot

oBot=oBot

rambler=Rambler Bot

Jetbot=Jet Bot

NaverBot=Naver Bot

libwww=Punto Bot

aport=Aport Bot

msnbot=MSN Bot

MnoGoSearch=mnoGoSearch Bot

booch=Booch Bot

Openbot=Openfind Bot

scooter=Altavista Bot

WebCrawler=Fast Bot

WebZIP=WebZIP Bot

GetSmart=GetSmart Bot

grub-client=GrubClient Bot

Vampire=Net_Vampire Bot

Rambler=Rambler Bot

appie=Walhello appie

architext=ArchitextSpider

jeeves=AskJeeves

bjaaland=Bjaaland

ferret=Wild Ferret Web Hopper #1, #2, #3

googlebot=Googlebot

gulliver=Northern Light Gulliver

harvest=Harvest

htdig=ht://Dig

linkwalker=LinkWalker

lycos_=Lycos

moget=moget

muscatferret=Muscat Ferret

myweb=Internet Shinchakubin

nomad=Nomad

scooter=Scooter

slurp=Inktomi Slurp

voyager=Voyager

weblayers=weblayers

antibot=Antibot

digout4u=Digout4u

echo=EchO!

fast-webcrawler=Fast-Webcrawler

ia_archiver=Alexa (IA Archiver)

jennybot=JennyBot

mercator=Mercator

msnbot=MSNBot

netcraft=Netcraft

petersnews=Petersnews

unlost_web_crawler=Unlost Web Crawler

voila=Voila

webbase=WebBase

wisenutbot=WISENutbot

fish=Fish search

abcdatos=ABCdatos BotLink

acme.spider=Acme.Spider

ahoythehomepagefinder=Ahoy! The Homepage Finder

alkaline=Alkaline

anthill=Anthill

arachnophilia=Arachnophilia

arale=Arale

araneo=Araneo

aretha=Aretha

ariadne=ARIADNE

arks=arks

aspider=ASpider (Associative Spider)

atn.txt=ATN Worldwide

atomz=Atomz.com Search Robot

auresys=AURESYS

backrub=BackRub

bbot=BBot

bigbrother=Big Brother

blackwidow=BlackWidow

blindekuh=Die Blinde Kuh

bloodhound=Bloodhound

borg-bot=Borg-Bot

brightnet=bright.net caching robot

bspider=BSpider

cactvschemistryspider=CACTVS Chemistry Spider

calif=Calif

cassandra=Cassandra

cgireader=Digimarc Marcspider/CGI

checkbot=Checkbot

christcrawler=ChristCrawler.com

churl=churl

cienciaficcion=cIeNcIaFiCcIoN.nEt

collective=Collective

combine=Combine System

conceptbot=Conceptbot

coolbot=CoolBot

core=Web Core / Roots

cosmos=XYLEME Robot

cruiser=Internet Cruiser Robot

cusco=Cusco

cyberspyder=CyberSpyder Link Test

desertrealm=Desert Realm Spider

deweb=DeWeb© Katalog/Index

dienstspider=DienstSpider

digger=Digger

diibot=Digital Integrity Robot

direct_hit=Direct Hit Grabber

dnabot=DNAbot

download_express=DownLoad Express

dragonbot=DragonBot

dwcp=DWCP (Dridus' Web Cataloging Project)

e-collector=e-collector

ebiness=EbiNess

elfinbot=ELFINBOT

emacs=Emacs-w3 Search Engine

emcspider=ananzi

esther=Esther

evliyacelebi=Evliya Celebi

fastcrawler=FastCrawler

fdse=Fluid Dynamics Search Engine robot

felix=Felix IDE

fetchrover=FetchRover

fido=fido

finnish=Hдmдhдkki

fireball=KIT-Fireball

fouineur=Fouineur

francoroute=Robot Francoroute

freecrawl=Freecrawl

funnelweb=FunnelWeb

gama=gammaSpider, FocusedCrawler

gazz=gazz

gcreep=GCreep

getbot=GetBot

geturl=GetURL

golem=Golem

grapnel=Grapnel/0.01 Experiment

griffon=Griffon

gromit=Gromit

gulperbot=Gulper Bot

hambot=HamBot

havindex=havIndex

hometown=Hometown Spider Pro

htmlgobble=HTMLgobble

hyperdecontextualizer=Hyper-Decontextualizer

iajabot=iajaBot

iconoclast=Popular Iconoclast

ilse=Ingrid

imagelock=Imagelock

incywincy=IncyWincy

informant=Informant

infoseek=InfoSeek Robot 1.0

infoseeksidewinder=Infoseek Sidewinder

infospider=InfoSpiders

inspectorwww=Inspector Web

intelliagent=IntelliAgent

irobot=I, Robot

iron33=Iron33

israelisearch=Israeli-search

javabee=JavaBee

jbot=JBot Java Web Robot

jcrawler=JCrawler

jobo=JoBo Java Web Robot

jobot=Jobot

joebot=JoeBot

jubii=The Jubii Indexing Robot

jumpstation=JumpStation

kapsi=image.kapsi.net

katipo=Katipo

kilroy=Kilroy

ko_yappo_robot=KO_Yappo_Robot

labelgrabber.txt=LabelGrabber

larbin=larbin

legs=legs

linkidator=Link Validator

linkscan=LinkScan

lockon=Lockon

logo_gif=logo.gif Crawler

macworm=Mac WWWWorm

magpie=Magpie

marvin=marvin/infoseek

mattie=Mattie

mediafox=MediaFox

merzscope=MerzScope

meshexplorer=NEC-MeshExplorer

mindcrawler=MindCrawler

mnogosearch=mnoGoSearch search engine software

momspider=MOMspider

monster=Monster

motor=Motor

muncher=Muncher

mwdsearch=Mwd.Search

ndspider=NDSpider

nederland.zoek=Nederland.zoek

netcarta=NetCarta WebMap Engine

netmechanic=NetMechanic

netscoop=NetScoop

newscan-online=newscan-online

nhse=NHSE Web Forager

northstar=The NorthStar Robot

nzexplorer=nzexplorer

objectssearch=ObjectsSearch

occam=Occam

octopus=HKU WWW Octopus

openfind=Openfind data gatherer

orb_search=Orb Search

packrat=Pack Rat

pageboy=PageBoy

parasite=ParaSite

patric=Patric

pegasus=pegasus

perignator=The Peregrinator

perlcrawler=PerlCrawler 1.0

phantom=Phantom

phpdig=PhpDig

piltdownman=PiltdownMan

pimptrain=Pimptrain.com's robot

pioneer=Pioneer

pitkow=html_analyzer

pjspider=Portal Juice Spider

plumtreewebaccessor=PlumtreeWebAccessor

poppi=Poppi

portalb=PortalB Spider

psbot=psbot

python=The Python Robot

raven=Raven Search

rbse=RBSE Spider

resumerobot=Resume Robot

rhcs=RoadHouse Crawling System

road_runner=Road Runner: The ImageScape Robot

robbie=Robbie the Robot

robi=ComputingSite Robi/1.0

robocrawl=RoboCrawl Spider

robofox=RoboFox

robozilla=Robozilla

roverbot=Roverbot

rules=RuLeS

safetynetrobot=SafetyNet Robot

search-info=Sleek

search_au=Search.Aus-AU.COM

searchprocess=SearchProcess

senrigan=Senrigan

sgscout=SG-Scout

shaggy=ShagSeeker

shaihulud=Shai'Hulud

sift=Sift

simbot=Simmany Robot Ver1.0

site-valet=Site Valet

sitetech=SiteTech-Rover

skymob=Skymob.com

slcrawler=SLCrawler

smartspider=Smart Spider

snooper=Snooper

solbot=Solbot

speedy=Speedy Spider

spider_monkey=spider_monkey

spiderbot=SpiderBot

spiderline=Spiderline Crawler

spiderman=SpiderMan

spiderview=SpiderView™

spry=Spry Wizard Robot

ssearcher=Site Searcher

suke=Suke

suntek=suntek search engine

sven=Sven

tach_bw=TACH Black Widow

tarantula=Tarantula

tarspider=tarspider

techbot=TechBOT

templeton=Templeton

titan=TITAN

titin=TitIn

tkwww=The TkWWW Robot

tlspider=TLSpider

ucsd=UCSD Crawl

udmsearch=UdmSearch

urlck=URL Check

valkyrie=Valkyrie

verticrawl=Verticrawl

victoria=Victoria

visionsearch=vision-search

voidbot=void-bot

vwbot=VWbot

w3index=The NWI Robot

w3m2=W3M2

wallpaper=WallPaper (alias crawlpaper)

wanderer=the World Wide Web Wanderer

wapspider=w@pSpider by wap4.com

webbandit=WebBandit Web Spider

webcatcher=WebCatcher

webcopy=WebCopy

webfetcher=webfetcher

webfoot=The Webfoot Robot

webinator=Webinator

weblinker=WebLinker

webmirror=WebMirror

webmoose=The Web Moose

webquest=WebQuest

webreader=Digimarc MarcSpider

webreaper=WebReaper

websnarf=Websnarf

webspider=WebSpider

webvac=WebVac

webwalk=webwalk

webwalker=WebWalker

webwatch=WebWatch

whatuseek=whatUseek Winona

whowhere=WhoWhere Robot

wired-digital=Wired Digital

wmir=w3mir

wolp=WebStolperer

wombat=The Web Wombat

worm=The World Wide Web Worm

wwwc=WWWC Ver 0.2.5

wz101=WebZinger

xget=XGET

aport=Aport

awbot=AWBot

baiduspider=BaiDuSpider

bobby=Bobby

boris=Boris

bumblebee=Bumblebee (relevare.com)

cscrawler=CsCrawler

daviesbot=DaviesBot

exactseek=ExactSeek Crawler

ezresult=sEzresult

gigabot=GigaBot

gnodspider=sGNOD Spider

grub=Grub.org

henrythemiragorobot=Mirago

holmes=Holmes

internetseer=InternetSeer

justview=JustView

linkbot=LinkBot

linkchecker=LinkChecker

mediapartners-google=Google AdSense

metager-linkchecker=MetaGer LinkChecker

microsoft_url_control=Microsoft URL Control

nagios=Nagios

msiecrawler=MSIECrawler

perman=Perman surfer

pompos=Pompos

rambler=StackRambler

redalert=Red Alert

shoutcast=Shoutcast Directory Service

slysearch=SlySearch

surveybot=SurveyBot

turnitinbot=Turn It In

turtle=Turtle

turtlescanner=Turtle

ultraseek=Ultraseek

webclipping.com=WebClipping.com

webcompass=webcompass

wonderer=spider: Web Wombat Redback Spider

yahoo-verticalcrawler=Yahoo Vertical Crawler

zealbot=ZealBot

zyborg=Zyborg

BecomeBot=Become Bot

Yandex=Yandex Bot

StackRambler=Rambler Bot

msnbot=MSN Bot

googlebot=Google Bot

slurp@inktomi=Hot Bot

ask jeeves=Ask Jeeves Bot

lycos=Lycos.com Bot

whatuseek=What You Seek Bot

ia_archiver=Archive.org Bot

Ссылка на комментарий
Поделиться на других сайтах

  • 0

В списке не нашел этого

twiceler=Cuil

Ссылка на комментарий
Поделиться на других сайтах

  • 0

Зато slurp@inktomi=Hot Bot попался на глаза дважды.

 

На самом деле, реальный целевой трафик есть буквально с 5-6 поисковок, а остальных можно смело в бан загонять, чтобы напрасно сервер не грузили.

У меня сделана система автоматического бана для гостей в случае превышения лимита запросов; наверняка половина этих пауков глубоко в бане в .htaccess вместе с многопотоковыми личерами, с флудильными ботами и прочей нечистью.

Ссылка на комментарий
Поделиться на других сайтах

  • 0
У меня сделана система автоматического бана для гостей в случае превышения лимита запросов;

 

Подскажи как такое сделать?

Ссылка на комментарий
Поделиться на других сайтах

Присоединиться к обсуждению

Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.

Гость
Unfortunately, your content contains terms that we do not allow. Please edit your content to remove the highlighted words below.
Ответить на вопрос...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Зарузка...

×
×
  • Создать...

Важная информация

Находясь на нашем сайте, вы соглашаетесь на использование файлов cookie, а также с нашим положением о конфиденциальности Политика конфиденциальности и пользовательским соглашением Условия использования.