Skip to content
вредные боты

Порой, не в меру любопытные поисковые боты создают лишнюю нагрузку на CPU хостера. Под любопытными подразумеваю так называемые «плохие», те, которые не влияют на индексирование и не несут никакой пользый.

Закрываем доступ к сайту «ненужным» роботам через .htaccess

Доступ к сайту для такого «вредного» паука можно заблокировать через файл .htaccess

# Bad Bot Blocker
SetEnvIfNoCase User-Agent "AhrefsBot|Aport|Serpstat|PetalBot" bad_bot
<Limit GET POST HEAD> 
Order Allow,Deny 
Allow from all
Deny from env=bad_bot
</Limit>
# END Bad Bot Blocker

В строке

SetEnvIfNoCase User-Agent "AhrefsBot|Aport|Serpstat|PetalBot" bad_bot

через прямую черту | перечисляются юзер-агенты ботов.

Закрываем доступ к сайту «вредным» роботам через robots.txt

Не будет лишним прописать запрещающие правила и в файле robots.txt. Пример ниже указывет краулеру PetalBot, чтобы он не посещал ни одной страницы вашего сайта:

User-agent: PetalBot
Disallow: /

Большой список ботов, код для вставки в .htaccess

# BEGIN Bad Bot Blocker
SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|Aport|asterias|Baiduspider|BDCbot|Birubot|BLEXBot|BUbiNG|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|CyotekWebCopy/1\.7|CyotekHTTP/2\.0|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|DownloadNinja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\Crawler|Gigabot|gold\crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|KenjinSpider|KeywordDensity/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1aUnix|LinkWalker|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|MataHari|MaxPointCrawler|MegaIndex|memoryBot|MicrosoftURLControl|MIIxpc|Mippin|MissiguaLocator|MisterPiX|MJ12bot|MLBot|moget|MSIECrawler|msnbot|msnbot-media|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|OfflineExplorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|ProWebWalker|ptd-crawler|Purebot|PycURL|Python\-urllib|QueryNMetasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|Slurp|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|SWeb|Szukacz/1\.4|Teleport|Telesoft|TheIntraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptimefiles|URLyWarning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|WebDownloader/6\.9|WebImageCollector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|WebsiteQuester|WebsterPro|WebStripper|WebZip|Wget|WordPress|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot
Deny from env=bad_bot
# END Bad Bot Blocker

Комментариев: 0

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Back To Top