Порой, не в меру любопытные поисковые боты создают лишнюю нагрузку на CPU хостера. Под любопытными подразумеваю так называемые «плохие», те, которые не влияют на индексирование и не несут никакой пользый.
Закрываем доступ к сайту «ненужным» роботам через .htaccess
Доступ к сайту для такого «вредного» паука можно заблокировать через файл .htaccess
# Bad Bot Blocker SetEnvIfNoCase User-Agent "AhrefsBot|Aport|Serpstat|PetalBot" bad_bot <Limit GET POST HEAD> Order Allow,Deny Allow from all Deny from env=bad_bot </Limit> # END Bad Bot Blocker
В строке
SetEnvIfNoCase User-Agent "AhrefsBot|Aport|Serpstat|PetalBot" bad_bot
через прямую черту | перечисляются юзер-агенты ботов.
Закрываем доступ к сайту «вредным» роботам через robots.txt
Не будет лишним прописать запрещающие правила и в файле robots.txt. Пример ниже указывет краулеру PetalBot, чтобы он не посещал ни одной страницы вашего сайта:
User-agent: PetalBot Disallow: /
Большой список ботов, код для вставки в .htaccess
# BEGIN Bad Bot Blocker SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|Aport|asterias|Baiduspider|BDCbot|Birubot|BLEXBot|BUbiNG|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|CyotekWebCopy/1\.7|CyotekHTTP/2\.0|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|DownloadNinja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\Crawler|Gigabot|gold\crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|KenjinSpider|KeywordDensity/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1aUnix|LinkWalker|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|MataHari|MaxPointCrawler|MegaIndex|memoryBot|MicrosoftURLControl|MIIxpc|Mippin|MissiguaLocator|MisterPiX|MJ12bot|MLBot|moget|MSIECrawler|msnbot|msnbot-media|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|OfflineExplorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|ProWebWalker|ptd-crawler|Purebot|PycURL|Python\-urllib|QueryNMetasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|Slurp|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|SWeb|Szukacz/1\.4|Teleport|Telesoft|TheIntraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptimefiles|URLyWarning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|WebDownloader/6\.9|WebImageCollector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|WebsiteQuester|WebsterPro|WebStripper|WebZip|Wget|WordPress|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot Deny from env=bad_bot # END Bad Bot Blocker
Комментариев: 0