精品久久久久久无码专区_久久精品国产99久久久古代_久久精品人妻无码一区二区三区_久久婷婷综合色丁香五月_老色鬼久久亚洲AV综合_两个人看的WWW在线观看_麻豆精产国品一二三产区区_最近中文字幕免费MV在线视频_影音先锋女人AA鲁色资源_男人扒开女人内裤强吻桶进去,国产精品自在拍首页,AV高潮娇喘抽搐喷水视频,日韩av片无码一区二区不卡电影

歡迎訪問(wèn)分類目錄網(wǎng)
快審聯(lián)系QQ:158925126當(dāng)前位置:分類目錄網(wǎng) » 站長(zhǎng)資訊 » SEO優(yōu)化 » 文章詳細(xì) 訂閱RssFeed

網(wǎng)站SEO基礎(chǔ):如何阻止垃圾蜘蛛的抓取

來(lái)源:本站原創(chuàng) 瀏覽:2225次 時(shí)間:2018-12-27

  作為一個(gè)網(wǎng)站的SEO負(fù)責(zé)人,,你是否有關(guān)注過(guò)IIS日志的信息詳情?如果沒(méi)有,我敢肯定你網(wǎng)站的不少帶寬都被所謂的蜘蛛占去了,,即使你的帶寬很猛,,不在乎那么點(diǎn)流量,但是從優(yōu)化到極致來(lái)說(shuō),,這都是遠(yuǎn)遠(yuǎn)不達(dá)標(biāo)的,。

  蜘蛛分為真假蜘蛛,一般大型搜索引擎的蜘蛛,,如百度、谷歌的蜘蛛,,假蜘蛛一般歸總為垃圾搜索引擎和惡意抓取程序,。其中百度蜘蛛的真假分析,你可以通過(guò)語(yǔ)法“ nslookup ip”,,查看來(lái)源是否是百度的子站點(diǎn),,如果不是,那么就是偽裝的百度蜘蛛,。如果仔細(xì)分析,,你會(huì)發(fā)現(xiàn)一些國(guó)內(nèi)或國(guó)外的蜘蛛,例如 EasouSpider,、AhrefsBot等,,這些蜘蛛都是沒(méi)有什么用的,如果你面向的市場(chǎng)是國(guó)內(nèi)的,,百度 BaiduSpider,,谷歌 Googlebot,360 360Spider,,soso Sosospider,,搜狗Sogou+web+spider,保留這幾個(gè)蜘蛛的抓取就足夠了,,其他的蜘蛛一律屏蔽掉就行了,,還有把你的靜態(tài)資源,如Image和JS,、CSS的路徑也屏蔽掉,,這些資源都是不需要蜘蛛抓取的,因?yàn)闆](méi)有展現(xiàn)的價(jià)值;

  一般來(lái)說(shuō),,屏蔽蜘蛛的爬取有三種方法:

  Robots 禁封

  UA 禁封

  IP 禁封

  一,、Robots 禁封

  Robots 協(xié)議(也稱為爬蟲協(xié)議,、機(jī)器人協(xié)議等)的全稱是 “網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),用來(lái)告訴搜索引擎,、爬蟲哪些頁(yè)面可以抓取,,哪些頁(yè)面不能抓取。

  Robots 協(xié)議在網(wǎng)站中體現(xiàn)在根目錄下的 robots.txt 文件,,一般格式入下:

  User-agent: YisouSpider

  Disallow: /

  User-agent: EasouSpider

  Disallow: /

  User-agent: *

  Disallow: /admin/

  正規(guī) Robot 在爬取網(wǎng)站前都會(huì)先讀取該文件,,根據(jù) robots.txt 指示爬取:

  蜘蛛爬行記錄圖 1:ROBOTS TXT

  但是由于 Robots 協(xié)議并不是一個(gè)規(guī)范,,而是約定俗成的,,所以只能引導(dǎo)正規(guī)蜘蛛爬取,并不能阻止垃圾蜘蛛,,因此要屏蔽流氓垃圾蜘蛛還需要其他更嚴(yán)格的措施來(lái)配合,。

  二、UA 禁封

  UA(User Agent)中文名為用戶代理,,它是一個(gè)特殊字符串頭,,使得服務(wù)器能夠識(shí)別客戶使用的操作系統(tǒng)及版本、CPU 類型,、瀏覽器及版本,、瀏覽器渲染引擎、瀏覽器語(yǔ)言,、瀏覽器插件等,,大多數(shù)蜘蛛都有攜帶此信息,如谷歌 Chrome 瀏覽器 Windows 版本 UA 是:

  Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36

  針對(duì)指定 UA 的訪問(wèn),,返回預(yù)先設(shè)定好的異常頁(yè)面(如 403,,500)或跳轉(zhuǎn)到其他頁(yè)面的情況,即為 UA 禁封,。

  Nginx 下,,可以單獨(dú)創(chuàng)建一個(gè)配置文件,如 deny-robots.conf,,并將文件添加到 nginx.conf 或網(wǎng)站配置中,,然后重新加載 Nginx 即可。

  例如 deny-robots.conf 在 /etc/nginx/conf/ 文件夾下,,deny-robots.conf 內(nèi)容:

  if ($http_user_agent ~ "InetURL|Pcore-HTTP|PocketParser|Wotbox|SEMrushBot|newspaper|DnyzBot|Mechanize|redback|ips-agent|Sogou Pic Spider|python-requests|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|feedreader|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|LinkpadBot|Ezooms|^$")

  {

  return 444;

  }

  然后在網(wǎng)站nginx配置中添加:

  server {

  ......

  include deny-robots.conf

  ......

  }

  最后service nginx reload 即可生效,,Apache 等其他軟件操作類似。

  解釋一下,,這個(gè)配置的意思是 判斷訪問(wèn)者 UA 是否包含引號(hào)中的字符串,,若為真,則返回錯(cuò)誤碼 444,,其中錯(cuò)誤碼 444 是 nginx 獨(dú)有的錯(cuò)誤碼,,表示服務(wù)器不返回任何數(shù)據(jù),,直接丟棄。

錯(cuò)誤碼 444 是 nginx 獨(dú)有的錯(cuò)誤碼


圖 2:RESPONSE EMPTY

  根據(jù)訪問(wèn)日志,,我也整理了一份清單上傳到 GitHub,,鏈接:vircloud/bots,可以作為參考,。

  由于 UA 禁封是由 Nginx 或 Apache 等已經(jīng)到應(yīng)用層才處理,,因此即使已經(jīng)禁止爬取訪問(wèn),蜘蛛仍然會(huì)先與服務(wù)器創(chuàng)建連接,,浪費(fèi)資源,,為此,針對(duì)特別流氓的蜘蛛,,可以通過(guò)防火墻在底層拒絕連接,。

  三、IP 禁封

  IP 禁封是指利用系統(tǒng)自帶防火墻,,拒絕蜘蛛 IP 連接,,此措施最為嚴(yán)格,且針對(duì)有特定 IP 蜘蛛,,如果 IP 是隨機(jī)變動(dòng)的, IP 禁封意義也不大,。

  舉例,, 有 UA 為 ”WF search/Nutch-1.12“ 的蜘蛛,通過(guò) IP 183.94.118.76 與服務(wù)器產(chǎn)生大量連接訪問(wèn),,影響到正常運(yùn)行,,則通過(guò)以下命令禁止連接(CentOS7):


FIREWALLD DENY

圖 3:FIREWALLD DENY

  生效后此 IP 將無(wú)法再與服務(wù)器產(chǎn)生連接:


網(wǎng)站無(wú)法訪問(wèn)

圖 4:FIREWALLD DENY 2

  同樣的,我也整理了一份清單上傳到 GitHub,,鏈接:vircloud/ips,,可以作為參考。

  當(dāng)然了,,思想有多遠(yuǎn),,就有多少方法去屏蔽垃圾蜘蛛爬取,并不局限于上述三個(gè)方法,,大家都可以去試試,。


公司企業(yè)大全

推薦站點(diǎn)

  • 納米AI搜索 納米AI搜索

    納米AI搜索開(kāi)創(chuàng)全新問(wèn)答方式,,沒(méi)有套路,,直接給答案,,讓搜索變得簡(jiǎn)單直觀!拍照問(wèn),、語(yǔ)音搜,、聽(tīng)

    www.n.cn
  • 一號(hào)屋手賺庫(kù) 一號(hào)屋手賺庫(kù)

    一號(hào)屋手賺庫(kù)致力于分享最新且免費(fèi)的手機(jī)賺錢軟件,在這里,,你可以找到各種類型的賺錢app,,獲

    www.yihaowu.com
  • 事業(yè)編招聘網(wǎng) 事業(yè)編招聘網(wǎng)

    事業(yè)編招聘網(wǎng)(sybzp.cn)事業(yè)單位招聘信息基考試資料原創(chuàng)內(nèi)容網(wǎng)站,主打快速,、全面,、優(yōu)

    www.sybzp.cn
  • 4K高清電影下載 4K高清電影下載

    4Kfilm視界是專業(yè)的4K電影下載站,本網(wǎng)站頁(yè)面簡(jiǎn)潔,提供4K盤HDR杜比視界電影、美劇

    www.4kfilm.cn
  • 百評(píng)客 百評(píng)客

    百評(píng)客深度評(píng)測(cè)各種賺錢游戲,、手機(jī)賺錢app,,提供客觀且真實(shí)的評(píng)測(cè)分析,在這里,,你可以更了解

    m.baike5.com
  • 優(yōu)質(zhì)設(shè)計(jì)素材 優(yōu)質(zhì)設(shè)計(jì)素材

    顏格視覺(jué)專注海外創(chuàng)意廣告設(shè)計(jì)圖片素材下載的網(wǎng)站,!提供包括樣機(jī)素材,平面素材,UI設(shè)計(jì),ic

    www.youngem.com
  • 國(guó)家智慧教育平臺(tái) 國(guó)家智慧教育平臺(tái)

    國(guó)家智慧教育平臺(tái),全稱國(guó)家智慧教育公共服務(wù)平臺(tái),,是由中華人民共和國(guó)教育部指導(dǎo),,教育部教育技

    www.smartedu.cn
  • 鳥(niǎo)說(shuō)游戲 鳥(niǎo)說(shuō)游戲

    鳥(niǎo)說(shuō)是一個(gè)聚焦電競(jìng)產(chǎn)業(yè)的網(wǎng)站,旨在分享不一樣的電競(jìng)樂(lè)趣,。我們致力于提供最新的電競(jìng)資訊,、熱門

    www.niaoshuo.com
  • 游軟盟 游軟盟

    游軟盟是一個(gè)免費(fèi)的應(yīng)用下載網(wǎng)站,為用戶提供好玩的手機(jī)游戲,、實(shí)用的手機(jī)軟件下載,,我們也會(huì)及時(shí)

    app.ufolm.com