在蜘蛛實際抓取網(wǎng)頁的過程中,因為網(wǎng)頁內(nèi)容的復(fù)雜性(文本、Fash、視頻等)和技術(shù)實現(xiàn)的多樣性(純靜態(tài)、動態(tài)加載等),為了更高效地利用蛛蛛資源,搜索引擎公司會置頂不同的抓取策略,作為
阜陽網(wǎng)站優(yōu)化人員,可以參考搜素引擎公司對抓取策略的描述,采用最大化的SEO方法。
作為國內(nèi)最大的搜索引擎公司,百度在它的官方文檔中是如下這樣描述抓取策略的。互聯(lián)網(wǎng)資源具有庇大的數(shù)量級,這就要求抓取系統(tǒng)盡可能高效地利用帶寬,在有限的硬件和帶寬資源下盡可能多地抓取到有價值的資源。這就造成了另—個問題,耗費被抓取網(wǎng)站的帶寬造成訪問壓力如果程度過大,將直接影響被抓取網(wǎng)站的正常用戶訪問行為。
因此在抓取過程中要進(jìn)行一定的抓取壓力控制,實現(xiàn)既不影響網(wǎng)站的正常用戶訪問,又能盡量多地抓取到有價值資源的目標(biāo)。通常情況下,采用的最基本的方法是基于|P的壓力控制。這是因為如果基于域名,可能存在一個域名對多個iP(很多大網(wǎng)站)或多個域名對應(yīng)同一個P(小網(wǎng)站共享iP)的問題。實際工作中,往往根據(jù)iP及域名的多種條件進(jìn)行壓力控制。同時,站長平臺也推出了壓力反饋工具,站長可以人工調(diào)配對自己網(wǎng)站的抓取壓力,這時 Baiduspider將優(yōu)先按照站長的要求進(jìn)行抓取壓力控制.
對同一個站點的抓取速度控制一般分為兩類:其一,一段時間內(nèi)的抓取頻率;其二,一段時間內(nèi)的抓取流量。此外
阜陽網(wǎng)站優(yōu)化公司告訴大家同一站點不同的時間抓取速度也會不同,例如,夜深人靜的時候抓取的可能就會快一些。也視具體站點類型而定,主要思想是錯開正常用戶訪問高峰,不斷地調(diào)整。對于不同站點,也需要不同的抓取速度。