鋼學(xué)院 > 營(yíng)銷(xiāo)推廣 > SEO >Spider抓取系統(tǒng)的基本框架
Spider抓取系統(tǒng)的基本框架
發(fā)布時(shí)間:2017-06-09 15:55 | 已學(xué):28人
互聯(lián)網(wǎng)信息爆發(fā)式增長(zhǎng),如何有效的獲取并利用這些信息是搜索引擎工作中的首要環(huán)節(jié)。數(shù)據(jù)抓取系統(tǒng)作為整個(gè)搜索系統(tǒng)中的上游,主要負(fù)責(zé)互聯(lián)網(wǎng)信息的搜集、保存、更新環(huán)節(jié),它像蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此通常會(huì)被叫做“spider”。例如我們常用的幾家通用搜索引擎蜘蛛被稱(chēng)為:Baiduspdier、Googlebot、Sogou Web Spider等。
Spider抓取系統(tǒng)是搜索引擎數(shù)據(jù)來(lái)源的重要保證,如果把web理解為一個(gè)有向圖,那么spider的工作過(guò)程可以認(rèn)為是對(duì)這個(gè)有向圖的遍歷。從一些重要的種子 URL開(kāi)始,通過(guò)頁(yè)面上的超鏈接關(guān)系,不斷的發(fā)現(xiàn)新URL并抓取,盡最大可能抓取到更多的有價(jià)值網(wǎng)頁(yè)。對(duì)于類(lèi)似百度這樣的大型spider系統(tǒng),因?yàn)槊繒r(shí) 每刻都存在網(wǎng)頁(yè)被修改、刪除或出現(xiàn)新的超鏈接的可能,因此,還要對(duì)spider過(guò)去抓取過(guò)的頁(yè)面保持更新,維護(hù)一個(gè)URL庫(kù)和頁(yè)面庫(kù)。
下圖為spider抓取系統(tǒng)的基本框架圖,其中包括鏈接存儲(chǔ)系統(tǒng)、鏈接選取系統(tǒng)、dns解析服務(wù)系統(tǒng)、抓取調(diào)度系統(tǒng)、網(wǎng)頁(yè)分析系統(tǒng)、鏈接提取系統(tǒng)、鏈接分析系統(tǒng)、網(wǎng)頁(yè)存儲(chǔ)系統(tǒng)。Baiduspider即是通過(guò)這種系統(tǒng)的通力合作完成對(duì)互聯(lián)網(wǎng)頁(yè)面的抓取工作。

