日韩一级片网站_亚洲专区一区_一区二区三区免费网站_国产777精品精品热热热一区二区

新聞資訊
您當前的位置:首頁 新聞資訊
百度蜘蛛抓取原理 發布時間:2014-04-25 已訪問:2347 次



網絡蜘蛛即Web Spider,是一個比喻得很形象的名字。把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。 

在抓取網頁的時候,網絡蜘蛛一般有兩種策略:廣度優先和深度優先  

廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓網絡蜘蛛并行處理,提高其抓取速度。

深度優先是指網絡蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。


 


主站蜘蛛池模板: 湟中县| 老河口市| 东明县| 平度市| 灵川县| 达州市| 盐边县| 郎溪县| 玉屏| 瑞昌市| 安徽省| 天镇县| 扶余县| 吉林省| 镶黄旗| 太和县| 若羌县| 开原市| 罗源县| 望城县| 监利县| 云阳县| 民勤县| 固原市| 岳阳县| 高邑县| 东城区| 皮山县| 石台县| 兴海县| 奉化市| 延安市| 集贤县| 隆尧县| 河源市| 张家口市| 东源县| 旺苍县| 南华县| 南城县| 从化市|