番茄網絡科技?
 

您的專屬

移動互聯服務商

行業分析
Industry analysis
您所在的位置:
搜索引擎上的網絡爬蟲是什么意思?
來源: | 作者:pro52505d | 發布時間: 2018-06-15 | 2030 次瀏覽 | 分享到:

    網絡爬蟲行業上叫做“抓取蜘蛛”,是一種抓取網頁信息的程序。這種程序大多用于搜索引擎捕捉互聯網信息,也可以被用于抓取某些網站的指定內容。我們一般認為網絡爬蟲就是搜索引擎用于捕捉網絡信息的抓取程序。


網絡爬蟲是什么


    網絡爬蟲根據搜索引擎需要,會對其功能做劃分,有專門抓取網頁的,也有專門抓取圖片的,有專門抓取手機站點信息的。國內常見的網絡爬蟲主要有


    一、百度蜘蛛


    百度蜘蛛最新名稱為Baiduspider,日志中還發現了Baiduspider-image這個百度旗下蜘蛛,我們直接看名字就可以知道它是干嘛的,是專門用以抓取圖片的蜘蛛。常見百度旗下同類型蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。


    備注:以上百度蜘蛛目前最為常見的是,Baiduspider和Baiduspider-image這兩種。


    二、谷歌蜘蛛


  這個爭議較少,但也有說是Googlebot的。谷歌蜘蛛最新名稱為“compatible; Googlebot/2.1;”,除此還發現了Googlebot-Mobile,看名字顯然是抓取wap內容的。


    三、360蜘蛛


    360Spider,它是一個很“勤奮抓爬”的蜘蛛。


    四、搜狗蜘蛛


    其名稱為,Sogou News Spider。


    搜狗蜘蛛還包括如下這些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider(參考一些網站的robots文件,搜狗蜘蛛名稱可以用Sogou來簡單概括)。看看最權威的百度的robots.txt ,http://www.baidu.com/robots.txt就為搜狗蜘蛛費了不少字節,占了一大塊地方。


    “Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前主要有這么6個,名稱都帶空格。線上常見Sogou web spider/4.0、Sogou News Spider/4.0、Sogou inst spider/4.0″,可以為它頒個“占名為王”獎。


    五、SOSO蜘蛛


    Sosospider,我們也可以為它頒發一個“勤奮抓爬”獎的蜘蛛。


    六、雅虎蜘蛛


  “Yahoo! Slurp China”或者Yahoo,名稱中帶“Slurp”和空格。


    七、有道蜘蛛


    YoudaoBot或者YodaoBot,兩個名字都有,中文拼音少了個u字母令讀音差別變得很大,這都會少?


    八、MSN蜘蛛


    msnbot-media,只見到msnbot-media在瘋狂地爬呀爬個不停。


    九、必應蜘蛛


    其名稱為,bingbot。

   
十、一搜蜘蛛


    其名稱為,YisouSpider。


    十一、Alexa蜘蛛


    其名稱為,ia_archiver。


    十二、宜搜蜘蛛


    其名稱為,EasouSpider。


    十三、即刻蜘蛛


    其名稱為,JikeSpider。


    十四、一淘網蜘蛛


    其名稱為EtaoSpider。


    網絡爬蟲的工作原理是,技術人員根據抓取需要編寫爬蟲程序,然后將爬蟲賦予給指定網頁,根據指定網頁的各種站外鏈接傳播到整個網絡,其爬行路徑往往復復,構成像一個網的爬行路徑,因此俗稱蜘蛛。


    網絡爬蟲每放問一個新站點首先會訪問robots.txt文件和sitemap文件。robots.txt文件一般是網站技術人員用于限制網絡爬蟲抓取網頁的協議文件,告知網絡爬蟲那些文件可以抓取,網絡爬蟲可遵循也可以不遵循。Sitemap文件即網站地圖文件,告知網絡爬蟲網站的各種文件存放的路徑,如果網站存在這兩個文件網絡爬蟲的抓取速度會更快。


    當網絡爬蟲發現新內容,并根據基礎要求識別網頁內容,如果符合,網絡爬蟲就會將網站內容整體帶回網頁服務器,我們將這個過程叫做收錄。因此,企業網站在服務器訪問日志中發現大量蜘蛛的抓取記錄是,這說明網站的站點質量還是比較優秀。不過從收錄到快照放出還要經過過濾及排序計算,再次不在贅述。


    對于企業來講做好企業網站,優化網站高質量內容更為重要,制作符合網絡爬蟲需求的內容,讓網絡爬蟲盡可能的抓取網站內容,爭取在網頁中出現免費排名,節約網絡營銷成本,這才是企業應該做的。

新聞動態
熱門新聞動態
美丽坚AV在线_免费视频色中文字幕_鲁鲁鲁日日夜夜_午夜性交 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>