|
|
大家好,今天百度資源平臺(tái)官方直播了一節(jié)公開課,主要是和大家說說網(wǎng)站抓取和收錄的一個(gè)原理,這里我給大家做了詳細(xì)的筆記(一字不漏),看完以后,可以說做收錄基本上不是什么大問題了。
百度爬蟲工作原理
首先百度的抓取器會(huì)和網(wǎng)站的首頁進(jìn)行交互,拿到網(wǎng)站首頁之后會(huì)對頁面進(jìn)行理解,理解包含(類型、價(jià)值計(jì)算),其次會(huì)把網(wǎng)站首頁的所有超鏈接提取出來。如下圖所示,首頁的超鏈接被稱為“后鏈”,等到下一輪抓取的時(shí)候,抓取器會(huì)繼續(xù)和這些超鏈接的頁面進(jìn)行交互,拿到頁面進(jìn)行提煉,依次不斷一層一層的抓取,這就構(gòu)成了抓取環(huán)路。
1.jpg (34.72 KB, 下載次數(shù): 61)
下載附件
2021-5-27 09:45 上傳
抓取友好性優(yōu)化
1、URL規(guī)范:
任何一個(gè)資源都是通過URL來抓取的,URL相對于網(wǎng)站的門牌號(hào),那么URL的規(guī)劃就非常重要了。尤其是如上圖所示,“待抓URL”的環(huán)境,爬蟲在首頁的時(shí)候,并不知道URL是什么樣子。
優(yōu)秀的URL的特點(diǎn)是主流的、簡單的,竟可能不要去做一些非主流的樣式,讓人看起來很直觀的URL。
優(yōu)秀URL示例:
2.jpg (26.43 KB, 下載次數(shù): 57)
下載附件
2021-5-27 09:45 上傳
如上圖所示,第一條是百度知道的鏈接,整個(gè)鏈接分成三段,第一段是網(wǎng)站的站點(diǎn),第二段是資源類型,第三段是資源的ID。這種就是非常簡單,并且爬蟲看起來非常優(yōu)質(zhì)的URL。
如上圖所示,第三條相對百度知道多了一個(gè)段,首先第一段是網(wǎng)站的站點(diǎn),第二段是站點(diǎn)的一級目錄,第三段是站點(diǎn)的二級目錄,最后一段是站點(diǎn)的內(nèi)容ID。像這種的URL也是符合標(biāo)準(zhǔn)的。
不友好的URL示例:
百
3.jpg (48.84 KB, 下載次數(shù): 49)
下載附件
2021-5-27 09:45 上傳
如上圖所示,這種鏈接一看就很長很復(fù)雜,有經(jīng)驗(yàn)的站長都看得出,這種URL包含了字符,這個(gè)URL內(nèi)包含了文章的標(biāo)題,導(dǎo)致URL偏長,一個(gè)偏長的URL相對比簡單的URL是不占優(yōu)勢的,百度站長平臺(tái)的規(guī)則有明確的說到URL不能超過256字節(jié),個(gè)人建議URL長度控制在100字節(jié)之內(nèi),100個(gè)字符足夠展現(xiàn)出URL的資源了。
4.jpg (20.81 KB, 下載次數(shù): 69)
下載附件
2021-5-27 09:45 上傳
如上圖所示,這段URL包含統(tǒng)計(jì)參數(shù),可能會(huì)導(dǎo)致重復(fù)抓取,浪費(fèi)站點(diǎn)權(quán)益,所以竟可能不使用參數(shù),如果一定要使用參數(shù),那么也可以保留必要參數(shù),參數(shù)字符竟可能使用常規(guī)的連接符,比如“?”、“&”,避免非主流連接符。
2、合理發(fā)現(xiàn)鏈路:
爬蟲是從首頁開始一層一層抓取的,所以就需要做好首頁與資源頁的URL關(guān)系。這樣爬蟲抓取相對而言比較省力。
5.jpg (18.9 KB, 下載次數(shù): 51)
下載附件
2021-5-27 09:45 上傳
如上圖所示,從首頁到具體內(nèi)容的超鏈路徑關(guān)系叫做發(fā)現(xiàn)鏈路,目前大多數(shù)移動(dòng)站沒有太注意發(fā)現(xiàn)鏈路的關(guān)系,所以導(dǎo)致爬蟲無法抓取到內(nèi)容頁。
6.jpg (49.04 KB, 下載次數(shù): 52)
下載附件
2021-5-27 09:45 上傳
如上圖所示,這兩個(gè)站點(diǎn)是移動(dòng)網(wǎng)站常見的建站方式,從發(fā)現(xiàn)鏈路的角度來講,這兩類站點(diǎn)是不友好。
Feed流推薦:大多數(shù)做feed流的站點(diǎn)后臺(tái)是有非常多的數(shù)據(jù),用戶不斷的刷會(huì)有新的內(nèi)容出現(xiàn),但你刷新的次數(shù)再多,可能也只能刷到1%左右的內(nèi)容,而爬蟲相當(dāng)于一個(gè)用戶,爬蟲不可能做到以這種方式將網(wǎng)站所有的內(nèi)容都爬取到,所以就會(huì)導(dǎo)致一些頁面爬蟲不到,即使你有100萬的內(nèi)容,可能只能抓取到1-2萬。
僅有搜索入口:如上圖所示,首頁只有一個(gè)搜索框,用戶需要輸入關(guān)鍵詞,才能找到對應(yīng)的內(nèi)容,但爬蟲不可能做到輸入關(guān)鍵詞然后再去爬取,所以爬蟲只能爬取到首頁后,就沒有后鏈了,自然抓取和收錄就會(huì)不理想。
解決方案:索引頁下的內(nèi)容按發(fā)布時(shí)間逆序排序的,這樣做有一個(gè)好處,搜索引擎可以通過索引頁即使的抓取到你網(wǎng)站最新的資源,另外新發(fā)布的資源要實(shí)時(shí)在索引頁同步,很多純靜態(tài)的網(wǎng)頁,內(nèi)容更新了,但是首頁(索引頁)卻沒有出來,這樣會(huì)導(dǎo)致搜索引擎通過索引頁無法即使的抓取到最新的資源,第三個(gè)點(diǎn)是后鏈(最新文章)的URL需要直接在源碼在露出,方便搜索引擎抓取,最后就是索引頁不是越多越好,有少數(shù)優(yōu)質(zhì)的索引頁就足夠了,比如長城號(hào),基本上只利用首頁來做索引頁。
最后這里和大家說一個(gè)更高效的解決方案,那就是直接通過百度站長資源平臺(tái)去主動(dòng)提交資源,這樣搜索引擎可以繞過索引頁直接抓取到最新資源,這里需要注意兩個(gè)點(diǎn)。
Q:資源提交是不是越多越好?
A:收錄效果的核心永遠(yuǎn)是內(nèi)容質(zhì)量,如果大量提交低質(zhì)、泛濫資源會(huì)導(dǎo)致懲罰性打擊。
Q:為什么提交了普通收錄但沒有抓?
A:資源提交只能加速資源發(fā)現(xiàn),不能保證短時(shí)間內(nèi)抓取,當(dāng)然百度方面表示,算法在持續(xù)優(yōu)化,讓優(yōu)質(zhì)的內(nèi)容更快得到抓取。
3、訪問友好性:
抓取器要和網(wǎng)站進(jìn)行交互,要保證網(wǎng)站的穩(wěn)定的,抓取器才能夠正常的爬取。那么訪問友好性主要包括以下幾個(gè)方面。
訪問速度優(yōu)化:加載時(shí)間建議控制在2S以內(nèi),那么無論是用戶還是爬蟲,對于打開速度更快的網(wǎng)站,都會(huì)更加青睞,其次是避免非必要的跳轉(zhuǎn),這種情況雖然是少部分,但依然有網(wǎng)站出現(xiàn)很多級的跳轉(zhuǎn),那么對于爬蟲來講,很有可能在多級跳轉(zhuǎn)的同時(shí)就斷開了。常見的有做了不帶www的域名跳轉(zhuǎn)到帶WWW的域名上,然后帶WWW的域名又要跳轉(zhuǎn)到https上,最后更換新站,這種情況就出現(xiàn)了三四級的跳轉(zhuǎn)。如果出現(xiàn)類似網(wǎng)站改版,建議直接全部跳轉(zhuǎn)到新域名上。
規(guī)范http返回碼:我們常見的301/302的正確使用,以及404的正確使用,主要是常規(guī)的問題,用常規(guī)的方式來解決,比如遇到無效資源,那么就使用404來做,不要用一些特殊的返回狀態(tài)碼了。
訪問穩(wěn)定性優(yōu)化:首先盡可能選擇國內(nèi)大型的DNS服務(wù),以保證站點(diǎn)的穩(wěn)定性,對于域名的DNS,實(shí)際上阿里云還是比較穩(wěn)定靠譜的,那么其次是謹(jǐn)慎使用技術(shù)手段封禁爬蟲抓取,如果說有特定資源不希望在百度上展現(xiàn),那么可以采用robots來屏蔽,比如說網(wǎng)站的后臺(tái)鏈接,大多數(shù)都是通過robots屏蔽的。如果說抓取頻次太高,導(dǎo)致服務(wù)器壓力過大,影響用戶正常訪問,那么可以通過資源平臺(tái)的工具降低抓取頻率。其次是避免防火墻誤封禁爬蟲抓取,那么這里建議大家可以把搜索引擎的UA加入到白名單。最后一點(diǎn)是服務(wù)器的穩(wěn)定性,特別是在短時(shí)間內(nèi)提交大量優(yōu)質(zhì)資源,這個(gè)時(shí)候一定要關(guān)注服務(wù)器穩(wěn)定性,因?yàn)楫?dāng)你提交大量資源后,爬蟲會(huì)隨之增加,這個(gè)時(shí)候會(huì)不會(huì)導(dǎo)致你服務(wù)器壓力過大而打不開,這個(gè)問題是需要站長關(guān)注的。
7.jpg (38.49 KB, 下載次數(shù): 58)
下載附件
2021-5-27 09:45 上傳
如上圖所示,這三個(gè)例子就是第三方防火墻攔截的一個(gè)狀態(tài),當(dāng)正常用戶打開是這個(gè)狀態(tài)的時(shí)候,搜索引擎抓取的時(shí)候,也會(huì)處于這個(gè)狀態(tài),所以如果遇到CC或者DDOS的時(shí)候,我們開啟防火墻的前提,一定要放開搜索引擎的UA。
4、識(shí)別百度爬蟲
對于部分網(wǎng)站,可能對用戶方面有特殊的優(yōu)化,可能有網(wǎng)站想把用戶和爬蟲區(qū)分開來做優(yōu)化,所以這個(gè)時(shí)候就需要識(shí)別百度爬蟲。
8.jpg (24.52 KB, 下載次數(shù): 57)
下載附件
2021-5-27 09:45 上傳
首先用簡單的方法,我們可以通過百度的UA來識(shí)別出百度爬蟲,那么目前來講百度PC、移動(dòng)、和小程序是三個(gè)不同的UA,那么通過簡單的識(shí)別方法,有出現(xiàn)有第三方的爬蟲模擬百度爬蟲,導(dǎo)致你識(shí)別不出來。那么這個(gè)時(shí)候,咱們可以通過雙向DNS解析認(rèn)證來區(qū)分,具體參考《輕松兩步:教你快速識(shí)別百度蜘蛛》。
問答環(huán)節(jié)
Q:新站會(huì)不會(huì)有一個(gè)的抓取限制?
A:對于任何一個(gè)新站來講,都沒有抓取限制,不過去年開始,我們已經(jīng)開始對新站有一個(gè)扶持,讓你的網(wǎng)站,先在百度上收錄起來。然后再進(jìn)行一個(gè)價(jià)值判斷,那么如何讓百度知道你是一個(gè)新站,有兩個(gè)捷徑,第一個(gè)是去百度資源平臺(tái)提交,第二個(gè)點(diǎn)是去工信部做ICP的備案,我們可以從工信部拿到ICP備案的數(shù)據(jù),備案之后我們就知道有人建了一個(gè)新的站點(diǎn),這樣就可以給新站一個(gè)基礎(chǔ)的流量扶持。
Q:每個(gè)站點(diǎn)蜘蛛抓取的配額都會(huì)有調(diào)整,大概多久調(diào)整一次?
A:確實(shí)會(huì)有調(diào)整,對于新資源會(huì)與你抓取頻率相關(guān),對于舊資源會(huì)與你內(nèi)容質(zhì)量相關(guān),如果說新資源的質(zhì)量有變化,那么抓取頻率也會(huì)有變化,網(wǎng)站的規(guī)模有變化,那么抓取的頻率也會(huì)有變化,如果說有很大的改版,那么抓取頻率相對而言也會(huì)有變化。
Q:網(wǎng)站降權(quán)能不能恢復(fù)?
A:網(wǎng)站降權(quán)恢復(fù)的前提是我們會(huì)對網(wǎng)站進(jìn)行重新評估,查看網(wǎng)站是不是有整改,如果有整改是不是做了404,并且有提交到資源平臺(tái),如果說完全符合要求后,搜索引擎會(huì)經(jīng)過評估后,對沒有違規(guī)的網(wǎng)站進(jìn)行恢復(fù)。
Q:新站點(diǎn)是不是有考核期?
A:對我們來講是沒有一個(gè)考核期這么一個(gè)東西,我們前面也講到了,竟可能會(huì)對新站的一個(gè)流量扶持,假設(shè)一個(gè)新站點(diǎn)流量扶持1-2個(gè)月以后,發(fā)現(xiàn)網(wǎng)站繼續(xù)保持這種狀態(tài),那么就不會(huì)有一個(gè)太大的調(diào)整,當(dāng)發(fā)現(xiàn)網(wǎng)站質(zhì)量有明顯的提升,那么我們也會(huì)相應(yīng)的提升百度排名。
Q:百度對外國的服務(wù)器和國內(nèi)的服務(wù)器有沒有區(qū)別對待?
A:策略角度上來件,沒有硬性區(qū)別對待,但是很多外國的服務(wù)器對國內(nèi)部分區(qū)域封禁,以及國外服務(wù)器網(wǎng)站備案的角度上來講,國內(nèi)的服務(wù)器都具有優(yōu)勢。
Q:新站舊域名是不是更有優(yōu)勢?
A:如果說老域名和新站是相同的內(nèi)容,確實(shí)在起步階段有一定的優(yōu)勢,但僅僅是起步階段,后期還是要看內(nèi)容的質(zhì)量,特別要注意的是,如果說老域名的行業(yè)和你新網(wǎng)站的內(nèi)容不相關(guān),即使是所謂高權(quán)重的老域名,也會(huì)適得其反。百度會(huì)認(rèn)為你今天做這個(gè),明天做那個(gè),效果還不如重新做一個(gè)新域名。
Q:蜘蛛是不是有權(quán)重之分,比如220和116這種高權(quán)重蜘蛛?
A:蜘蛛是沒有權(quán)重之分的,網(wǎng)站的排名最主要是取決于網(wǎng)站的質(zhì)量。
作者:馮耀宗 微信:394062665 |
溫馨提示:
1、本內(nèi)容內(nèi)由作者投稿,版權(quán)歸原作者所有!
2、本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。
3、本內(nèi)容若侵犯到你的版權(quán)利益,請聯(lián)系我們,會(huì)盡快給予刪除處理!
|