佳木斯湛栽影视文化发展公司

主頁 > 知識庫 > 網(wǎng)站優(yōu)化中怎樣盡量減少無效URL的爬行和索引

網(wǎng)站優(yōu)化中怎樣盡量減少無效URL的爬行和索引

熱門標簽:蘋果 Win7旗艦版 阿里云 科大訊飛語音識別系統(tǒng) Linux服務器 解決方案 電銷機器人 鐵路電話系統(tǒng)

簡單說,帖子指出一個嚴重而且現(xiàn)實的SEO問題:很多網(wǎng)站,尤其是B2C,產(chǎn)品條件過濾系統(tǒng)(如選擇產(chǎn)品的品牌、價格、尺寸、性能、參數(shù)等)會產(chǎn)生大量無效URL,之所以稱為無效只是從SEO角度看的,這些URL并不能產(chǎn)生SEO作用,反倒有負面作用,所以這些URL不收錄為好,原因包括:

大量過濾條件頁面內(nèi)容重復或極為類似(大量復制內(nèi)容將使網(wǎng)站整體質(zhì)量下降)
大量過濾條件頁面沒有對應產(chǎn)品,頁面無內(nèi)容(如選擇“100元以下42寸LED電視”之類的)
絕大部分過濾條件頁面沒有排名能力(排名能力比分類頁面低得多)卻浪費一定權重
這些過濾條件頁面也不是產(chǎn)品頁面收錄的必要通道(產(chǎn)品頁面應該有其它內(nèi)鏈幫助爬行和收錄)
爬行大量過濾條件頁面極大浪費蜘蛛爬行時間,造成有用頁面收錄機會下降(過濾條件頁面組合起來是巨量的)
簡單說,帖子指出一個嚴重而且現(xiàn)實的SEO問題:很多網(wǎng)站,尤其是B2C,產(chǎn)品條件過濾系統(tǒng)(如選擇產(chǎn)品的品牌、價格、尺寸、性能、參數(shù)等)會產(chǎn)生大量無效URL,之所以稱為無效只是從SEO角度看的,這些URL并不能產(chǎn)生SEO作用,反倒有負面作用,所以這些URL不收錄為好,原因包括:

大量過濾條件頁面內(nèi)容重復或極為類似(大量復制內(nèi)容將使網(wǎng)站整體質(zhì)量下降)
大量過濾條件頁面沒有對應產(chǎn)品,頁面無內(nèi)容(如選擇“100元以下42寸LED電視”之類的)
絕大部分過濾條件頁面沒有排名能力(排名能力比分類頁面低得多)卻浪費一定權重
這些過濾條件頁面也不是產(chǎn)品頁面收錄的必要通道(產(chǎn)品頁面應該有其它內(nèi)鏈幫助爬行和收錄)
爬行大量過濾條件頁面極大浪費蜘蛛爬行時間,造成有用頁面收錄機會下降(過濾條件頁面組合起來是巨量的)
那么怎樣盡量使這些URL不被爬行和索引、收錄呢?不過可惜,我目前想不出完美的解決方法。提出兩個方法,我覺得都無法完美解決。

第一個方法,是將不想收錄的URL保持為動態(tài)URL,甚至故意越動態(tài)越好,以阻止被爬行和收錄。但是,搜索引擎現(xiàn)在都能爬行、收錄動態(tài)URL,而且技術上越來越不是問題。雖然參數(shù)多到一定程度確實不利于收錄,但4、5個參數(shù)通常還可以收錄。我們無法確認需要多少參數(shù)才能阻止收錄,所以不能當作一個可靠的方法。而且這些URL接收內(nèi)鏈,又沒有什么排名能力,還是會浪費一定權重。

第二個方法,robots禁止收錄。同樣,URL接收了內(nèi)鏈也就接收了權重,robots文件禁止爬行這些URL,所以接收的權重不能傳遞出去(搜索引擎不爬行就不知道有什么導出鏈接),頁面成為權重只進不出的黑洞。

連向這些URL的鏈接配合nofollow也不完美,和robots禁止類似,nofollow在Google的效果是這些URL沒有接收權重,權重卻也沒有被分配到其它鏈接上,所以權重同樣浪費了。百度據(jù)稱支持nofollow,但權重怎么處理未知。

將這些URL鏈接放在Flash、JS里也沒有用,搜索引擎已經(jīng)可以爬行Flash、JS里的鏈接,而且估計以后越來越擅長爬。很多SEO忽略了的一點是,JS中的鏈接不僅能被爬,也能傳遞權重,和正常連接一樣。

也可以將過濾條件鏈接做成AJAX形式,用戶點擊后不會訪問一個新的URL,還是在原來URL上,URL后面加了#,不會被當成不同URL。和JS問題一樣,搜索引擎正在積極嘗試爬行、抓取AJAX里的內(nèi)容,這個方法也不保險。

還一個方法是在頁面head部分加noindex+follow標簽,意即本頁面不要索引,但跟蹤頁面上的鏈接。這樣可以解決復制內(nèi)容問題,也解決了權重黑洞問題(權重是可以隨著導出鏈接傳到其它頁面的),不能解決的是浪費蜘蛛爬行時間問題,這些頁面還是要被蜘蛛爬行抓取的(然后才能看到頁面html里的noindex+follow標簽),對某些網(wǎng)站來說,過濾頁面數(shù)量巨大,爬行了這些頁面,蜘蛛就沒足夠時間爬有用頁面了。

再一個可以考慮的方法是隱藏頁面(cloaking),也就是用程序檢測訪問者,是搜索引擎蜘蛛的話返回的頁面拿掉這些過濾條件鏈接,是用戶的話才返回正常的有過濾條件的頁面。這是一個比較理想的解決方法,唯一的問題是,可能被當作作弊。搜索引擎常跟SEO講的判斷是否作弊的最高原則是:如果沒有搜索引擎,你會不會這么做?或者說,某種方法是否只是為了搜索引擎而采用?顯然,用cloaking隱藏不想被爬行的URL是為搜索引擎做的,不是為用戶做的。雖然這種情況下的cloaking目的是美好的,沒有惡意的,但風險是存在的,膽大的可試用。

還一個方法是使用canonical標簽,最大問題是百度是否支持未知,而且canonical標簽是對搜索引擎的建議,不是指令,也就是說這個標簽搜索引擎可能不遵守,等于沒用。另外,canonical標簽的本意是指定規(guī)范化網(wǎng)址,過濾條件頁面是否適用有些存疑,畢竟,這些頁面上的內(nèi)容經(jīng)常是不同的。

目前比較好的方法之一是iframe+robots禁止。將過濾部分代碼放進iframe,等于調(diào)用其它文件內(nèi)容,對搜索引擎來說,這部分內(nèi)容不屬于當前頁面,也即隱藏了內(nèi)容。但不屬于當前頁面不等于不存在,搜索引擎是可以發(fā)現(xiàn)iframe中的內(nèi)容和鏈接的,還是可能爬行這些URL,所以加robots禁止爬行。iframe中的內(nèi)容還是會有一些權重流失,但因為iframe里的鏈接不是從當前頁面分流權重,而只是從調(diào)用的那個文件分流,所以權重流失是比較少的。除了排版、瀏覽器兼容性之類的頭疼問題,iframe方法的一個潛在問題是被認為作弊的風險。現(xiàn)在搜索引擎一般不認為iframe是作弊,很多廣告就是放在iframe中,但隱藏一堆鏈接和隱藏廣告有些微妙的區(qū)別?;氐剿阉饕媾袛嘧鞅椎目傇瓌t上,很難說這不是專門為搜索引擎做的。記得Matt Cutts說過,Google以后可能改變處理iframe的方式,他們還是希望在同一個頁面上看到普通用戶能看到的所有內(nèi)容。

總之,對這個現(xiàn)實、嚴重的問題,我目前沒有自己覺得完美的答案。當然,不能完美解決不是就不能活了,不同網(wǎng)站SEO重點不同,具體問題具體分析,采用上述方法中的一種或幾種應該可以解決主要問題。

而最最最大的問題還不是上述這些,而是有時候你想讓這些過濾頁面被爬行和收錄,這才是杯具的開始。以后再討論。

一是將不想收錄的URL保持為動態(tài)URL,甚至故意越動態(tài)越好,以阻止被爬行和收錄。但是,搜索引擎現(xiàn)在都能爬行、收錄動態(tài)URL,而且技術上越來越不是問題。雖然參數(shù)多到一定程度確實不利于收錄,但4、5個參數(shù)通常還可以收錄。我們無法確認需要多少參數(shù)才能阻止收錄,所以不能當作一個可靠的方法。而且這些URL接收內(nèi)鏈,又沒有什么排名能力,還是會浪費一定權重。

第二個方法,robots禁止收錄。同樣,URL接收了內(nèi)鏈也就接收了權重,robots文件禁止爬行這些URL,所以接收的權重不能傳遞出去(搜索引擎不爬行就不知道有什么導出鏈接),頁面成為權重只進不出的黑洞。

連向這些URL的鏈接配合nofollow也不完美,和robots禁止類似,nofollow在Google的效果是這些URL沒有接收權重,權重卻也沒有被分配到其它鏈接上,所以權重同樣浪費了。百度據(jù)稱支持nofollow,但權重怎么處理未知。

將這些URL鏈接放在Flash、JS里也沒有用,搜索引擎已經(jīng)可以爬行Flash、JS里的鏈接,而且估計以后越來越擅長爬。很多SEO忽略了的一點是,JS中的鏈接不僅能被爬,也能傳遞權重,和正常連接一樣。

也可以將過濾條件鏈接做成AJAX形式,用戶點擊后不會訪問一個新的URL,還是在原來URL上,URL后面加了#,不會被當成不同URL。和JS問題一樣,搜索引擎正在積極嘗試爬行、抓取AJAX里的內(nèi)容,這個方法也不保險。

還一個方法是在頁面head部分加noindex+follow標簽,意即本頁面不要索引,但跟蹤頁面上的鏈接。這樣可以解決復制內(nèi)容問題,也解決了權重黑洞問題(權重是可以隨著導出鏈接傳到其它頁面的),不能解決的是浪費蜘蛛爬行時間問題,這些頁面還是要被蜘蛛爬行抓取的(然后才能看到頁面html里的noindex+follow標簽),對某些網(wǎng)站來說,過濾頁面數(shù)量巨大,爬行了這些頁面,蜘蛛就沒足夠時間爬有用頁面了。

再一個可以考慮的方法是隱藏頁面(cloaking),也就是用程序檢測訪問者,是搜索引擎蜘蛛的話返回的頁面拿掉這些過濾條件鏈接,是用戶的話才返回正常的有過濾條件的頁面。這是一個比較理想的解決方法,唯一的問題是,可能被當作作弊。搜索引擎常跟SEO講的判斷是否作弊的最高原則是:如果沒有搜索引擎,你會不會這么做?或者說,某種方法是否只是為了搜索引擎而采用?顯然,用cloaking隱藏不想被爬行的URL是為搜索引擎做的,不是為用戶做的。雖然這種情況下的cloaking目的是美好的,沒有惡意的,但風險是存在的,膽大的可試用。

還一個方法是使用canonical標簽,最大問題是百度是否支持未知,而且canonical標簽是對搜索引擎的建議,不是指令,也就是說這個標簽搜索引擎可能不遵守,等于沒用。另外,canonical標簽的本意是指定規(guī)范化網(wǎng)址,過濾條件頁面是否適用有些存疑,畢竟,這些頁面上的內(nèi)容經(jīng)常是不同的。

目前比較好的方法之一是iframe+robots禁止。將過濾部分代碼放進iframe,等于調(diào)用其它文件內(nèi)容,對搜索引擎來說,這部分內(nèi)容不屬于當前頁面,也即隱藏了內(nèi)容。但不屬于當前頁面不等于不存在,搜索引擎是可以發(fā)現(xiàn)iframe中的內(nèi)容和鏈接的,還是可能爬行這些URL,所以加robots禁止爬行。iframe中的內(nèi)容還是會有一些權重流失,但因為iframe里的鏈接不是從當前頁面分流權重,而只是從調(diào)用的那個文件分流,所以權重流失是比較少的。除了排版、瀏覽器兼容性之類的頭疼問題,iframe方法的一個潛在問題是被認為作弊的風險?,F(xiàn)在搜索引擎一般不認為iframe是作弊,很多廣告就是放在iframe中,但隱藏一堆鏈接和隱藏廣告有些微妙的區(qū)別。回到搜索引擎判斷作弊的總原則上,很難說這不是專門為搜索引擎做的。記得Matt Cutts說過,Google以后可能改變處理iframe的方式,他們還是希望在同一個頁面上看到普通用戶能看到的所有內(nèi)容。

總之,對這個現(xiàn)實、嚴重的問題,我目前沒有自己覺得完美的答案。當然,不能完美解決不是就不能活了,不同網(wǎng)站SEO重點不同,具體問題具體分析,采用上述方法中的一種或幾種應該可以解決主要問題。

而最最最大的問題還不是上述這些,而是有時候你想讓這些過濾頁面被爬行和收錄,這才是杯具的開始。以后再討論。

標簽:辛集 呼倫貝爾 三門峽 畢節(jié) 邵陽 安陽 湖州 湘西

巨人網(wǎng)絡通訊聲明:本文標題《網(wǎng)站優(yōu)化中怎樣盡量減少無效URL的爬行和索引》,本文關鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    塔河县| 广安市| 洪洞县| 社会| 夏津县| 罗田县| 林口县| 手机| 金阳县| 右玉县| 丹江口市| 托克托县| 文化| 海林市| 开阳县| 中卫市| 平邑县| 太白县| 内丘县| 当阳市| 潼南县| 嘉义县| 博乐市| 客服| 阳春市| 武冈市| 西华县| 巴林左旗| 金山区| 曲靖市| 高淳县| 略阳县| 新野县| 静安区| 天祝| 郎溪县| 沙坪坝区| 河间市| 荥阳市| 威信县| 华阴市|