處理網(wǎng)站上的重復內(nèi)容是一項非常困難的工作。隨著網(wǎng)站的發(fā)展,必須不斷增加、改變或刪除各種功能;與此同時,不同的網(wǎng)站內(nèi)容來了又去。一段時間后,許多網(wǎng)站都會有以多個URL網(wǎng)址形式存在的系統(tǒng)化垃圾代碼,這些URL都返回同樣的內(nèi)容。在一般情況下,除了會增加搜索引擎的抓取和索引內(nèi)容的難度以外,你的網(wǎng)站上存在重復內(nèi)容并不構(gòu)成問題。此外,通過導入鏈接而得到的PageRank以及類似信息可能會在我們尚未確定為重復內(nèi)容的網(wǎng)頁間擴散,導致你的選擇網(wǎng)頁在谷歌中的排名降低。
處理你的網(wǎng)站內(nèi)部重復內(nèi)容的步驟
識別網(wǎng)站上的重復內(nèi)容。
識別你網(wǎng)站上的重復內(nèi)容是處理重復內(nèi)容的第一步,也是重要的一步。使用一種簡單的方法可以實現(xiàn)這個目的,即從網(wǎng)頁中選取一段獨特的文本代碼,然后搜索這段文本,并使用谷歌的site:query將搜索結(jié)果限制為自己網(wǎng)站上的網(wǎng)頁。如此以來,搜索出的含有同樣內(nèi)容的多個結(jié)果就是你需要處理的重復內(nèi)容。
確定你需要的選擇URL網(wǎng)址。
在處理重復內(nèi)容之前,必須確保你的選擇URL網(wǎng)址結(jié)構(gòu)。對于這段內(nèi)容,你希望使用哪一個URL網(wǎng)址?保持網(wǎng)站內(nèi)部的統(tǒng)一性。選擇選擇網(wǎng)址之后,確保在你的網(wǎng)站內(nèi)所有可能的位置上使用他們(包括你的Sitemap文件)。
在必要和可能的情況下使用301永久重定向。
可能的話,可以使用301代碼將重復網(wǎng)址重新定向為你選擇的網(wǎng)址。此舉能夠幫助用戶和搜索引擎在訪問重復URL網(wǎng)址時找到你的選擇URL網(wǎng)址。如果你的網(wǎng)站有數(shù)個域名,可選擇一個域名,使用將其他域名301重定向到這個域名,同時還要確保其轉(zhuǎn)向正確的特定網(wǎng)頁,而不僅是域根目錄。如果網(wǎng)站同時支持www和非www主機名,可選擇其中一種,使用Google網(wǎng)站站長工具中的選擇域設置,再進行適當?shù)闹囟ㄏ颉?br />
在可能的情況下,在你網(wǎng)頁上使用rel=“canonical”。
在無法使用301重定向的情況下,可以使用rel=“canonical”,以方便搜索引擎更好地理解你的網(wǎng)站和選擇URL網(wǎng)址。Ask.com、Bing和Yahoo!等主要搜索引擎都支持這種鏈接標簽的使用。
可能的情況下,在Google網(wǎng)站站長工具中使用URL參數(shù)處理工具
如果部分或全部網(wǎng)站重復內(nèi)容來自帶有查詢參數(shù)的URL網(wǎng)址,則此工具將幫助你將URL內(nèi)的重要參數(shù)和不相關參數(shù)通知我們。有關此工具的詳細信息可參網(wǎng)站管理員新參數(shù)處理工具助您減少重復內(nèi)容 。
怎樣處理robots.txt文件?
使用robots.txt文件來禁止對重復內(nèi)容進行抓取不在我們推薦的方法之內(nèi)。我們建議你不要使用robots.txt文件或其他方式來禁止對你網(wǎng)站上的重復內(nèi)容的訪問。你可以使用rel=“canonical” 鏈接標簽、URL參數(shù)處理工具或301重定向。如果完全阻止了對重復內(nèi)容的訪問,搜索引擎必須將這些URL作為獨立的不同網(wǎng)頁處理,因為它們無法分辨出這些URL其實只是指向相同內(nèi)容的不同網(wǎng)址。更好的解決方法是允許對其進行抓取,同時用我們推薦的方法將這些URL網(wǎng)址明確標記為重復內(nèi)容。如果你允許我們訪問這些URL網(wǎng)址,Google抓取機器人將學會通過查看URL確定其是否為重復內(nèi)容,在各種情況下都能很好地避免不必要的重復爬行抓取。為了防止重復內(nèi)容仍然引導我們過多地爬行搜索你的網(wǎng)站,你還可以調(diào)整Google網(wǎng)站站長工具里的抓取速度。