網(wǎng)址URL規(guī)范化(URL canonicalization)是近一年來(lái)在Google搜索結(jié)果中出現(xiàn)的一個(gè)很大的問(wèn)題。它指的是搜索引擎挑選最好的URL網(wǎng)址作為真正網(wǎng)址的過(guò)程。舉例來(lái)說(shuō),下面這幾個(gè)URL一般來(lái)說(shuō)指的是同一個(gè)文件或網(wǎng)頁(yè):
http://1mkt.net/index.html
http://1mkt.net/index.html
但是從技術(shù)上來(lái)講,這幾個(gè)URL網(wǎng)址都是不同的。雖然在絕大部分情況下,這些網(wǎng)址所返回的都是相同的文件,也就是你的主頁(yè)。但是從技術(shù)上來(lái)說(shuō),主機(jī)完全可以對(duì)這幾個(gè)網(wǎng)址返回不同的內(nèi)容。
當(dāng)搜索引擎要規(guī)范化網(wǎng)址時(shí),搜索引擎需要從這些選擇當(dāng)中挑一個(gè)最好的代表。一般來(lái)說(shuō),你的主頁(yè)應(yīng)該是固定的,只有一個(gè)。但是有的時(shí)候,在很多網(wǎng)站上站長(zhǎng)在鏈接回主頁(yè)時(shí),所使用的URL并不是唯一的。很可能在你的網(wǎng)站上,一會(huì)連到URL,一會(huì)兒連到URL/index.html。
雖然這不會(huì)給訪客造成什么麻煩,因?yàn)檫@些網(wǎng)址都是同一個(gè)文件,但是對(duì)Google來(lái)說(shuō)卻是造成了困惑,哪一個(gè)網(wǎng)址是你真正的主頁(yè)呢?如果在你的網(wǎng)站上,不同的版本網(wǎng)址都大量出現(xiàn),那么這兩個(gè)URL可能都會(huì)被Google收錄進(jìn)數(shù)據(jù)庫(kù),這時(shí)就會(huì)造成復(fù)制內(nèi)容網(wǎng)頁(yè)。
所謂復(fù)制內(nèi)容網(wǎng)頁(yè),指的是兩個(gè)或多個(gè)網(wǎng)頁(yè)的內(nèi)容是相同或大部分相似的。很多時(shí)候,復(fù)制網(wǎng)頁(yè)有可能是作弊手段。就算不是作弊手段的時(shí)候,搜索引擎通常也只會(huì)挑出其中一個(gè)返回搜索結(jié)果,而把其他的復(fù)制網(wǎng)頁(yè)都排在最后面,以至于根本找不到。
當(dāng)你的網(wǎng)站出現(xiàn)網(wǎng)址URL規(guī)范化問(wèn)題的時(shí)候,就有可能造成被懷疑為復(fù)制網(wǎng)頁(yè),因而影響搜索引擎結(jié)果排名。
從Google的角度來(lái)說(shuō),他們正在發(fā)展所謂大爸爸?jǐn)?shù)據(jù)中心基本架構(gòu),來(lái)解決包括URL規(guī)范化的問(wèn)題。但誰(shuí)知道能不能解決呢?
從站長(zhǎng)的角度來(lái)考慮,你應(yīng)該做兩件事:
1.你的網(wǎng)站內(nèi)部在鏈接到其他網(wǎng)頁(yè),尤其是主頁(yè)時(shí),只使用一種URL。不管是包含www或不包含www,你要由始至終只使用一個(gè)版本。這樣搜索引擎也就明白哪一個(gè)是規(guī)范化的主頁(yè)網(wǎng)址。
2.但是你沒(méi)辦法控制別的網(wǎng)站用哪一個(gè)網(wǎng)址連向你的主頁(yè)。所以你應(yīng)該在你的主機(jī)服務(wù)器上,把所有有可能成為主頁(yè)網(wǎng)址的URL,做301重定向到你所選擇的主頁(yè)網(wǎng)址版本。也就是說(shuō),從下面這幾個(gè)網(wǎng)址
http://1mkt.net/index.html
http://1mkt.net/index.html
都要做301重定向到這個(gè)網(wǎng)址。很重要的一點(diǎn)是,如果你的網(wǎng)站出現(xiàn)了URL規(guī)范化的問(wèn)題,千萬(wàn)不能使用Google的網(wǎng)址刪除反饋表,來(lái)要求刪除其中的一個(gè)網(wǎng)址版本。比如說(shuō),你所要的是帶有www的版本
你千萬(wàn)不能到Google的網(wǎng)站上填表,要求沒(méi)有www的主頁(yè)網(wǎng)址
http://1mkt.net
被刪除掉。因?yàn)槟菢幼龅脑?,你整個(gè)的域名有可能被刪除6個(gè)月。
當(dāng)然,除了包含www和不包含www的兩個(gè)版本以外,還有其他類型的URL規(guī)范化問(wèn)題。比如有的時(shí)候,搜索引擎會(huì)去掉或加上網(wǎng)址尾端最后的斜線。有的時(shí)候會(huì)嘗試把大寫字母換成小寫字母,有的時(shí)候可能嘗試去掉會(huì)話ID(session ID)等等,這些都有可能造成網(wǎng)址規(guī)范化問(wèn)題。