第一, head部分。在我研究seo的這段時(shí)間里,我發(fā)現(xiàn)很多站長(zhǎng)在列表頁和內(nèi)容頁采用統(tǒng)一的關(guān)鍵詞和關(guān)鍵詞描述。這里就占了網(wǎng)頁相似度的10%。接著,我們繼續(xù)分析。
第二, 導(dǎo)航欄和側(cè)邊欄部分。是的,當(dāng)我們流量很多網(wǎng)站在內(nèi)容頁時(shí),的確整個(gè)站的內(nèi)容頁都是同樣的導(dǎo)航欄,側(cè)邊的一些推薦文章或產(chǎn)品都是同樣的。這里又占了網(wǎng)頁相似度的10%。
第三, 網(wǎng)頁的底部。我想我說到這里,大家應(yīng)該很清楚了,有的網(wǎng)站采用了全站foot.html模板,是不是整個(gè)站的底部都是同樣友情鏈接,同樣的備案信息,同樣的公司名稱等。這里就占了網(wǎng)頁相似度的5%~10%。
我們通過以上的分析,我們可以知道就算我們不添加內(nèi)容,該新網(wǎng)頁就與以前的網(wǎng)頁相似度達(dá)到了25%~30%。試想一下,我們更新和以往類似的文章,搜索引擎還會(huì)來收錄嗎?就算我們現(xiàn)在更新的內(nèi)容與以前的相似度是50%,那么整個(gè)網(wǎng)頁的相似度就達(dá)到了75%~80%的這么一個(gè)高度。為什么當(dāng)我們更新這類文章的時(shí)候,搜索引擎很快就收錄了,但是整個(gè)網(wǎng)站的收錄還是保持原樣。舉一個(gè)例子,我在當(dāng)天更新了5篇文章,搜索引擎收錄了5篇,網(wǎng)站的總收錄為1000篇,按照理論上我們第二天的收錄量為1005篇的,但是通過site命令一查,仍是1000篇的收錄。后來通過分析,原來我們發(fā)現(xiàn)現(xiàn)在更新的文章的網(wǎng)頁與之前收錄的文章的網(wǎng)頁他們之間的相似度達(dá)到了90%,搜素引擎收錄了我們更新的文章,過濾掉了以前的文章的網(wǎng)頁??赡芩阉饕嬗X得新更新的要比之前的有價(jià)值,所以選擇了新更新的。
這里我們就引發(fā)出一個(gè)問題了,為什么有些轉(zhuǎn)載的文章也能被搜索引擎收錄呢?很大一部分原因是該文章在這個(gè)網(wǎng)站從沒出現(xiàn)過,再加上該文章在互聯(lián)網(wǎng)轉(zhuǎn)載的少,最后該文章與同類文章的相似度低。以上的針對(duì)的搜索引擎研究主要是百度,如果一個(gè)網(wǎng)頁的相似度做到30%的話,那么你的網(wǎng)站在的收錄量會(huì)提高1.5-2倍。對(duì)于搜搜和谷歌以及搜狗,效果會(huì)更明顯。