聚類對(duì)象分析
現(xiàn)有聚類搜索引擎的聚類對(duì)象主要包括三類數(shù)據(jù):商業(yè)數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)、社交數(shù)據(jù)。
商品數(shù)據(jù)主要包括對(duì)服裝、電器、化妝品等數(shù)據(jù)信息進(jìn)行分類整理,例如用戶在淘寶網(wǎng)輸入“牙膏”關(guān)鍵字,在網(wǎng)頁(yè)上立馬顯示出“功能”、“品牌”、“產(chǎn)地”等分類信息,并按照銷量、價(jià)格、信用進(jìn)行了排序,對(duì)商品的聚類分析清晰明確。評(píng)價(jià)數(shù)據(jù)主要包括論壇對(duì)相關(guān)主題的討論信息,博客的交流信息,商業(yè)網(wǎng)站對(duì)商品的滿意度評(píng)價(jià)信息等。大連海事大學(xué)的魯明羽、姚曉娜等人提出一種基于模糊聚類的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘算法,通過(guò)分析帖子和用戶間的影響力傳遞,來(lái)判斷是否為焦點(diǎn)人物和熱門話題[11]。社交數(shù)據(jù)主要包括社交網(wǎng)絡(luò)注冊(cè)用戶個(gè)人資料信息、用戶關(guān)注度信息、用戶之間交互信息等社交數(shù)據(jù)資源。社交數(shù)據(jù)隱含了大量可以用于聚類的關(guān)聯(lián)信息,對(duì)實(shí)現(xiàn)智能和個(gè)性化聚類搜索具有重要意義。此外,聚類對(duì)象按數(shù)據(jù)類型還可以劃分為文本數(shù)據(jù)、多媒體數(shù)據(jù)等。
聚類功能分析
聚類搜索引擎的聚類功能主要有智能聚類、去重、多媒體、覆蓋性等能力。
智能聚類:聚類搜索引擎大多具有這項(xiàng)功能。目前做得最好的如Vivisimo系統(tǒng),它最大的特色是會(huì)對(duì)搜索結(jié)果自動(dòng)分類,采用專門開發(fā)的啟發(fā)式算法來(lái)集合或聚類原文文獻(xiàn)。
去重:去重可以取掉大部分的廣告網(wǎng)頁(yè)并節(jié)省掉用戶的選擇時(shí)間,是十分實(shí)用的一項(xiàng)聚類功能。國(guó)內(nèi)的比比貓的去重功能非常出色,在用戶獲得多個(gè)搜索引擎的搜索結(jié)果后,比比貓可以自動(dòng)為用戶獲取最有搜索結(jié)果并取掉重復(fù)的信息。
多媒體:除了文本聚類,聚類搜索引擎還關(guān)注視頻、音頻等多媒體信息進(jìn)行聚類的功能,商業(yè)化、集成化、多媒體化的氣息更加濃厚。搜狗音樂(lè)推出了新版的聚類頁(yè)面,可視化強(qiáng),用戶輸入音樂(lè)名稱,將獲得全新的聚類結(jié)果,該結(jié)果首先按照音頻特征聚類,再按照文本信息聚類,保證搜索界面顯示的音樂(lè)相關(guān)度最高。
覆蓋性:聚類搜索引擎一般基于一些大型通用搜索引擎的數(shù)據(jù)資源,這樣能夠保證搜索的結(jié)果覆蓋全面,可聚類的對(duì)象內(nèi)容豐富。
聚類算法分析
聚類搜索引擎的聚類算法主要有層次聚類、樹狀聚類、網(wǎng)狀聚類、圓形聚類。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統(tǒng)使用層次聚類的方法,按照來(lái)源及站點(diǎn)進(jìn)行聚類。PinkySeach[12]和Mnemomap(mnemomap.org)系統(tǒng)是使用樹狀結(jié)構(gòu)的聚類算法,將聚類的結(jié)果以列表的形式展示出來(lái)。UJIKO系統(tǒng)(ujiko.com)是使用圓形結(jié)構(gòu)的聚類算法,它將搜索結(jié)果聚類后按照主題自動(dòng)分類成圖形界面顯示出來(lái)。Quintura系統(tǒng)(quintura.com)是使用網(wǎng)狀結(jié)構(gòu)的聚類算法,是通過(guò)標(biāo)簽云的形式將在語(yǔ)義上相關(guān)的詞聚類,構(gòu)成網(wǎng)狀鏈接。