1.1搜索引擎的算法原理
搜索引擎是今天互聯(lián)網(wǎng)的門(mén)戶,它幫助人們?cè)诤A康木W(wǎng)頁(yè)中快速地尋找信息。搜索引擎專(zhuān)家們也一直在為這個(gè)目標(biāo)而努力,他們?cè)噲D設(shè)計(jì)出最優(yōu)秀的系統(tǒng)和算法,將最有價(jià)值的網(wǎng)頁(yè)返回給搜索用戶。搜索引擎的流量算法決定如何排列返回的網(wǎng)頁(yè)。通常,搜索用戶只對(duì)返回結(jié)果的前幾頁(yè)感興趣,很少有人去瀏覽排在后面的信息。因此流量算法非常重要,優(yōu)秀的流量算法能把最有價(jià)值的網(wǎng)頁(yè)優(yōu)先推薦給用戶。以PageRank為代表的鏈接分析算法在今天的搜索引擎中取得了巨大的成功。這種流量思想可以應(yīng)用在很多其他的信息檢索系統(tǒng),比如科技文獻(xiàn)檢索系統(tǒng)中,改善檢索性能、提高服務(wù)質(zhì)量。網(wǎng)頁(yè)能在搜索引擎的返回結(jié)果中排在靠前的位置,對(duì)網(wǎng)頁(yè)的擁有者來(lái)說(shuō)是有利可圖的。比如:網(wǎng)頁(yè)流量靠前能吸引到更大的流量,而流量對(duì)于商業(yè)網(wǎng)站來(lái)說(shuō)意味著交易機(jī)會(huì):網(wǎng)頁(yè)流量靠前能提升網(wǎng)頁(yè)的知名度,這會(huì)吸引廣告商前來(lái)投放廣告。因此,所有的網(wǎng)頁(yè)提供者都希望他們的網(wǎng)頁(yè)能在搜索引擎的返回結(jié)果中排在靠前的位置。要想在搜索引擎結(jié)果中取得較高的流量,正確的辦法是提供高質(zhì)量的網(wǎng)頁(yè)。但創(chuàng)建高質(zhì)量的網(wǎng)頁(yè)往往要花費(fèi)大量的時(shí)間、金錢(qián)和精力。于是,有些網(wǎng)頁(yè)提供者企圖通過(guò)走捷徑來(lái)達(dá)到目的。他們利用某些手段欺騙搜索引擎的流量算法來(lái)使他們的網(wǎng)頁(yè)獲得較高的流量,這種行為稱(chēng)為搜索引擎作弊(Searchenginespare)或網(wǎng)頁(yè)作弊(Webspam)。Henzinger等人指出,搜索引擎作弊是搜索引擎面臨的主要挑戰(zhàn)之。
1.2相關(guān)研究進(jìn)展
搜索引擎誕生于上世紀(jì)90年代。初期的搜索引擎是基于文本進(jìn)行檢索和排序的,TF-IDF模型是計(jì)算文本相關(guān)性的主要方法。鏈接分析算法的發(fā)明使搜索引擎對(duì)網(wǎng)頁(yè)的評(píng)價(jià)更加精確,這類(lèi)算法的代表有PageRank[8]和HITS[9]。其中PageRank在搜索引擎外貿(mào)網(wǎng)站優(yōu)化中取得了巨大的成功。由于僅僅利用了網(wǎng)頁(yè)間的鏈接結(jié)構(gòu),PageRank算法也有著明顯的缺陷。比如偏重于舊網(wǎng)頁(yè),對(duì)所有出鏈賦以同樣的權(quán)重,與檢索主題無(wú)關(guān)等。因此很多研究者對(duì)PageRank算法進(jìn)行了改進(jìn)。網(wǎng)頁(yè)的內(nèi)容信息、時(shí)間信息、主題信息等都被應(yīng)用到對(duì)該算法的改善中。搜索引擎作弊現(xiàn)象是伴隨著搜索引擎的誕生而開(kāi)始的。目前,研究者已經(jīng)發(fā)現(xiàn)了多種類(lèi)型的搜索引擎作弊技術(shù)。這些作弊技術(shù)大致可以分為三類(lèi):內(nèi)容作弊、鏈接作弊和隱藏作弊。早期的搜索引擎作弊技術(shù)以?xún)?nèi)容作弊為主。自然語(yǔ)言理解技術(shù)、機(jī)器學(xué)習(xí)技術(shù)和基于統(tǒng)計(jì)的技術(shù)都曾被應(yīng)用到內(nèi)容作弊的檢測(cè)中。隨著鏈接分析算法的興起,內(nèi)容作弊的方法漸漸地不再有效,取而代之的是鏈接作弊技術(shù)。反作弊技術(shù)也以鏈接作弊檢測(cè)為主。受PageRank算法思的啟發(fā),研究者們提出了一系列基于信任指數(shù)(或不信任指數(shù))傳播機(jī)制的檢測(cè)技術(shù),如BadRank、Trust-Rank、Topical-TrustRank、Anti—TrustRank,以及將TrustRank和Anti-TmstRank相結(jié)合的方法。文獻(xiàn)的方法也都是基于上述機(jī)制。此外,機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、圖算法和利用時(shí)序信息的方法也都被應(yīng)用于鏈接作弊檢測(cè)。針對(duì)偽裝和重定向,研究者也提出了很多檢測(cè)方法。其他的一些檢測(cè)方法還利用了用戶行為信、熱擴(kuò)散模型和商業(yè)目的分析等。
1.3本文的目的
1.在深入研究了搜索引擎流量算法的相關(guān)理論和技術(shù)的基礎(chǔ)上,提出了搜索引擎流量算法在文獻(xiàn)檢索系統(tǒng)中的一個(gè)應(yīng)用:基于PageRank的科技文獻(xiàn)質(zhì)量評(píng)價(jià)算法。該算法將PageRank思想引入到引文分析中,并綜合考慮科技文獻(xiàn)發(fā)表機(jī)構(gòu)、作者、被引次數(shù)、發(fā)表時(shí)間等因素,改進(jìn)了傳統(tǒng)的文獻(xiàn)質(zhì)量評(píng)價(jià)方法。實(shí)驗(yàn)證實(shí),該算法的評(píng)價(jià)結(jié)果比傳統(tǒng)方法更符合人們的期望。
2.在對(duì)各類(lèi)搜索引擎作弊技術(shù)及目前各種作弊檢測(cè)技術(shù)作了研究綜述的基礎(chǔ)上,提出了一個(gè)基于擴(kuò)展策略和鏈接相似度的鏈接作弊檢測(cè)方法。我們的方相似度,并將這三種新鏈接相似度應(yīng)用到基于擴(kuò)展策略的鏈接作弊檢測(cè)方法中。
3.通過(guò)實(shí)驗(yàn)驗(yàn)證了提出的機(jī)遇擴(kuò)展策略和鏈接相似度的作弊檢測(cè)方法,對(duì)結(jié)果進(jìn)行了比較分析,并與其他檢測(cè)方法做了對(duì)比。首先比較了在基于擴(kuò)展的方法中新提出的鏈接相似度與舊鏈接相似度的檢測(cè)效果,我們發(fā)現(xiàn)新鏈接相似度的檢測(cè)準(zhǔn)確率更高,但檢測(cè)結(jié)果數(shù)量相對(duì)較少。其次比較了三種新鏈接相似度的檢測(cè)效果,結(jié)果顯示三種新鏈接相似度的檢測(cè)性能各有所長(zhǎng)。最后我們將我們的檢測(cè)方法與兩種優(yōu)秀的檢測(cè)算法ATR和BRW做了對(duì)比,結(jié)果表明我們的方法在檢測(cè)準(zhǔn)確率和檢測(cè)結(jié)果數(shù)量方面均優(yōu)于ATR和BRW。
瑞諾國(guó)際&2Cshop受邀參加石家莊市商務(wù)局跨境電商培訓(xùn)會(huì),分享跨境發(fā)展新思路
海外推廣部的另一面:當(dāng)腦力王者沖進(jìn)全新賽場(chǎng)
瑞諾國(guó)際創(chuàng)始人鄭毅應(yīng)邀參加石家莊市委書(shū)記張超超主持召開(kāi)的民營(yíng)企業(yè)座談會(huì)
瑞諾國(guó)際“走進(jìn)中國(guó)制造企業(yè)”特別企劃:對(duì)話尚華新材,解碼新材料領(lǐng)域的出海破局路
當(dāng)機(jī)械巨獸踏屏而來(lái)——Betop獨(dú)立站實(shí)力演繹“震撼”與“藝術(shù)”
瑞諾國(guó)際&2Cshop受邀參加石家莊市商務(wù)局跨境電商培訓(xùn)會(huì),分享跨境發(fā)展新思路
海外推廣部的另一面:當(dāng)腦力王者沖進(jìn)全新賽場(chǎng)
瑞諾國(guó)際創(chuàng)始人鄭毅應(yīng)邀參加石家莊市委書(shū)記張超超主持召開(kāi)的民營(yíng)企業(yè)座談會(huì)
瑞諾國(guó)際“走進(jìn)中國(guó)制造企業(yè)”特別企劃:對(duì)話尚華新材,解碼新材料領(lǐng)域的出海破局路
當(dāng)機(jī)械巨獸踏屏而來(lái)——Betop獨(dú)立站實(shí)力演繹“震撼”與“藝術(shù)”
