《反垃圾郵件信息過濾技術研究》從技術的角度出發(fā),在全面、系統(tǒng)學習和總結了國內外反垃圾郵件領域的新成果的基礎上,深入、全面地研究了反垃圾郵件信息過濾技術,取得了以下若干創(chuàng)新和成果。《反垃圾郵件信息過濾技術研究》的主要創(chuàng)新和貢獻包括以下幾個方面。1.歸納總結了當前垃圾郵件采用的新的抗過濾的方法和手段。垃圾郵件發(fā)送者為了讓垃圾郵件逃避各種垃圾郵件過濾,不斷變化更新欺騙過濾器的方法和手段,目前簡單的過濾方法已經無法有效地過濾垃圾郵件?!斗蠢]件信息過濾技術研究》在學習了國內外相關資料和研究了大量近期垃圾郵件樣本后,歸納總結了當前垃圾郵件發(fā)送者常采用的欺騙手段和方法,及其它們的特點,以便有的放矢,更有效地反垃圾郵件。2.提出了一種基于內容的MNNB垃圾郵件過濾算法。MNNB算法應用Markov鏈改善了NaIve Bayes垃圾郵件過濾算法中的詞條之間相互獨立的缺陷,并假設句與句之間是獨立的,來簡化算法的計算量。實驗顯示MNNB算法提高了Nalve Bayes算法的準確率和查全率,并且由于該算法不需要分詞,對過濾不同語言的垃圾郵件具有更好的適應性。3.提出了一種基于內容的LVQ神經網絡過濾算法。LVQ神經網絡算法是先把郵件細分成具體的類別,然后再根據用戶的定義,把具體的類別規(guī)約成垃圾類郵件和正常類郵件。LVQ神經網絡算法克服了垃圾郵件具體類別寬泛、特征離散的問題,提高了垃圾郵件識別的準確度,并且該算法可根據用戶對垃圾郵件范圍的不同定義,來劃分垃圾郵件和正常郵件。4.提出了一種基于特征的近似垃圾郵件檢測算法-ASD算法。針對網絡中存在大量重復、近似的垃圾郵件,利用ASD算法生成的特征,高效地查詢收到郵件。ASD算法以句為單位,作為SHA1函數的參數,計算其哈希值,然后將獲得的哈希值排序,生成每個已知垃圾郵件的特征。比較新郵件的特征與已知垃圾郵件特征的近似度,來判斷該郵件是否為垃圾郵件。5.構建了一個基于URL垃圾郵件快速過濾的模塊。當前相當一部分垃圾郵件簡單地給出某“黑網頁”的URL地址,起到間接宣傳廣告的作用,而能有效地逃過現有的垃圾郵件過濾方法的過濾。針對此類垃圾郵件,采用基于URL的過濾,能有效過濾此類垃圾郵件,是其他垃圾郵件過濾算法的有效補充。6.構建了一個基于郵件服務器端的、多層次的垃圾郵件過濾系統(tǒng)——Spam Sweeper。Spam Sweeper系統(tǒng)集合了DNS反向查詢、公有、私有黑白名單、詢問/響應、基于URL的過濾、基于特征的ASD算法、基于內容的LVQ神經網絡算法和MNNB算法多種方法,各種方法之間相互協(xié)作、互相補充,形成一個準確、快速、高效、易管理和滿足不同個性化要求的反垃圾郵件過濾系統(tǒng)。