第一篇:贝叶斯技术在反垃圾邮件中的应用研究
淘宝网减肥药排行榜 易购网
贝叶斯技术研究及在反垃圾邮件系统中的应用
王鹏飞王腾
(浙江广厦建设职业技术学院 信息与控制工程学院,浙江 东阳322100)
摘 要:贝叶斯方法在垃圾邮件处理上具有速度快、准确率高的优点,基于贝叶斯分类的垃圾邮件分类方法受到广泛的关注。我们主要研究制约中文邮件过滤效果的中文分词方法,比较基于统计的多种方法,并根据需要对其中几种算法进行改进。关键词:贝叶斯技术垃圾邮件分布式过滤协作更新
Research and Application of Bayesian in Anti-Spam systems
Wang PengfeiWang Teng
(Computer & electric engineering Institute, Guangsha College of Applied Construction Technology, Dongyang 322100)
Abstract:At present, Anti-Spam technique is a research hotspot in international academe.There into Bayesian has high speed and high nicety rate in dealing with junk mail, therefore Anti-Spam based on Bayesian has been widely paid attention.The emphases of text in carnets Chinese participial ways of restricting Chinese mail filtration effect, comparing multi-ways based on statistic and improves some arithmetic on demands.Keywords:Bayesian;Spam;Distributed filtering;Collaboration update引言
垃圾邮件目前己经成为世界各国共同面临的棘手问题。安全厂商Sophos发布了一份报告,列出了2006年的12个垃圾邮件大国。美国是垃圾邮件第一大国,是全球22%的垃圾邮件的发源地。中国的垃圾邮件问题同样不容乐观。根据中国互联网协会反垃圾邮件中心2006 年第二次反垃圾邮件调查报告的统计,中国互联网用户平均每周收到垃圾邮件数量为17.43封,占到了用户接收邮件的61.99%。贝叶斯基本理论
贝叶斯统计源于英国学者贝叶斯撰写发表(1763年)的一篇具有哲学性的论文:《An Essay Towards solving a problem in the doctrine of chances》,后来发展形成了贝叶斯学派。Stanford大学的 Sahami(1998)最早把Bayes方法用于到垃圾邮件过滤,取得了较好的效果。
2.1向量空间模型(Vector Space Model)
邮件是一个无结构的文本,需要把它表示成一个向量才能进行计算。一般采用向量空间模型来实现邮件向量化。
定义长度为l的词汇表V{w1,,wj,,wl},对于长度为m,由单词(称为一个Token)
即中的分量表示词汇表V的对应位置的单词是否在d中出现。
收稿日期:2008-04-15
作者简介:王鹏飞(1981-),男,安徽肥东人,硕士,教师,主要从事数据挖掘和无线网络技术研究。k顺序组成的邮件d{w1,,wm}定义一个向量x1,,xi,,xj,其中xi{0,1当wid时,xi=1,否则xi=0。},2.2Naive Bayes公式
Naive Bayes邮件过滤算法是基于内容的垃圾邮件过滤方法中的一种简单有效的法。它的原理是把一封邮件dx当作一份文本文件,来进行文本分类。
邮件dx属于邮件类别集合cj中的一种,这里 C={Cspam,Clegit}
贝叶斯用于垃圾邮件过滤时,通过计算邮件dx属于某个类别cj的概率P(cj|dx),对该邮件进行分类。计算公式如下:
P(c j | dx)
P(cj)P(dx|cj)
P(dx)
j1,2,...,|C|(公式1)
其中,P(cj)是类的先验概率,P(dx|cj)是类条件概率。对同一封邮件,P(dx)不变。根据全概率公式有:
j
1朴素贝叶斯中假设dx表示为特征集合(t1,t2,...,tn),n为特征个数,各特征之间相互独立。则有:
P(dx|cj)P(t1|cj)*P(t2|cj)*...*P(tn|cj)P(ti|cj)(公式3)
i1n
P(dx)P(cj)P(dx|cj)
|C|
(公式2)
公式1重新表示为:
P(d x)
P(cj|dx)
P(cj)P(ti|cj)
i1
n
(公式4)
Naive Bayes文本分类存在多种变形模型,如二元独立模型(Binary Independence Model)、多项式模型(Multinomial Model)、泊松分布模型(Poisson Model)、负二元独立模型(Negative Binary Model),其中多项式模型具有最佳的效果。
在训练集上估计P(ti|cj)时,取训练样本中特征项ti的最大似然估计作为给定类别下的条件概率
P(ti|cj)即:
n cj
其中,ncj是类别cj的样本中的特征项总出现次数,nti_cj是类别cj的样本中特征项ti出现次数。为避免出现0概率,对其进行简单的平滑处理,其中m是训练样本中不重复的特征向量的总数:公式5可重新表示为:
P(ti|cj)
nti_cj
(公式5)
j
in cj
P(t|c)
nti_cj(公式6)
贝叶斯分类方法的优势有:在效率上优于其他算法;占用的存储空间少;易于收集最新的垃圾邮件特征;适合于作为个性化的过滤器等。
3隐马尔可夫模型及其改进
3.1隐马尔可夫模型
一个隐马尔可夫模型是一组有限的状态,其中的某一个状态可以以一定的概率转移到另外的状态(终止状态除外),而且在转移时产生输出,能产生的输出是有限的,输出也是以一定的概率产生的。它的形式化描述是HMM =< S,W,A,B,π>。应用在分词问题中的隐马尔可夫模型可以定义为:1)S 表示模型中的状态,N 是其的状态数。在分词中,状态就是统计得到的所有字,N为统计所得的总字数。所有独立的字都属于集合S,S={S1,S2,...,Sn}。2)对于任何的句子都可以用集合S中的N个状态来表示,并定义qt为一个句子中第t个字,它可能是N个字中的任一个。对于具体的算法来说,要确切计算如下的概率,需要统计(q1=Si1,q2=Si2,qt=Sit),t词的最大长度。这在实际的应用中是不可行的,所以对条件概率的计算被缩短为只看当前的状态和其前一个状态(见公式a)。3)状态转移概率矩阵A={aij}。此矩阵中的各元素在分词中表示为某一字向其它字转移的概率,即当字A出现时,其他的字出现在A之后的概率见公式b。4)初始状态分布矢量∏={∏i},在分词中表示在t = 1时刻字为状态Si的概率,即词的第一个字为
Si的概率(见公式c)。5)在给定的模型下,根据已经确定的需要结合的字来确定后一个相邻的字要不要
结合到此新词中(见公式d)。公式a、b、c、d如下:
P(qt1Sj|(q1Si1,q2Si2,qtSit))P(qt1Sj|qtSit)
(a)
ai,jP(qt1Sj|qtSi)
Num_of_word[Si,Sj]
Num_of_word[S,S]
i
j
j1
N
1iN,(b)
(c)
Num_of_Si_in_word_as_first_character
iP(q1Si)
Num_of_Si_appear
P(O|Model)P[Si1,Si2,Sim|Model]
P[Si1]P[Si2|Si1]P[Si3|Si2]P[Sim|Sim1]
(d)
=i1ai1,i2ai2,i3aim1,im
3.2改进的隐马尔可夫模型
由于在隐马尔可夫模型中,后一个字要不要与前面的字串组合成词,此条件概率最终转化为只与每个字的前一个字相关,在本文中把此链改进为与前两个字相关,这样准确性比HMM要高,但代价是在用n-gram算法的统计过程中,从原来的n=1,2变为n=1,2,3。后面将通过实验来确定用哪种方法更合理。
改进HMM中的公式(a)为:
P(qt1Sj|(q1Si1,q2Si2,qtSit))P(qt1Sj|(qt1Sit1,qtSit))
改进公式(b),(c)为:
ak,i,jP(qt1Sj|(qt1Sk,qtSi))
Num_of_word[Sk,Si,Sj]
Num_of_word[S,S,S]
k
i
j
j1
N
iP(q1Si1,q2Si2)
改进公式(d)为:
Num_of_word_beginning_with_Si1Si2
Num_of_Si1Si2
P(O|Model)P[Si1,Si2,,Sim|Model]
P[Si1,Si2]P[Si3|(Si1,Si2)]P[Si4|(Si2,Si3)]P[Sim|(Sim2,Sim1)]iai1,i2,i3ai2,i3,i4aim2,im1,im结语
由于贝叶斯技术在英文邮件分类中已经取得了良好的效果,所以本文把研究的重点放在了贝叶斯技术应用研究上,目前还没有公开的、公认的最有效的发垃圾方法,因此在本文中研究比较了基于隐马尔可夫模型并进行了改进。
参考文献:
[1] 雷杰,王明哲,孙德宝.基于贝叶斯网络的特征分类器[J].情报指挥控制系统与仿真技术, 2001,(9).[2] 余东峰,孙兆林.基于贝叶斯网络不确定推理的研究[J].微型电脑应用,2004,(8).[3] 冯楠,李敏强,寇纪淞,方德.基于贝叶斯网络的软件项目风险管理模型[J].计算机工程,2007,(7).[责任编辑:程 娟]
第二篇:反垃圾邮件技术初探
反垃圾邮件技术初探
摘要:如今,电子邮件的应用已经非常广泛,给人们的工作和生活带来了很大的方便。但是垃圾邮件的泛滥也给用户带来了诸多不便,尤其是病毒类垃圾邮件已经严重威胁用户信息的安全。在本文中,笔者通过对Internet存在的垃圾邮件问题进行探讨,从垃圾邮件的起因和特点出发,阐述了反垃圾邮件的技术。关键词:垃圾邮件;技术;过滤
随着计算机互联网技术的发展,电子邮件成为人们生活、工作中不可缺少的一项互联网服务,电子邮件费用低廉、使用方便、信息量大、信息传递速度快,极大的满足了人们的需求。正是因为邮件的这些特点,使垃圾邮件泛滥,而且具有反复性、不健康性和强制性,严重干扰了人们的正常生活,因此,要对反垃圾邮件技术进行探讨。
一、垃圾邮件简介
(一)垃圾邮件的概念
垃圾邮件是指收件人没有事先提出要求或者同意接受的电子刊物、广告等具有宣传性质的电子邮件;隐藏发件人身份、标题、地址等信息的电子邮件;收件人无法拒收的电子邮件;含有虚假信息源、路由、发件人的电子邮件。总之,垃圾邮件是指和内容无关,发送给多个未明确要求该邮件的收件人的邮件,也指发送给与信件主体不相关的新闻组或列表服务器的同一信件的重复邮件。
(二)垃圾邮件发送手段
1.以图片方式代替文字内容发送。把将要传送的内容以图片的形式附入邮件中,过滤器很难识别图片文件包含的内容。
2.邮件内容、发件信息伪装。通过随机内容生成器等将收信人地址加到正文或标题中,吸引收件人查看。
3.利用受病毒感染的“僵尸网络”发送。比如说利用蠕虫病毒,将垃圾邮件发送给世界各地可被蠕虫病毒感染的机器,使被感染的电脑在机主不知情的情况下发送垃圾邮件。
4.采用“视觉战术”,采用HTML格式,把内容加噪,干扰反垃圾邮件系统对于邮件内容的判断,但是垃圾邮件的接受者依然可以接受垃圾邮件的原始信息。
二、反垃圾邮件技术
(一)规则过滤技术
规则过滤技术是指通过设置一些基本规则,对要识别的邮件进行评估,只有符合这些规则的一条或几条规定,就认为是垃圾邮件。这些规则主要有:
1.通过SMTP通信链接频度、速率的设定,过滤垃圾邮件。垃圾邮件的发送者常常试图通过在很短一段时间内发送大量邮件来阻塞邮件服务器,所以,可通过对每个IP地址可用的带宽比例或并发SMTP连接数目进行限制,限制异常的网络流量,达到限制垃圾邮件的目的,也减少服务器因为垃圾邮件耗费的能源。
2.利用邮件地址、反向域名、域名“黑白名单”、IP查询进行邮件的过滤和限制。①实时黑名单技术就是通过检查收到邮件的IP地址,与实时黑名单中的IP地址进行核对阻止垃圾邮件,同时,实时黑名单是通过DNS来查找IP地址的A记录是否存在,并不需要手工维护IP地址的列表清单。②反向域名验证方法是通过启动邮件服务器的反省域名解析功能,对收到来源的IP地址采用反向的DNS验证真实性,有效过滤掉来自动态IP的垃圾邮件,降低垃圾邮件的数量。
(二)图片垃圾邮件的判别技术
1.杜绝图片垃圾邮件的关键在于分层处理,分层处理的解决方案加上有效的过滤原则,可帮助用户解决图片垃圾邮件带来的网络资源和网络带宽的浪费。
2.通信协议扫描技术是针对垃圾邮件的发信行为,对发件人进行监控和阻挡,减少垃圾邮件。通过对垃圾邮件行为解析,透过SMTP联机实时通信协议,对寄件者真实身份进行分析判断并适时回馈,判断其通讯行为,到图像式垃圾邮件实现高效的阻挡。
(三)基于统计的内容过滤技术
1.基于统计的内容过滤技术,是利用统计分类算法与文本分类对垃圾邮件进行检测,典型技术是贝叶斯过滤器。
2.贝叶斯过滤器的基本流程是:①在已经确定的正常邮件集和垃圾邮件集中进行学习,根据每个单词都两个集合中分别出现的次数,计算单词为垃圾词汇的概率。②当新邮件到达时,对信件内容进行系统性的分词和选词,得到一组组单词,根据在集合中学到的信息,计算整个单词流的概率,判断信件是否是垃圾邮件。
3.在实际应用中,因为贝叶斯分类法是利用概率推断邮件是否是垃圾邮件,为了方便管理,系统通过对邮件的打分确定邮件是否是垃圾邮件,为不同的概率设立不同的分数,每封邮件是否是垃圾邮件就以分数表示,确定一个阙值,查看邮件的分数,如果邮件的分数超过了阙值,邮件就是垃圾邮件,反之不是。结语:
垃圾邮件是全球性的问题,也是一种社会现象,对于这一问题,应该采用管理和技术相结合的方式,以先进的技术手段为基础,同时以完善的法律法规和管理规范为依托,通过建立国家性的反邮件服务体系,促进邮件服务商和运营商的协调合作,推动反垃圾邮件技术的发展。
参考文献:
[1]熊应, 朱斌, 朱海云.电子邮件智能分类系统的设计.电子学报, 2011, 29(12)
[2]杨清, 杨岳湘, 翟国平.智能文本分类系统的研究与设计,计算机应用研究,2009,10
[3] 刘建毅, 张鹏飞, 王 极.高性能电子邮件过滤系统的设计与实现[J].计算机应用研究, 2008(4): 224-225.[4] 李文斌, 刘椿年, 黄佳进.基于数据挖掘的垃圾E-mail 过滤方法[J].北京工业大学学报, 2009, 29(2): 237-240.
第三篇:浅析反垃圾邮件技术
淺析反垃圾郵件技術
杜暖男 馬瑩瑩
(平頂山工業職業技術學院,河南平頂山 467001)
摘要:現如今,垃圾郵件已經成為困擾人們網路交流的安全隱患之一,本文主要針對這個問題,簡要分析一些較為實用的反垃圾郵件技術。
關鍵字:資訊安全;反垃圾郵件;過濾技術;
中圖分類號:TP393.08
眾所周知,電子郵件已成為人們進行網路交流溝通的重要途徑,但是人們需要花費時間來處理日益增長的垃圾郵件。由於垃圾郵件數量多,具有反復性、強制性、欺騙性、不健康性和傳播速度快等特點,嚴重干擾了人們正常生活,浪費用戶的時間、精力甚至造成很多額外的經濟支出和資訊安全隱患。因此,對反垃圾郵件技術的研究已經成為影響互聯網發展的重要課題之一。本文主要對反垃圾郵件技術進行簡要的分析。
目前存在的垃圾郵件主要有帶附件的垃圾郵件、內容為圖片的垃圾郵件和文本型垃圾郵件三種類型。針對這三種類型的垃圾郵件的典型技術有通信協定掃描技術和貝葉斯過濾技術。1規則過濾技術
使用規則過濾技術進行判斷可以相對快速的判斷垃圾郵件,這種技術通過設置一些規則,然後對要識別的郵件評估了大量的模式大多數是正則運算式。只要符合這些規則的一條或幾條,就認為是垃圾郵件。使用這種技術最重要的是評定規則的更新。這些規則通常有:
(1)利用郵件位址、IP、功能變數名稱“黑白名單”或反向功能變數名稱查詢進行的郵件限制或過濾。為了有效地拒絕來自惡意的垃圾郵件來源站點和域被利用的垃圾郵件來源站點所發來的垃圾郵件,最直接和有效的辦法就是拒絕該來源的連接。
即時黑名單(Realtime Bolckhole List,簡稱RBL)技術通過檢查收到郵件的IP地址,與在RBL中的IP地址核對來阻止垃圾郵件。即時黑名單不需要手工維護IP位址列表清單,而是通過DNS方式來動態地查找一個IP位址的 A(Address)記錄是否存在。因此即時黑名單技術也被稱為RBLs。
反向功能變數名稱驗證的方法就是啟動郵件伺服器的反向功能變數名稱解析功能,對收到郵件的來源IP位址採用反向DNS查找驗證真實性。如果反向DNS查找提供的域與郵件上的來源IP地址相符號,該郵件被接受,如果不符合,該郵件被拒絕。例如其聲稱的名字為mail.changan.net,而其IP位址為202.96.172.185,與其DNS記錄相符,則予以接收。這種方法可以有效過濾掉來自動態IP的垃圾郵件,大大降低垃圾郵件的數量。但是,由於很多反向DNS目錄未被有效建立,或無法正常建立,在這種情況下,由這些域發送的郵件將被阻斷,造成不可接受的高誤報率。
(2)通過SMTP通信鏈結速率、頻度的設定,過濾不符合規定的郵件。垃圾郵件發送者經常試圖通過在很短一段時間內發送大量郵件阻塞郵件伺服器,這被稱為DOS(拒絕服務)攻擊。垃圾郵件的一個基本特徵是會在短時間內發送大量的郵件,這就表現為某個IP地址會在短時間內重複連接收件伺服器的SMTP埠,並佔用大量的帶寬。根據這個特點,一種方法是對每個IP位址可用的帶寬比例進行限制,另一種是對每個IP位址的併發SMTP連接數目進行限制。結合動態黑名單方式,更好地限制那些異常的網路流量,採用郵件重複技術進行限制,對那些郵件頭中關鍵資訊重複的郵件進行限制,如發送IP位址、發件人、郵件主題。這樣既可以達到限制垃圾郵件的目的,也可以減少伺服器由於處理垃圾郵件所消耗的資源。
規則過濾技術雖然可以過濾一類垃圾郵件,但是不能適應垃圾郵件的發展,只要垃圾郵件的郵件作了一些改變,就要手動更新規則才能滿足垃圾郵件的變化。
2基於統計的內容過濾技術
基於統計內容的郵件過濾技術,可以不考慮語義環境,利用文本分類與統計分類演算法進行垃圾郵件檢測。比較有代表性的是貝葉斯篩檢程式,貝葉斯分析採用過去事件的知識預測未來事件。
其基本流程是:首先在已經確定的垃圾郵件集和正常郵件集中進行學習,根據每個單詞分別在兩個集合中出現的次數,計算單詞為垃圾辭彙的概率。當一封新郵件到達時,系統對信件內容進行分詞和選詞,得到一組單詞流,然後根據學習到的資訊,計算整個單詞流的概率,並最終判斷該信件是否為垃圾郵件。
因為貝葉斯分類法是利用概率來推斷給定的郵件是垃圾郵件的可能性,在實際應用中為了便於管理,系統採用了打分的方法來為垃圾郵件與正常郵件的區分設定界限。首先,為不同的可能性建立相應的分數,每封郵件是垃圾郵件的可能性就轉化為分數來表示,增強了可讀性;然後,確定一個閾值,如果郵件的分數超過了閾值,那麼該郵件就判定為垃圾郵件,反之為正常郵件。
3圖片垃圾郵件的判別技術
隨著垃圾郵件的日益複雜,其表現形式也千變萬化。垃圾郵件正由以往頗具迷惑性的URL位址鏈結和文字形式逐漸演變成圖片格式。杜絕圖片垃圾郵件的關鍵在於分層處理。當分層處理的解決方案加上有效的過濾規則,用戶就會解決圖片垃圾郵件所帶來的網路資源和網路帶寬的大量浪費。而採用典型的基於內容過濾的貝葉斯演算法無法過濾此類垃圾郵件。通信協定掃描技術是防垃圾郵件技術領域的一種新型技術。此技術對於識別和阻攔圖片式的垃圾郵件起到很大的作用。
通信協定掃描技術主要針對垃圾郵件的發信行為,對發件人進行監控、阻擋,以達到減少垃圾郵件。通信協定掃描技術藉由匿名、偽造、濫發、非法的郵件行為判別,在不比對郵件內容/黑名單下,進行垃圾郵件行為解析,透過SMTP聯機即時通信協定,分析判斷並即時回溯追蹤寄件者真實身份,以判斷其通訊行為,對於圖像式垃圾郵件可以高效地實現阻擋。目前,垃圾郵件作為互聯網中的一個突出安全問題日益成為我們關注的重點和研究的熱點。單靠一種技術是無法徹底解決垃圾郵件,只有將各種反垃圾郵件技術結合起來運用,研製出更好的反垃圾郵件產品,並採用法律管理手段才能有效地控制和治理垃圾郵件。
第四篇:反垃圾邮件技术——邮件过滤
在对抗垃圾邮件的技术中还有一种极为重要的技术是邮件过滤技术(Mail Filter)。通过实时黑名单技术并不能完全解决垃圾邮件的问题,使用邮件过滤技术与之配合才能更有效的消除垃圾邮件带来的影响。
邮件过滤按照邮件系统的角色结构可以分为三类:
MTA(邮件传输代理)过滤
MDA(邮件递交代理)过滤
MUA(邮件用户代理)过滤
MTA过滤是指MTA在会话过程中对会话的数据进行检查,对于符合过滤条件的邮件进行过滤处理。邮件会话过程中有两个阶段可以进行过滤:
第一个阶段,邮件发送邮件数据前,即在发送DATA指令前的过滤。在发送DATA指令前,邮件对话可以在SMTP连接开始、HELO/EHLO指令、MAIL FROM指令和RCPT TO指令中对会话数据进行检查。
如果在检查中该会话符合过滤的条件,就可以按照规则采取相应的动作,如直接在会话阶段断开连接、发出警告代码等。邮件发送邮件数据前的检查也叫做信封检查。
第二个阶段,邮件发送邮件数据后,即在发送DATA指令后的过滤。在通过一个点的单行结束DATA指令后,可以对DATA指令接收到的数据进行检查,这包括信头检查和信体检查。在DATA指令所传送的数据中,信头和信体是通过一个空行分隔开的。
信头一般都比较小,通常在1KB-10KB之间,检查信头也比较快。而信体检查就要检查大量的数据,会给邮件服务器带来很大的负载。所以通常不做信体检查。
邮件发送邮件数据后的检查实际上是在邮件数据传输基本完毕后进行的,因此并不能节省下被垃圾邮件占用的带宽和处理能力,只是可以让用户不再收到这些已被过滤的垃圾邮件。MDA过滤是指MDA在从MTA中接收到信件,在本地或远程进行递交时进行检查,对于符合过滤条件的邮件进行过滤处理。
很多的MDA都支持在这个过程进行过滤,如Procmail、Maildrop和Cyrus-IMAP等,甚至它们本身就是作为过滤器使用的。这些过滤器使用过滤语言(如Sieve,它是一个标准化的邮件过滤语言,现在已成为IETF标准)。来制订过滤规则,因此配置比较灵活、功能强大。但是由于是在邮件递交阶段进行过滤,同MTA的邮件发送邮件数据后的检查一样,并不能节省下被垃圾邮件占用的带宽和处理能力,只是可以让用户不再收到这些已被过滤的垃圾邮件。
MTA和MDA过滤都是邮件服务器端的过滤,而MUA过滤是邮件用户的客户端的过滤。多数流行的邮件客户端,如Outlook、Outlook Express、Netscape Mail、Foxmail等都支持MUA过滤。
邮件过滤技术作为一个有效的对抗垃圾邮件的手段,就如同杀毒软件对病毒的查杀一样,也是需要不断根据情况更新邮件过滤规则的。通常都是管理员自行根据垃圾邮件监测情况来更新过滤规则。不过本站即将推出一个推荐的信头过滤规则和信体过滤规则,并不断根据情况进行更新。用户可以订阅这些规则并参考应用到自己的邮件系统中。
邮件过滤是一项应用的相当早的技术,因而也发展的比较完善。已经有很多主流的邮件系统支持邮件过滤,一些不直接支持该功能的邮件系统也可以通过补丁或外置的邮件过滤器来实现邮件过滤。
不过由于多数的黑名单服务提供者是国外的组织和公司,所以其提供的黑名单并不能有效地反映出国内的垃圾邮件情况,因此国内使用实时黑名单服务的邮件商很少,这也是我们之所以要提供自己的实时黑名单服务的原因。我们希望提供一个主要针对国内的垃圾邮件状况和动态地址分布的黑名单来为有效地遏制垃圾邮件做些有益的贡献
第五篇:垃圾邮件与反垃圾邮件技术浅析[范文]
垃圾邮件与反垃圾邮件技术浅析
学号:
姓名:
院系:
邮件:
电话:
垃圾邮件与反垃圾邮件技术浅析
摘要:最近几年,垃圾邮件肆虐横行,危害越来越大,严重影响了正常的网络运行。本文简单地介绍了垃圾邮件的定义及垃圾邮件泛滥的原因;重点论述了当前主要的反垃圾邮件技术,最后对未来反垃圾邮件技术提出了展望。
关键词:垃圾邮件;反垃圾邮件;邮件过滤
1引言
随着全球信息化的迅猛发展,互联网络已经成为人们工作、学习和生活中不可或缺的部分,而电子邮件又是人们进行信息交流的重要手段。可是,垃圾邮件又是困扰网络用户的难题。垃圾邮件不仅消耗网络频宽,而且浪费用户的存储空间,甚至有可能成为造成社会不稳定的因素,所以我们有必要采取技术措施控制垃圾邮件的肆意蔓延。2什么是垃圾邮件
某种程度上,对垃圾邮件的定义可以是:人们没有意愿去接收到的电子邮件都是垃圾邮件。比如:
(1)商业广告。很多公司为了宣传新的产品、新的活动等通过电子邮件的方式进行宣传。
(2)政治言论。目前会收到不少来自其他国家或者反动组织发送的这类电子邮件,这就跟垃圾的商业广告一样,销售和贩卖他们的所谓言论。
(3)蠕虫病毒邮件。越来越多的病毒通过电子邮件来迅速传播,这也的确是一条迅速而且有效的传播途径。
(4)恶意邮件。恐吓、欺骗性邮件。比如phishing,这是一种假冒网页的电子邮件,完全是一种诡计,来蒙骗用户的个人信息、账号甚至信用卡。
3垃圾邮件泛滥的原因
垃圾邮件的产生可以追溯到最开始的连锁信,随着邮件技术的发展,垃圾邮件技术也在逐步发展,要想找到彻底解决垃圾邮件问题的技术,必须从邮件传输的原理入手。目前邮件传递的主要协议是SMTP协议,该协议没有任何认证手段,因此缺省的SMTP邮件服务器是所谓的OpenRelay(开放转发器),无论邮件来自哪里或发到哪里,邮件服务器都会予以发送。
最常见的邮件发送过程是这样:邮件的客户端使用SMTP协议将邮件发送给一台SMTP发送服务器,然后SMTP发送服务器根据邮件的目的地址,使用SMTP协议将该邮件转发给目标SMTP服务器(接收服务器),接收服务器收到邮件后放入接收人的邮箱(Mailbox或Maildir,可能是单独的服务器,也可能是同一台机器上),最后另一个邮件客户端(接收方)使用POP3或IMAP协议从邮箱服务器上接收自己的邮件。整个过程中,发送方与发送服务器、发送服务器和接收服务器之间都不做认证,因此发送方可以使用互联网上任意一台SMTP服务器来发送邮件,这就是Open Relay。
近年来由于垃圾邮件的泛滥,大部分邮件服务器关闭了Open Relay,在发送方与发送服务器间需要认证,来保证发送服务器发送邮件的主机的合法性,这就是增强的ESMTP协议。但这并没有解决第二个环节:发送邮件器和接收邮件服务器间的合法性认证。因为不可能要求接收邮件服务器上保存所有发送邮件服务器的合法用户信息,因此发送邮件服务器无法向接收邮件服务器做认证。
目前的邮件服务器的处理方式是:如果目的地址是本邮件服务器的用户,则无需认证予以接收;如果目的地址不是本邮件服务器的用户,需要用本邮件服务器的合法用户的用户名和口令来认证(该用户可以不是该邮件的发件人)。这样,就给自动垃圾邮件发送程序提供了可能:它只要给邮件服务器发的邮件都是该邮件服务器的用户,即可发送进去。我们知道,可以随处得到一个数百万甚至上千万的Email列表,使用程序自动按照邮件服务器域名发送相应的用户是很容易的,这就导致了垃圾邮件的泛滥。
4垃圾邮件的危害
垃圾邮件可以说是互联网带给人类最具争议性的副产品,它的泛滥已经使整个互联网不堪重负,并造成以下一些危害:
——占用网络带宽,造成邮件服务器拥塞,进而降低整个网络的运行效率。
——侵犯收件人的隐私权,侵占收件人信箱空间,耗费收件人的时间、精力和金钱。有的垃圾邮件还盗用他人的电子邮件地址做发信地址,严重损害了他人的信誉。
——被黑客利用,成为助纣为虐的工具。如2003年2月份,黑客攻击雅虎等五大热门网站就是一个例子。黑客先是侵入并控制了一些高带宽的网站,集众多服务器的带宽能力,然后用数以亿万计的垃圾邮件猛烈袭击目标,造成被攻击网站网路堵塞,最终瘫痪。
——严重影响ISP的服务形象。在国际上,频繁转发垃圾邮件的主机会被上级国际互联网服务提供商列入国际垃圾邮件数据库,从而导致该主机不能访问国外许多网络,而且收到垃圾邮件的用户会因为ISP没有建立完善的垃圾邮件过滤机制,而转向其它ISP。
——妖言惑众,骗人钱财,传播色情等内容的垃圾邮件,已经对现实社会造成了危害。
5当前主要的反垃圾邮件技术
5.1贝叶斯算法
贝叶斯算法是一种比较智能的技术,用户通过培训让反垃圾邮件产品认识什么样的邮件是垃圾邮件,什么样的邮件是正常的邮件,然后形成一个贝叶斯库。根据分析以前发生的事情频率和概率来预测将发生事情的频率和概率,判断垃圾邮件的依据就是贝叶斯库。
贝叶斯算法的优点是,垃圾邮件的判断准确性大大提高;缺点是,需要用户进行干预,判别的速度较慢。
5.2指纹识别
所谓邮件的指纹,就是邮件内容中的一些字符串的组合,又称为快照。就是从类似、但不相同的信息中,识别已经被确认为垃圾邮件的信息。反垃圾邮件产品通过确认的指纹,完成对垃圾邮件的识别。
当然,指纹检查的准确性依赖于垃圾邮件的指纹库,反垃圾邮件产品先给邮件中出现的每一个字符赋予一个数值(这个数值的确是按照特定垃圾的用词规律特点进行分类),再利用统计方法给这封邮件计算出一个综合的数值。也可以根据是否与其他多次收到的邮件相似来判定。
指纹识别技术的缺点是,要经常维护指纹库。
5.3实时黑名单列表
为了有效地拒绝来自恶意的垃圾邮件来源站点和/或被利用的垃圾邮件来源站点所发来的垃圾邮件,最直接和有效的办法就是拒绝该来源的连接。通过将确认后的垃圾邮件来源站点(无论是否是恶意与否)放入一个黑名单,然后通过发布该名单来保护邮件服务器不受到黑名单中站点的侵扰确实是一个目前对抗日益严重的垃圾邮件的行之有效的方法。
目前在黑名单技术上最流行的是实时黑名单(RealtimeBlackhole List,简称RBL)技术。通常该技术是通过DNS方式(查询和区域传输)实现的。目前国外流行的几个主要的实时黑名单服务器都是通过DNS方式提供的,如Mail-Abuse的RBL、RBL+等。
实时黑名单技术的优点是,减少用户的工作量和设置难度,降低一定的误报率;缺点是,有的RBL提供方提供的黑名单过于强硬。
5.4防止字典攻击
在我们平时使用邮件系统给别人发信的时候遇到过这样的情况,一不小心将收件人的地址写错了,那么这样的邮件是不可能被正确地送到目的地的,将被退回来。一些垃圾邮件的发送者就利用了邮件系统这个特点,大量地向邮件系统发送信件,没有被退回来的信件就是邮件系统当前拥有的邮件地址,这样垃圾邮件的发送者就可以很轻松地得到发送垃圾邮件的对象了。采用防止字典攻击的技术就是让邮件系统在没有真实用户存在于系统当中时不退信,这样攻击者就不能够获得有效的用户列表。
5.5邮件域名过滤
IBM开发了代号为FairUCE的反垃圾邮件新技术。该技术使用网络领域的内置身份管理工具,通过分析电子邮件域名过滤并封锁垃圾邮件。FairUCE把收到的邮件同其源头的IP地址相连接,在电子邮件地址、电子邮件域和发送邮件的计算机之间建立起一种联系,以确定电子邮件的合法性。IP地址是固定不变的,因此FairUCE就能够识别信息是来自僵尸(Zombie)计算机、机器人Bot装置还是来自合法的电子邮件服务器。
6结束语
制止垃圾邮件的困扰除了采用必要的技术手段,还必须寻求法律的支持。从法律角度看,发送垃圾邮件属于言论自由的滥用,不但得不到法律的支持,相反,很多国家正积极制定相关法律来禁止垃圾邮件。另外,未来反垃圾邮件技术,在提高准确率的同时,必须同时满足以下条件:适应各种网络规模;支持用户发信认证功能;支持可游离于各种服务器之外的电子邮件过滤功能,可自动关闭中转访问功能,保证邮件服务器不被非法利用,保证正常邮件到达的稳定性和实时性。