STM及其特色垃圾邮件过滤技术

现在的位置: 首页 > 综合 > 正文

RSS

STM及其特色垃圾邮件过滤技术

2013年10月19日 ⁄ 综合 ⁄ 共 3592字 ⁄ 字号小中大 ⁄ 评论关闭

一、第一代垃圾邮件过滤技术

第一代技术是通过IP过滤,关键字过滤，邮件 (附件)大小控制，SMTP连接时间频率控制来进行垃圾邮件的区分。

1. IP过滤技术

IP过滤技术是基于最基本的TCP/IP协议，对非法的源IP地址进行阻挡。非法的源IP地址一般表现为：私有IP地址、预留的IP地址、本地的IP地址等。通过对此类型的IP地址进行阻止，可以防止一些初级的SMTP泛洪。

但是IP过滤技术的缺点也很明显，它对于正常来自于公网的IP地址无能为力。只要是合法源IP，便可顺利通过此项检测。

2. 反向域名解析（SPF）

垃圾邮件发送端经常可用一些实际上并不存在的域名进行邮件发送，只需要对发送的SMTP服务器进行些许修改便可轻松实现，大量的垃圾邮件通过此方式进行发送。而反向域名解析功能则可以在收到邮件的时候，对该邮件的域名进行反查询，然后对比邮件的Mail-From或者Return-Path的值从而决定是否是垃圾邮件。

SPF是存在于DNS中的一个特殊的条目，使用txt格式。我们也可通过nslookup命令进行查询到一个发送域名所对应的SPF值。如下图：

而反向域名解析的缺点也一样显而易见，对于实际存在的域名，或者是通过跳板、SMTP劫持等方式产品的垃圾邮件，反向解析是无法产生效果的。

3. SMTP频率控制

SMTP频率控制则类似于初期的Syn Flooding之类Dos/Ddos的防范方式，采取一刀切的方法，对于一定频率的SMTP连接源进行阻止。这是一种初级的方式，虽然简单，但确实可以防范SMTP连接爆发。

而局限性也是存在，此方式只能对SMTP连接次数进行统计，过于敏感则会产生比较高的误杀率，过于放松又会出现大量的漏杀，并且对于邮件的内容并不关心，只是单纯的行为控制。很难达到用户的真正防垃圾目的，只作为一种辅助手段存在。

4. 用户黑白名单

用户黑白名单采用的是最简单直接的方式对垃圾邮件进行过滤。由用户手动进行定义需要过滤的域名/ 发信人/ 发信IP地址等。对于常见的业务垃圾邮件，防范的效果也是相当明显。但是，此种方式是基于被动的防御，需要大量的手工操作，对人力资源也是相当大的浪费。以当前的垃圾邮件增长速度来讲，要通过黑名名单来实现垃圾邮件的防护是相当不现实的。我们需要更加方便、智能的方式。

5. 关键字过滤

关键字过滤与黑白名单系异曲同工，不同点是关键字过滤主要针对邮件的标题进行过滤。对于高频率的垃圾邮件标题文字进行过滤。同样，关键字需要用户进行手工定义。此功能在使用过程中除了人力资源的浪费之外，也存在较大的误杀率。只能作为垃圾邮件过滤的一个补充手段。

6. 邮件内容过滤

邮件内容过滤主要针对几个选项进行阀值的设定。如：邮件附件的文件类型（exe / com）等、邮件附件的文件名、邮件附件大小、或者是加了密的压缩文件。此类型的过滤主要针对那些通过垃圾邮件传播病毒的攻击。但是，此选项极容易造成误杀。

二、第二代垃圾邮件过滤技术

第二代技术是通过基于统计算法(如贝叶斯)的智能内容过滤，RBL过滤进行垃圾邮件的区分。

1. 实时黑名单（RBL）

实时黑名单是基于“云安全”而设计出来的一个动态防垃圾邮件技术。为了解决用户自定义黑名单所产生的巨大人力开销及维护难度，类似Spamhaus及中国反垃圾邮件联盟等厂家及组织，将用户反馈及实时收集而来的垃圾邮件黑名单更新至INTERNET上的数据库。用户只需要通过与此数据库进行同步，则可拥有上千万的垃圾邮件黑名单列表。RBL的工作流程如下图所示：

目前在国内比较出名的实时黑名单主要是由中国反垃圾邮件联盟提供的CBL及CBL+等。管理员只需要在系统中引用该RBL即可。如下图：

RBL过滤技术的产生为用户节省了大量的资源和工作量，并且可以达到第一代防垃圾邮件技术所无法达到的高过滤率。但是，RBL的缺点也同样让用户感到头痛。若因为被黑客进行SMTP劫持而被列入RBL的发送源，在相当长一段时间内根本没有办法发送邮件，从RBL中移除合法条目是一个漫长的过程。一旦出现误报，那将需要花费大量的精力去更正RBL。另外，RBL由于由不同地区的组织进行分类，所以也存在一定的地域区别，影响了用户对RBL的使用。

2. 智能内容过滤算法

贝叶斯算法的应用使得对垃圾邮件的过滤提升到智能的新层次。贝叶斯算法通过对邮件样本（正常邮件及垃圾邮件）的分析学习，形成一个统计模型。然后就可以对邮件中的各个选项进行分权计算，从而判断邮件的为垃圾邮件的概率。用户可自定义对达到一定概率值的邮件进行阻挡。后期的贝叶斯算法更增加了学习功能，从而强化统计模型，提高对垃圾邮件的过滤比率。

贝叶斯算法对于文本邮件已经能够达到比较好的过滤效果。但是，对于邮件内容及邮件行为，贝叶斯算法显得无能为力。并且，贝叶斯算法由于需要对每个到达本地的邮件进行分析计算，对系统资源也有相对的占用。对于大型严格的邮件系统应用，还是存在一定的局限性。

三、第三代垃圾邮件过滤技术

邮件过滤技术正在向第三代技术迈进。第三代邮件过滤技术是通过基于对垃圾邮件发送行为的研究和统计而发展出来的，通过行为识别技术来进行垃圾邮件的区分，是基于对大量的垃圾邮件样本进行的统计、分析和计算，并且根据RFC822标准建立垃圾邮件发送的行为识别模型。这一模型有着极高的垃圾邮件区分度，能够在MTA （邮件传输代理）通信阶段就判断出所接收的邮件是否为垃圾邮件，不需要接受全部的邮件内容进行相应的内容匹配。这项技术大大提高了邮件过滤速度，减少了网络延迟，同时还避免了内容过滤技术不可避免的高误报率问题。

垃圾邮件的发展速度超出了人们的想像，有研究报告指出，现在的垃圾邮件已经占了总邮件数量的70%。像贝叶斯算法之类的第二代垃圾邮件过滤技术，在越来越先进的垃圾邮件技术面前显得黯然失色，越来越多的垃圾邮件可以轻而易举地绕过贝叶斯算法的扫描。因此，我们需要一个精密的分布式算法，一个庞大的数库据，一个高效的连接模式来对付垃圾邮件。

现有的垃圾邮件系统通常都是构建在单一邮件服务器上，只对自身邮件内容进行检测、过滤。而垃圾邮件通常具有基于网络的行为特征，这些特征相对于邮件内容特征来讲更加的稳定，检测效率也要高于内容过滤。而基于网络行为特征的邮件过滤对于单一的垃圾邮件的处理又无能为力，所以将基于网络行为特征和基于内容的过滤方式相结合可以在提高过滤效率的同时提高垃圾邮件检出率。

四、Netgear ProSecure STM垃圾邮件过滤技术

面对新的垃圾邮件挑战，Netgear与Commtouch强强联合，推出新的防垃圾邮件架构。此架构基于第三代垃圾邮件过滤技术，并结合第一代、第二代过滤技术的要点，融合为一个崭新的平台。

我们每月通过分布在130个国家的服务器来分析30亿个邮件样本，进行社会工程学行为分析，从而来形成一个强大的行为分析数据库。客户端可通过P2P连接技术与各个地区的数据库进行联络而轻而易举地判断出一个邮件是否为垃圾邮件。这就是业界领先的循环模式检测（Recurrent Pattern Detection）。

并且，循环检测模式RPD再配合Netgear公司的专利技术——串流扫描技术（Streaming Based）更将接收、检测、判断的时间差降到最低，从真正意义上实现“零时差”！

Commtouch的Anti-spam引擎在接收到一封邮件以后，就像是扫描病毒一样，从邮件的封装，邮件头信息和正文生成每封邮件唯一的电子标识符（RefID）。并把邮件的RefID送到本地的Cache特征库进行匹配，如果从Cache的特征库中可以判断出这封邮件的状态，那么就返回一个状态值，告诉STM该如何处理。

如果不能得到状态反馈，则会把这封邮件的RefID通过HTTP协议，提交到Commtouch中央数据库查询，Commtouch为了能够及时地响应全球不同地区的用户提交的查询请求，在全球分布式安装了很多的服务器，使用高效的P2P连接算法，所以仅仅几毫秒（如果没有网络延时）之内Commtouch中央数据库就会反馈一个状态值回复，STM根据用户定义的策略来决定如何处理这封邮件。

为了保证查询的速度，STM会将每次反馈回来的RefID信息存在本地Cache以便下次查询更快捷。本地Cache的存储空间是100,000条，当有新的RefID过来的时候，将会根据算法把老的，近段时间没有用的信息替换掉。流程见下图：

除了Commtouch的循环检测功能（RPD），STM同样支持以下各种传统的防垃圾邮件技术：

1. IP过滤技术

2. 反向域名解析（SPF）

3. SMTP频率控制

4. 用户黑白名单

5. 关键字过滤

6. 邮件内容过滤

7. 实时黑名单

8. 智能内容过滤算法

【上篇】java 生成一个永不重复的数字序列
【下篇】Internet Explorer下载文件的终极过滤

作者: 496131901sostar

该日志由 496131901sostar 于11年前发表在综合分类下，最后更新于 2013年10月19日.
转载请注明: STM及其特色垃圾邮件过滤技术 | 学步园 +复制链接

抱歉!评论已关闭.

学步园