数据流挖掘（一）

现在的位置: 首页 > 综合 > 正文

2014年03月26日 ⁄ 综合 ⁄ 共 1163字 ⁄ 字号小中大 ⁄ 评论关闭

近年来，随着计算机技术、信息处理技术在工业生产、经济信息处理等领域的广泛应用，数据已不仅仅拘泥于文件、数据库等传统的静态形式，一种连续、无界、不定速度的流式数据(即数据流)已经出现在越来越多的应用领域当中，如：

互联网应用：互联网用户数量的增加直接导致网络通信量的急剧上升，互联网站点访问、即时消息通讯、电子邮件和在线视频等各类应用都产生大量的数据。

金融应用：股票和基金等金融交易报价数据瞬息万变且规模庞大，银行信用卡日交易数据量也十分巨大。

传感器网络应用：目前大量工业和军事等应用中已经广泛使用了传感器，主要用于恶劣环境下的监控与目标跟踪等，这些众多分散的传感器向基站不断传送大量的数据，而基站服务器通常需近实时地对这些数据进行相应地分析和处理。

在以上这些应用中，不仅原始据是以流的形式到达，对这些数据流进行各种处理(主要是查询操作)之后得到的结果也同样是以流的形式输出的。

Henzinger等于1998年在Computing on Data Stream中首次将数据流作为一种数据处理模型提出来，他将数据流定义为只能以事先规定好的顺序读取一次的数据序列。20世纪末，数据流问题引起了广大科研学者的关注，成为数据挖掘与数据库领域的一个热点研究方向。

随着数据流应用的产生和发展，有学者对Henzinger提出的数据流定义进行了修改。目前，数据流一般定义为：

数据流是大量连续到达的、潜在无限的数据的有序序列，这些数据或其摘要信息只能按照顺序存取并被读取一次或有限次。

与传统的静态数据相比，数据流具有以下特：

1.无限快速性。数据流通常是源源不断地快速产生，理论上其长度是无限的，在实际应用中远超过系统所能存储的范围，而传统数据库中的数据主要用于持久存储，其存储量和数据更新次数都相对有限。

2.不确定性。数据流产生的速度和间隔时间等统计特性事先难以确定，其产生顺序不受外界控制，很有可能数据流的产生速度超出系统所能接受并处理的限度，而传统数据库中的数据规模和处理能力等性能指标通常是已知的。

3.时变性。数据流随时间而变化，这将引起数据的统计特征也随时间而改变，如数据的方差、分位数、概率分布等，而传统数据库中的数据通常是静态的，一旦存储则很少随时间发生改变。

4.单遍扫描性。由于数据规模大、增长迅速，对数据流仅限于单遍扫描（One-Scan），即除非特意或显式存储外，每个数据只被处理一次。而传统数据库对数据进行持久存储，便于多遍扫描，并建立相应的索引机制有利于高效的查询。

5.结果近似性。大量的数据流分析处理中并非一定需要精确的查询结果，而满足精度误差要求的近似结果即可。而传统数据库建立在严格的数学基础之上，其查询语义明确、查询结果一般是精确的。

其中，无限快速性和单遍扫描性是两个最为重要的特点，是数据流区别于传统数据库中数据的关键。

抱歉!评论已关闭.

学步园