1.1 数据挖掘技术的由来

我们生活在数据的世界,每时每刻、每分每秒都在和数据打交道。计算机技术的稳定进步为人类提供了大量数据收集设备和存储介质,人们每天都离不开的社交软件、支付软件等基于庞大的用户群体,不断产生海量的数据。虽然人们积累的数据越来越多,但是,目前这些数据的应用还仅限于录入、查询、统计等,人们无法发现数据中存在的关系和规则,也无法根据现有的数据预测未来的发展趋势,造成“数据爆炸但知识贫乏”的现象。在这个信息爆炸的时代,面对浩瀚无垠的信息“海洋”,人们期待一种能将浩如烟海的数据转换成知识的技术,数据挖掘(Data Mining)技术就是在这样的背景下产生的。

数据挖掘技术的发展经历了四个阶段,分别是数据搜集、数据访问、数据仓库决策支持以及数据挖掘。在20世纪60年代的数据搜集阶段,出现的主要商业问题类似于“过去五年我的总收入是多少?”在计算机、磁带和磁盘技术的支持下,用户可以得到历史性、静态的数据信息。到了20世纪80年代的数据访问阶段,主要的商业问题变成了“新英格兰的分部去年三月的销售额是多少?”在关系数据库(Relational Database Management System,RDBMS)、结构化查询语言(Structure Query Language,SQL)、开放数据库互联(Open Database Connection,ODBC)技术的支持下,用户可以记录历史性的、动态的数据信息。20世纪90年代,商业数据处理进化到了数据仓库决策支持阶段,人们使用联机分析处理(Online Analysis Process,OLAP)、多维数据库、数据仓库等技术在各种层次上提供可回溯的、动态的数据信息,并得出数据分析的简要结论。当前流行的数据挖掘则基于高级算法、多处理器计算机以及海量数据库来提供预测性的信息。

为了从海量数据和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率,产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database,KDD)。KDD一词首次出现在1989年举行的国际人工智能联合大会(IJCAI-89)Workshop上。1995年,在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD-95)。由Kluwers Publishers出版,1997年创刊的Knowledge Discovery and Data Mining是该领域的第一本学术刊物。

总之,数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中提取隐含在其中的人们事先不知道但是又潜在有用的信息和知识的过程。数据挖掘技术综合了统计学、数据库、人工智能、可视化、高性能计算等多种技术,是多学科交叉的产物和智能技术的核心。