基于weka分类进行数据挖掘的分析与运用
摘要:由于信息技术的高速发展,生活中我们会遇到林林总总
的数据。在各种数据都或多或少地说明一个问题或生活迹象。
在生活越来越好的前提下,目前的标准,有的人会把额外的钱
去旅游或消费,但有些人将用于购买理财产品,本文将使用
Weka数据挖掘软件开发哪种特性的人更倾向于购买金融产品。
关键字:数据;数据挖掘;weka;理财
Based on the weka classification analysis and use of
data ming
Abstract:Due to the rapid development of modern
information technology, we will encounter many data in
the life. In all sorts of data are more or less a
problem or signs of life. Under the premise that life
better and better, the current standard, some people
will get extra money to travel or consumption, but some
people will be used to buy financial products, this
article USES the Weka data mining software development:
what features are more likely to buy financial
products.
Keywords: Data;data mining; Weka; financial management
目录
一、引言 1
二、数据挖掘的介绍 1
(一)数据挖掘的定义及含义 1
(二)数据挖掘的过程 1
(三)web数据挖掘 3
三、Weka软件介绍和实验分析 4
(一)数据集介绍 4
(二)实验目的 5
(三)Weka的介绍 5
(四)Weka操作界面的介绍 6
(五)weka的数据挖掘流程 9
(六)实验流程 10
(七)分类概念及算法介绍 10
(八)、实验过程 12
(九)实验结果分析 17
四、总结和展望 18
五、小结 19
六、参考文献 21
一、引言
在这个飞速发展的世界中,数据信息无处不在,但我们通常看
不到隐藏在数据背后的意义。举个例子说就是,当我们行走在
马路上,看着飞驰而去的车辆经过十字路口的时候,在我们眼
里看到的无非就是交通堵塞或者汽车追尾情况,亦或是一路畅
通的安全通行,看不出其他任何特别的现象,但是如果是是利
用数据挖掘软件进行挖掘,就可以发现,在未来一个小时内马
路横向的车流量数据和马路竖向的车流量数据,然后进行挖掘
分析后得出最终的结果,十字路口的红绿灯就能够按照车流量
来设置时间的长短。从另一方面,如果在十字路口进行路线测
绘的话,就可以获取类似的地图数据,汽车中的导航仪就是通
过这样实现的。其实在我们的生活中数据挖掘无处不在,只是
我们不懂得去挖掘和发现而已。所以对于数据挖掘的研究就非
常有必要性了。我希望可以通过本次课题的研究能够对数据挖
掘有进一步的了解,对以后的工作,生活能够起到作用。这次
课题我的研究目的是根据bank-data这一数据集进行分类挖掘,
希望从人们的家庭情况,收入,年龄等探索出购买pep产品的可
能性,然后根据每个人不同的需求设计出不同性能的pep产品来
改善整体的销售情况。[1]
在本次课题中我选择了weka这款数据挖掘软件Weka软件是一个
公开的数据挖掘工作平台,无需任何编程,这样我们就不需要
再绞尽脑汁去编程然后改错了,它拥有我们非常熟悉的只需要
鼠标点击的界面,非常适合像我这种数据挖掘的入门者。
二、数据挖掘的介绍
(一)数据挖掘的定义及含义
数据挖掘(Data Mining)就是从海量的,不完整的,嘈杂的,
模糊的,随机的数据中,提取蕴藏在其中的,人们起先不知道
的,但又是潜在有用的信息和知识。这一含意囊括几个含义:
数据源必须是真实的,大的,嘈杂的;给予用户感兴趣的知识
;知识的发现是可以接受的,可以明白的,可以使用的过程;
知识并不是所有的环境都能运用,必须在特定的环境使用特定
的知识。[3]
(二)数据挖掘的过程
数据挖掘是一个多范畴知识汇总的值得去钻研和采用领域,设
计的领域包括:数据库技术、人工智能、机器学习、神经网络
、统计学、模式识别、信息检索、高性能计算等。数据挖掘的
过程大致分为:数据挖掘的过程可以分为:问题定义,数据的
采集和预处理,数据挖掘的实施,解释和评价挖掘的结果。[6]
问题定义
从大批数据中挖掘出使人有兴趣的、对人有用的讯息成为全部
数据过程当中的第一个同样也是最重要的一个阶段。在这个过
程中,要明白数据挖掘任务的具体需求是什么,数据挖掘可以
用哪些具体的算法实现。。
数据收集与预处理
这个过程主要包括:数据选择、数据预处理和数据转换。
数据选择就是确定数据对象的数据挖掘任务,这是基于数据挖
掘任务的具体要求,从数据源中提取相关的数据集和数据挖掘
任务。
数据预处理每每囊括驱除噪音、丢失数据的处理、避免数据反
复出现、不同格式数据的类型转换等处理。
数据转换的最重要目的是处理数据集合和特征维数,即从初始
特质中挑选出真实的与挖掘任务有联系的特征,以改善数据挖
掘的效率。
数据挖掘的实施
根据挖掘任务定义及已有的方法(聚类、分类、回归、关联规
则等)选择进行数据挖掘的具体实施算法。[10]
结果解释与评估
通过施行数据挖掘对获得的挖掘成果的进行剖析,必须要进行
评估,这样才能发现有意义和有效的知识模型。因为数据挖掘
的初步结果中不妨会存在多余的或没有实际含义的模式,因此
得到的模式大概无法满足任务需求的挖掘,这就需要返回到以
前的挖掘开采初期,进行重新选择数据,选用新数据的转换,
新的参数值建立,甚至选择不同的数据挖掘算法。此外,也可
以对所得到的模式进行可视化,让挖掘结果转换为令人一眼就
能看明白的表示方法。
数据挖掘的实施其实只是数据挖掘过程其中的一个步骤而已。
影响数据挖掘质量的因素有三个:数据挖掘方法的有效性,数
据挖掘的数据质量和数据大小。如果你选择了一个不合适的数
据集,或进行了不适当的转换,你就不能得到很好的挖掘结果
。
这一个完整的数据挖掘过程是一个连续反馈校订的进程。当用
户在挖掘过程中,采选的数据挖掘方法,一旦发现不合适,又
或是得不到心里所想要的结果时,那么用户则必须重新进行挖
掘,甚至需要从头开始。
参考文献
[1] 纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社
,2009.
[2] 陈学进.Web结构挖掘研究[D].银川:合肥工业大学,2006.
[3] 袁梅宇.数据挖掘与机器学习—WEKA应用技术与实践 [M].
北京:清华大学出版社,2014.
[4] 周青松.贝叶斯网在图书馆图书采购中的应用[D].云南大学
,2012.
[5] 谈恒贵,王文杰,李游华. 数据挖掘分类算法综述[J].微型
计算机与应用.2005.
[6] 陈京民.数据仓库与数据挖掘技术[M]北京.电子工业出版
社,2007.
[7] 丁春荣,李龙澍,杨宝华.基于粗糙集的决策树构造算法
[J]. 计算机工程,2010.
[8] 刘红岩. 挖掘中的数据分类算法综述[J]. 清华大学学报(
自然科学版),2002.
[9] 陈海霞.面向数据挖掘的分类器集成研究[].吉林:吉林大
学,2006.
[10] 王军.数据挖掘技术[J].计算机世界,1998.