大数据处理算法研究与应用

大数据处理算法研究与应用

大数据处理算法研究与应用

  • 适用:本科,大专,自考
  • 更新时间2021年
  • 原价: ¥302
  • 活动价: ¥200 (活动截止日期:2021-10-27)
  • (到期后自动恢复原价)
大数据处理算法研究与应用

大数据处理算法研究与应用

摘要:如今是大数据蓬勃发展之时。随着市网络化时代经验和知识的快速发展,大数据时代的到来,大数据算法愈发重要,本文对大数据算法挑选了十个主要算法例子进行介绍,对其重要性,来源,发展,以及各自优缺点进行介绍研究。着重介绍KNN算法在手写数字识别的应用,用KNN算法在python中对mnist数据集的手写图片进行识别,说明了识别的步骤与方法。

关键词:大数据时代;大数据算法;KNN算法;优缺点。

Research and Implementation of Large Data Processing Algorithms

Abstract:Now is the time when big data is booming.With the rapid development of experience and knowledge in the era of city network and the arrival of the era of big data,big data algorithm becomes more and more important.In this paper,ten major examples of big data algorithm are selected to introduce and study its importance,source,development,advantages and disadvantages.Emphasis is laid on the application of KNN algorithm in handwritten digit recognition.The handwritten pictures of MNIST dataset are recognized by KNN algorithm in python,and the steps and methods of recognition are explained.

Key words:big data era;big data algorithm;KNN algorith;advantages and disadvantages.

目录

第1章引言 1

1.1课题的简介与意义 1

1.2国内外研究现状与分析 1

第2章大数据算法概述 2

图1:K-means流程图 4

图2:em算法流程图 6

第3章KNN算法实现手写数字的识别应用 14

3.1开发语言Python 14

3.2 numpy 15

3.3KNN算法如何应用于数字识别 16

3.4KNN算法数字识别准备 16

图3:图片预准备流程 16

3.4MNIST算法数据集 17

图4:mnist数据集图片 17

3.5MNIST数据集KNN应用识别步骤 17

图5:读取训练模型 18

图6:测试数据6 19

图7:欧氏距离公式 19

图8:识别正确率结果图 20

第4章结论与展望 21

参考文献 22

第1章引言

1.1课题的简介与意义

如今是互联网的新发展时代,大数据的概念不断被人熟知。2015年,国家会议开发了一个关于大数据发展的平台,大数据战略被推进实施,开始走进群众视野,大数据被认为是基本的战略资源。在宇宙网络化时代科学领域,随着国家基本测量·制作、地球观测系统、位置网络化时代服务系统、社会网络、互联网等空间三维立体上的数据经验和知识的发展和发展,空间三维立体上的数据取得的速度显示了爆炸性的增长。目前,根据中国地质调查所计划形成的基本网络化时代数据已达到一定程度。无锡的一张地铁卡,每天产生的数据何其多。数据常常被人们当作手臂一样,非常重要。大空间三维立体上的数据的增加带来了传统大数据网络时代产业特别是基于互联网的相关服务的增加、使用和交互模式,一般来说,经互联网新一代的高性能计算与开发成熟,是相关理论和方法逐渐开始渗透到投资领域。为了实现工业化和商业空间三维立体上的数据自动处理断路软件的基础软件,尤其是归档软件。目前,在远程传感大数据领域中心形成了基于云存储和离散性能计算的体系平台,该平台聚集在一起、储存、组织化、解析、可视化和应用。但是,有关有方向性的大数据的研究还需要改进。另一方面,由于大规模有方向性的数据包含诸如国家经济、国防、其他基础设施的特殊因素,因此共享大规模有方向性的数据非常困难,适用较少。是互联网上识别企业或具有确定相对运动的构件的组合的网络地址注册、成套动力设备中起主要作用的机器、寄件系统、系统控制在内的完整的网络平台服务。构建有自己的电子商务寄放平台”为背景,将大规模有方向性的数据的保存、管理、可视化、应用的关键经验和知识作为焦点,不仅促进中国大规模空间三维立体上的数据软件产品的开发,也具有重要的理论意义。

1.2国内外研究现状与分析

科学的经营和研究理论发现,现在各项都在发展,经过计算机经验,知识,模式的扩展,大数据时代下模式各种各样。近年来,为了描述网络化时代爆炸的新时代数据被使用。顶尖国际学术杂志,标志了可以适应于各种不一样的需求,如不同类别,不同特点。还有不同的阶段的个人需要或者不同发展阶段的公司的需求,提供有包括企业或具有确定相对运动的构件的组合等在互联网上注册的名称,互联网上的公司注册、成套动力设备中起主要作用的机器、寄件系统、系统控制在内的完整的网络平台服务。发展出属于自己的电子商务寄放平台,在商业部门,如Google、微软、IBM、Alijiba和Baidu等这种大型的跨国公司是需要很完善成熟的驱动系统。2013年,对大数据的发展潜力我们研究有了明确的认知。从科学到商业,然后到政治,全世界都开始理解大数据是网络化时代采矿和知识发现的宝物。因此,也称为用于大规模数据研究和应用的“自然测试场”。通过巨大的数据经验和知识的流动被驱动,经过发展至今,现在的大数据网络进步颇多,研究人员在大适应一些有一样性质与特征的东西所形成类别,在不同阶段的个人需求,公司的需求,提供有包括企业或具有确定相对运动的构件的组合等在互联网上注册的名称,是互联网上识别企业或具有确定相对运动的构件的组合的网络地址注册、成套动力设备中起主要作用的机器、寄件系统、系统控制在内的完整的网络平台服务。

第2章大数据算法概述

2.1大数据算法C4.5

C4.5,它属于机器学习算法,是重点机器学习算法其中之一,一般使用它来产生决策树,开发者Ross Quinlan。它是ID3算法的扩展之一,虽然机器学习算法有众多不同算法,但是C4.5是核心算法。简单的描述它就是各节点间像树。

C4.5算法前身可以算是ID3算法,在其基础上,对它做了优良改进使他更加优秀,因此只要对他有一定认知,就能够比较良好的构造出来。如何构造它呢,第一是要选择出一个好特征,其次重要的是把分裂点当成目前节点分类条件。

对比它的前身ID3的话,C4.5升级了哪些具体的地方呢。首先它选择属性的时候,所用的条件叫做信息增益率。ID3算法用来做选择的条件为,子树信息增益,定义它的途径有各种各样的很多条,其使用的途径叫做熵(entropy),通俗的说,熵是不纯度度量准则中的其中之一类别,熵的变化值就是影响选择的条件.C4.5做选择的条件则完全不一样,他所用数据是信息增益率。增益率的率的用处是取得平衡,方差也是如此,所以它们俩是大差不差的。总结一下,两种算法前身和后身的区别在于,一个做选择的条件是信息增益率,另一个做选择的条件是熵。

那运用增益率的优化处在哪里呢,举个例子,现在有两个人骑摩托车,一号骑手起点是8m/s,在10s后速度变成20m/s,二号骑手一开始的速度只有2m/s,在1s后变成了4m/s。若仅仅计算差值这一个条件作为考虑,那么骑手间的差距就会特别巨大了,这样的数据肯定是不合理的,此时条件选用速度增加率,也就是加速度,再来进行相互对比,此时两个骑手的加速度便一样了。

由此来看,相较于它的前辈ID3算法,C4.5还有一个点的改善很明显,前身ID3通过条件信息增益选择属性的时候,会向取值多的属性重心进行偏移,而C4.5这里这一最大的问题得到了改善与优化处理。

在C4.5算法构造决策树的时候,需要做剪枝,也就是不纳入参考范围的是同时有好几个元素的节点,要将它们去除,否则会导致过度拟合这一结果。且如果一些数据有丢失或者它不完整,那么C4.5仍然可以对这一类数据的处理颇有成效。还有非离散数据一样也可以同等对待它们来进行处理。

总结一下C4.5的优缺点。其优点:容易理解,易于运用分类规则简单高效,最重要的同时可以保证准确率。缺点:算法的效率十分低下,因为它要先构造一个树出来,经过这个过程,还要看好顺序的对数据集进行一次又一次的重复扫描,加上排序。另外,它的并不适用于所有的数据集使用,通常是驻留内存的数据集来使用,还需注意一点训练集过于大这一情况,不能在内存容纳,那么此时去运行程序的话,会出错。

参考文献

[1]孙科林.基于多核DSP的实时图像处理平台研究[D].电子科技大学,2012.

[2]罗耀华.高性能计算在高光谱遥感数据处理中的应用研究[D].成都理工大学,2013.

[3]韩海雯.MapReduce计算任务调度的资源配置优化研究[D].华南理工大学,2013.

[4]楼巍.面向大数据的高维数据挖掘经验和知识研究[D].上海大学,2013.

[5]张常淳.基于MapReduce的大数据连接算法的设计与优化[D].中国科学经验和知识大学,2014.

[6]张兰廷.大数据的社会价值与战略选择[D].中共中央党校,2014.

[7]周经纬.矢量大数据高性能计算模型及关键经验和知识研究[D].浙江大学,2016.

[8]宋亚奇.云平台下电力设备监测大数据存储优化与并行处理经验和知识研究[D].华北电力大学(北京),2016.

[9]姚晓闯.矢量大数据管理关键经验和知识研究[D].中国农业大学,2017.

[10]宋杰,孙宗哲,毛克明,鲍玉斌,于戈.MapReduce大数据处理平台与算法研究进展[J].软件学报,2017,28(03):514-543.

[11]樊变霞.面向大数据的加密方法研究[D].湖北师范大学,2016.

[12]唐云.基于Spark的大规模分布式矩阵运算算法研究与实现[D].南京大学,2016.

[13]魏姁妲.基于大数据处理经验和知识的“专家机器人”研究[D].长春工业大学,2016.

[14]王婷.基于网络数据时代平台的电信企业客户应用数据分析系统的研究与实现[D].北京邮电大学,2018.

[15]吴夙慧,K-means算法研究综述,南京大学,2011.

[16]李洋,K-means聚类算法在入侵检测中的应用, 长沙理工大学,2007.



  • 关键词 数据处理 算法 研究 应用
  • 上一篇:基于KNN算法大数据处理算法研究与应用
  • 下一篇:基于Nginx的RTMP流媒体服务器的搭建与配置
  • 暂无购买记录

    暂时没有评论

    真实

    多重认证,精挑细选的优质资源 优质老师。

    安全

    诚实交易,诚信为本。

    保密

    所有交易信息,都为您保密。

    专业

    10年专业经验,10年来帮助无数学子。