并行大数据清洗过程优化论文

并行大数据清洗过程优化论文 并行大数据清洗过程优化论文预读: 摘要:摘要数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术

并行大数据清洗过程优化论文 : 并行大数据清洗过程优化论文预读摘要:摘要 , 数据质量问题会对大数据的应用产生致命影响因此需要对存在数据质量问题的大数据进行 ,, 清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗然而由于 ,, 缺乏有效的设计在基于MapReduce的数据清洗过程中存在计算的冗余导致性能降 , 低.因此文中的目的是对并行数据清洗过程进行优化从而提高效率.通过研究作者发现数 , 据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果基于该发现文中 ——— 提出了一种新的优化技术基于任务合并的优化技术.针对冗余计算和利用同一输入文 , 件的简单计算进行合并通过这种合并可以减少MapReduce的轮数从而减少系统运行 ,, 的时间最终达到系统优化的目标.文中针对数据清洗过程中多个复杂的模块进行了优化具 体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果 , 表明文中提出的策略可以有效提高数据清洗的效率. 关键词 大数据;多任务优化;海量数据;数据清洗;Hadoop;MapReduce 1 本节主要介绍研究背景及其意义、海量数据清洗系统、本文优化方法的主要思想、本文的贡 献与结构. , 1.1研究背景及其意义现今企业的成功和社会的进步越来越依赖于数据和对其所做的分 析.为了获得竞争优势即使是小企业也会投入时间和精力来收集和分析数据.很多大公司都 , 部署了自己的云服务平台国内比较著名的有百度云、阿里云、天翼云①等.但是如果一味 ,, 地将精力投入到对数据所做的分析而不关注数据本身很可能产生灾难性的后果.统计表明 , 美国企业中1%~30%的数据存在各类错误和误差[1]医疗数据库中13.6%~81% , 的关键数据不完整或陈旧[2].根据市场研究公司Gartner的调查全球财富1000 强公司超过25%的关键数据不正确或不准确[3].数据质量问题会使基于其的分析和研 , 究毫无意义甚至还会产生灾难性的后果在美国由于数据错误引起的医疗事故每年使980 , 00名患者丧生[4].上述实例表明数据质量问题存在于社会生活的方方面面数据清洗系 , 统应运而生.在海量数据处理领域MapReduce编程框架作为当下最流行的并行编程开 发框架已被Google、Amazon、Yahoo!、Facebook以及国内的腾讯、阿里巴 : 巴等大型互联网公司奉为至宝.将Hadoop用于海量数据处理主要有如下优势易用性、 高可扩展性、高容错性.上述优势使得基于MapReduce的海量数据清洗顺其自然的产 , 生了.海量数据上的数据分析往往需要相对高昂的硬件成本和时间成本这就引起了人们对 , 优化数据分析的兴趣.当前已经有不少人开始研究大数据上的数据清洗系统有对整个数据 ,, 清洗系统进行研究[5-7]也有对其中的数据一致性[8-10]实体识别如文献[11- 14]等问题进行研究的.然而现在还没有人对基于MapReduce的数据清洗系统的优 , 化进行研究.现在几乎所有的数据分析任务都可以用MapReduce编程框架来实现但是 , 在实现过程中往往会存在冗余的MapReduce基于MapReduce的海量数据清洗系 , 统也不例外.本文提出的基于任务合并的优化方法着眼于系统中冗余的MapReduce从 细节和流程的各个方面实施. ,, 1.2海量数据清洗系统海量数据清洗系统如图1所示它在Hadoop平台上实施以一个 , 灵活的结构来处理不同类型的数据质量问题每种类型的数据质量问题都由一个或多个模块 , 来处理由哈尔滨工业大学海量数据计算与研究中心提供源代码.系统中的交互模块提供一 个输入接口来输入需要清洗的文件以及清洗数据的要求.结果展示模块提供清洁数据的下载 , 链接以及脏数据和清洗后的数据的对比情况.实体识别和真值发现模块用于消冗其中实体 , 识别把指向同一现实世界实体的元组聚类而真值发现用来在冲突中寻找出真实值.不一致

腾讯文库并行大数据清洗过程优化论文