基于MapReduce模型的分布式计算平台的原理与设计-软件工程专业论文

摘 要互联网应用的高速发展与应用为企业带来了非常巨大的发展机遇,各种个性化 的应用与服务散发着无限魅力。然而随之而来的是海量数据。如何正确而高效的从 海量数量中分析有用信息并做出决策是目前所有新型互联

华 中 科 技 大 学 硕 士 学 位 论 文 摘要 互联网应用的高速发展与应用为企业带来了非常巨大的发展机遇,各种个性化 的应用与服务散发着无限魅力。然而随之而来的是海量数据。如何正确而高效的从 海量数量中分析有用信息并做出决策是目前所有新型互联网企业必须面对的一件极 具挑战性的工作。 传统上,人们往往选择使用分布式计算系统来处理这种复杂而庞大的任务。传 统的分布式计算平台往往依赖高端大型服务器,并且需要专业分布式与并行计算的 程序员进行长期设计与维护。这往往使得新型互联网企业面临巨大的经济压力。因 此,设计一个采用大量廉价机器组成的可扩展的分布式计算平台变得尤其重要。 MapReduce ,。 是一种并行编程模型它用于处理大型的数据集的程序设计中基 MapReduce 。 于这种功能的程序能够在大规模的廉价机器上并发地执行任务基于编 程模型的分布式计算系统解决以下细节:分割输入数据,在集群上的调度,机器的 错误处理,管理机器之间必要的通信。这样就可以让没有并行编程经验的程序员利 用大量分布式系统的资源了。 MapReduce 编程的优点,本文在分析当前各种分布式计算系统的基础上, 基于 设计了一个运行于普通廉价机器上的可扩展的分布式计算平台。首先我们对比当前 几种流行的分布式计算技术,总结各自的优缺点,提出了更适合于分析海量数据的 分布式计算平台框架。然后从平台总体架构上进行设计,合理地设计了各个功能子 I/ M OapReduceI/O 模块。我们花了大量笔墨于系统模块和模块,因为系统的好坏 MapReduce 。, 将直接影响到系统的整体性能而模块是整个系统的核心精心设计的 MapReduce 。, 子模块是对系统良好运行的保证最后我们对影响到系统性能的关键 策略进行探讨,包括作业和任务调度,容错机制等。 关键词 : 数据处理映射规约分布式计算任务调度容错机制 I

腾讯文库基于MapReduce模型的分布式计算平台的原理与设计-软件工程专业论文