Hadoop实验--数据去重

Hadoop实验报告 数据去重问题背景:随着存储数据信息量的飞速增长,去重无疑成为众多大数据科研人员要面对的问题之一。因此越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等

Hadoop 实验报告数据去重 问题背景: 随着存储数据信息量的飞速增长,去重无疑成为众多大数据科研 人员要面对的问题之一。因此越来越多的人开始关注存储数据的缩减 方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储 数据缩减技术。 重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据 删除对于数据本身并没有改变,只是消除了相同的数据占用的存储容 量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势, 并对扩展性有所帮助。 举个简单的例子:在专门为电信运营商定制的呼叫详单去重应用 程序中,我们就可以看到删除重复数据的影子。同样的,对于包含相 同数据包的通信网络,我们可以使用这种技术来进行优化。 : 问题描述 编写程序读取文本文件,去掉所有数据 MapReduce 中的重复数据后输出结果。 : 数据去重 实验名称 实验目的: 1Hadoop 、基本了解一个程序的结构、编译、封装、运行、 查看结果等流程。 2 、掌握并利用并行化编程思想对数据做有意义 的筛选。 实验要求:

腾讯文库Hadoop实验--数据去重