业务开发测试HBase之旅五:HBase MapReduce测试实战

引言 在上篇文章中介绍了如何利用MapReduce来分析HBase中的数据,并通过代码示例来演示。老实说,当我写完那段代码时我一点信心都没有,我非常想知道这个job能否正常执行,结果是否符合预期,怎么办呢?一个常见的流程可能是这样的: 1. 申请HBase环境的访问权限(或者自己搭一套) 2. 创建blog表和tag_friend表,插入一些测试数据 3. 将Job类及相关类库打成jar包,并上传到HBase集成环境的gateway上,开始运行该Job 4. 查看Job运行情况,完成后查tag_friend表看数据是否符合预期。 5. 如果发现程序有问题,修改程序,重复第3,4步。 哦No,这太繁琐了,我只是玩玩看我的程序大体对不对而已,而且这种方式不能debug,如果... 详情

业务开发测试HBase之旅四:HBase MapReduce实例分析

引言 跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考http://taobaotest.ruoguschool.com/blogs/1679 这篇文章来建立基本概念。 HBase MapReduce核心类介绍 首先一起来回顾下MapReduce的基本编程模型, 可以看到最基本的是通过Mapper和Reducer来处理KV对,Mapper的输出经Shuffle及Sort后变为Reducer的输入。除了Mapper和Reducer外,另外两个重... 详情

hadoop学习笔记之二:MapReduce基本编程

引言 在本系列的上篇文章中介绍了Hadoop的基本概念和架构,本文将通过一个实例演示MapReduce基本编程。在继续进行前希望能重温下前面的内容,至少理解这张图是怎么回事。 实践 创建maven工程并加入hadoop依赖 我们选用maven来管理工程,用自己喜爱的m2eclipse插件在eclipse里创建或在命令行里创建一个工程。在pom.xml里加入hadoop依赖。 org.apache.hadoop hadoop-core 0.20.2 cloudera https://repository.cloudera.com/content/groups/public 运行... 详情

hadoop学习笔记之一:初识hadoop

引言 最近了解到淘宝使用hadoop的项目多了起来,hadoop对于许多测试人员来说或许是个新鲜玩儿,因此,把自己之前整理的学习笔记整理发上来,希望通过此系列文章快速了解Hadoop的基本概念和架构原理,从而助于hadoop相关项目的测试理解和沟通。 Hadoop简介 Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。 如果你对Hadoop不熟悉,下面这些名词你或许耳熟能详,Google File System、Google Map/Reduce模型、lucene 、Nutch、阿里云梯、云计算等,他们都与Hadoop有着或深或浅的关系,原... 详情

返回首页 博客 技术交流 产品 期刊下载 关于我们 意见反馈 无障碍

浙ICP备09109183号-14 Copyright © 2003-2015 TaobaoTesting.com 版权所有