凯发k8国际娱乐官网入口-k8凯发> mapreduce服务 mrs> > 从零开始使用hadoop

none

从零开始使用hadoop-凯发k8国际娱乐官网入口

mapreduce服务（mapreduce service）提供租户完全可控的企业级大数据集群云服务，轻松运行hadoop、spark、hbase、kafka、storm等大数据组件。
本指南提供从零开始使用hadoop分别通过界面和集群后台节点提交wordcount作业的操作指导。wordcount是最经典的hadoop作业，它用来统计海量文本的单词数量。

step1 购买集群

步骤

① 进入。
② 选择“自定义购买”页签。

mapreduce服务

购买mrs集群

单击图片可查看原图

step2 软件配置

步骤

① “区域”请根据需要选择。

② “计费模式”选择按需计费。
③ “集群名称”填写“mrs_demo”或按命名规范命名。

④ “集群类型”选择“分析集群”。

⑤ “版本类型”选择“普通版”
⑥ “集群版本”选择mrs 3.1.0。

⑦ 勾选所有分析集群组件。
⑧ 单击“下一步”。

软件配置-01

软件配置-02

单击图片可查看原图

step3 硬件配置

步骤

① “可用区”选择“可用区2”。

②“企业项目”选择“default”。

③虚拟私有云”和“子网”保持默认不修改，也可单击“查看虚拟私有云”重新创建。

④“安全组”默认选择“自动创建”。

⑤绑定“弹性公网ip”，如果无可选ip，则单击“管理弹性公网ip”购买弹性公网ip后进行绑定。

⑥“集群节点”中master和core的实例规格保持默认值。节点数量、数据盘类型及大小保持默认值。不添加task节点。

⑦单击“下一步”。

硬件配置-01

硬件配置-02

单击图片可查看原图

step4 高级配置

步骤

① “kerberos认证”选择关闭。

② “用户名”默认为admin。

③ “密码”和“确认密码”请配置manager管理员用户的密码。

④ “登录方式”选择“密码”，并为root用户输入密码及确认密码。

⑤ “主机名前缀”保持默认暂不配置。

⑥ 勾选“高级配置”并选择“委托”为“mrs_ecs_default_agency”。

⑦ 单击“下一步”。

高级配置

单击图片可查看原图

step5 确认配置

步骤

① “配置”显示所购买集群配置信息。

② “通信安全授权”勾选“确认授权”。

③ 单击“立即购买”，进入任务提交成功页面。

④ 单击“返回集群列表”，在“现有集群”列表中可以查看到集群创建的状态。
集群创建需要时间，所创集群的初始状态为“启动中”，创建成功后状态更新为“运行中”，请您耐心等待。

确认配置

单击图片可查看原图

step6 准备hadoop样例程序及数据文件

步骤

① 准备wordcount程序。
可以从下载hadoop样例程序（包括wordcount）。此处以hadoop-3.3.1.tar.gz为例，程序版本请以链接提供的实际版本为准。
例如选择hadoop-3.3.1.tar.gz，解压后在“hadoop-3.3.1\share\hadoop\mapreduce”路径下获取“hadoop-mapreduce-examples-3.3.1.jar”，即为hadoop的样例程序。
② 准备数据文件。
数据文件无格式要求，准备2个txt文件即可。
示例为右图的wordcount1.txt和wordcount2.txt

准备样例程序

准备数据文件

单击图片可查看原图

step7 上传数据至obs

步骤

① 登录obs控制台，单击“并行文件系统 > 创建并行文件系统”，创建一个名称为mrs-word01的并行文件系统。
② 单击mrs-word01文件系统名称，然后选择左侧导航栏“文件”，在“文件”页签下单击“新建文件夹”，分别新建program、input文件夹。
③ 进入program文件夹，上传step6中下载的hadoop样例程序。
④ 进入input文件夹，上传step6中准备的数据文件wordcount1.txt和wordcount2.txt 。
⑤若想通过界面提交作业，请执行step8。
若想通过集群后台节点提交作业，请执行step9。

创建obs文件系统

上传数据

单击图片可查看原图

step8 通过界面提交作业

步骤

① 在mrs控制台左侧导航栏选择“集群列表 > 现有集群”，单击名称为“mrs_demo”的集群。
② 在集群信息页面选择“作业管理”页签，单击“添加”，进入添加作业页面。若想通过集群后台节点提交作业，请参考step9执行。
③ “作业类型”选择“mapreduce”。
④ “作业名称”填写“wordcount”
⑤ “程序执行路径”单击obs选择step7中上传的hadoop样例程序。
⑥ “执行程序参数”配置为“wordcount obs://mrs-word01/input/ obs://mrs-word01/output/”。output为输出路径，请手动输入一个不存在的目录。
⑦ “服务配置参数”不配置。
⑧ 单击“确定”，提交作业。
作业提交成功后默认为“已接受”状态，不需要用户手动执行作业。
⑨ 进入“作业管理”页面，查看作业执行状态及日志，然后进入step10查看作业执行结果。

提交作业

单击图片可查看原图

step9 通过集群后台节点提交作业

步骤

① 登录mrs控制台，单击名称为“mrs_demo”的集群，进入集群基本信息页面。
② 在“节点管理”页签中单击某一master节点名称，进入弹性云服务器管理控制台。
③ 单击页面右上角的“远程登录”。
④ 根据界面提示，输入master节点的用户名和密码，用户名、密码分别为root和创建集群时设置的密码。
⑤ 执行source /opt/bigdata/client/bigdata_env配置环境变量。
⑥ 如果已开启kerberos认证，请执行kinit mrs集群用户命令认证集群当前用户，例如kinit admin。未开启kerberos认证则跳过该步骤。
⑦ 执行如下命令拷贝obs桶中的样例程序到集群的master节点。

hadoop fs -dfs.obs.access.key=ak -dfs.obs.secret.key=sk -copytolocal source_path.jar target_path.jar
例如：hadoop fs -dfs.obs.access.key=xxxx -dfs.obs.secret.key=xxxx -copytolocal "obs://mrs-word01/program/hadoop-mapreduce-examples-xxx.jar" "/home/omm/hadoop-mapreduce-examples-xxx.jar"
其中：ak/sk可登录“obs控制台”，在集群控制台页面右上角的用户名下拉框中选择“我的凭证 > 访问密钥”页面获取，或单击“新增访问秘钥”创建。
⑧ 执行如下命令提交wordcount作业，如需从obs读取或向obs输出数据，需要增加ak/sk参数。
source /opt/bigdata/client/bigdata_env;hadoop jar execute_jar wordcount input_path output_path
例如：source /opt/bigdata/client/bigdata_env;hadoop jar /home/omm/hadoop-mapreduce-examples-xxx.jar wordcount -dfs.obs.access.key=xxxx -dfs.obs.secret.key=xxxx "obs://mrs-word01/input/*" "obs://mrs-word01/output/"
input_path为obs上存放作业输入文件的路径。output_path为obs上存放作业输出文件地址，请设置为一个不存在的目录。

登录master节点

单击图片可查看原图

step10 查看作业执行结果

步骤

① 登录obs控制台，单击mrs-word01并行文件系统名称。

② 选择左侧导航栏“文件”，进入mrs-word01中提交作业时设置的输出目录中，查看作业输出文件，需要下载到本地以文本方式打开进行查看。

作业执行结果

单击图片可查看原图

意见反馈

文档内容是否对您有帮助？

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

从零开始使用hadoop-凯发k8国际娱乐官网入口

step1 购买集群

step2 软件配置

step3 硬件配置

step4 高级配置

step5 确认配置

step6 准备hadoop样例程序及数据文件

step7 上传数据至obs

step8 通过界面提交作业

step9 通过集群后台节点提交作业

step10 查看作业执行结果

相关操作指导

意见反馈

文档内容是否对您有帮助？

售前咨询热线