自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

迷的博客

技术博客

  • 博客(41)
  • 资源 (6)
  • 收藏
  • 关注

原创 大数据之Hadoop目录

说在前面的话 适合有java基础、Linux基础、具有一定java开发经验的人!参考的资料 Hadoop官方参考资料:https://blog.csdn.net/qq_39657909/article/details/84581147 如果你想学习Hadoop并且官网看不懂,那么请务必先看看这份资料:h...

2018-12-06 09:21:27 2704

原创 typora 快捷键

typora 快捷键无序列表:输入-之后输入空格 有序列表:输入数字+“.”之后输入空格 任务列表:-[空格]空格 文字 标题:ctrl+数字 表格:ctrl+t 生成目录:[TOC]按回车 选中一整行:ctrl+l 选中单词:ctrl+d 选中相同格式的文字:ctrl+e 跳转到文章开头:ctrl+home 跳转到文章结尾:ctrl+end 搜索:ctrl+f 替换:...

2018-12-29 15:51:02 958

原创 HDFS2.X特性

HDFS2.X特性1.集群键拷贝1.1 scp实现==两个远程主机==之间的文件复制1.2 采用discp命令实现==两个Hadoop集群之间==的递归数据复制2.Hadoop存档2.1 作用?2.2 简介3.快照管理3.1命令图解3.2举个自嗨的栗子(可以忽略)4.回收站4.1作用4.2图解4.3一个自嗨的栗子1.集群键拷贝1.1 scp实现两个远程主机之间的文件复制1.推pushscp...

2018-12-28 13:49:20 785

原创 NameNode故障处理之数据恢复

NameNode故障处理之数据恢复方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录1.原理简介方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录1.原理简介如果你看了上篇,我相信应该已经不需要我来多做介绍了,不过还是简单说下吧,因为SecondaryNameNode负责合并NameNode中的Fsimage和Edit文...

2018-12-26 18:15:48 1234

原创 SecondaryNameNode合并Fsimage与Edits的CheckPoint设置

SecondaryNameNode合并Fsimage与Edits的CheckPoint设置在hdfs-default.xml设置在hdfs-default.xml设置时间:<property> <name>dfs.namenode.checkpoint.period</name> <value>3600&amp

2018-12-25 14:03:32 1278

原创 NameNode中的Fsimage和Edits解析

NameNode中的Fsimage和Edits解析图解name图解name

2018-12-25 14:02:23 1895

原创 NameNode和SecondaryNameNode工作机制

NameNode和SecondaryNameNode工作机制简单介绍简单介绍总所周知NameNode记录着

2018-12-23 09:08:48 1441

原创 HDFS中的DataNode工作机制

HDFS中的DataNode工作机制1.图解2.流程简介1.图解2.流程简介1.一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。①.为什么会有此流程?因为要确定数据的完整性,流程再具体1.当DataNode读取Block的时候,它会计算CheckSum,并存储2.DataNode在其文件创...

2018-12-20 09:17:49 2148

原创 HDFS读写文件的具体流程

HDFS读写文件的具体流程1.图解写文件2.流程详解3.图解读文件4.流程详解1.图解写文件2.流程详解1.客户端通过Distributed FileSystem(分布式文件系统)模块向NameNode请求上传文件,NameNode检查文件是否已经存在,父目录是否存在2.NameNode检查完成后,返回是否可以上传结果给客户端3.客户端向NameNode请求上传第一个Block(0~1...

2018-12-18 13:29:39 888

原创 HDFS读写文件中涉及到的几个思想

HDFS读写文件中涉及到的几个思想1.网络拓扑--节点距离计算2.机架感知(副本节点选择)1.网络拓扑–节点距离计算1.节点距离:两个节点到达最近的共同祖先的距离总和。2.图解:2.机架感知(副本节点选择)1.官方说明:http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html...

2018-12-18 13:28:54 773

原创 常用JAVA操作HDFS集群的API开发

常用JAVA操作HDFS集群的API开发1.HDFS文件上传(测试副本数参数优先级)2.HDFS文件下载3.HDFS文件夹删除4.HDFS文件名更改5. HDFS文件详情查看6.HDFS文件和文件夹判断1.HDFS文件上传(测试副本数参数优先级)1.代码: @Test public void testCopyFromLocalFile() throws IllegalArgumentExc...

2018-12-17 08:29:53 932

原创 初始java集群操作遇到的bug2——Eclipse打印不出日志,在控制台上只显示

Eclipse打印不出日志,在控制台上只显示1.运行打印截取(WARN)2.解决这个问题实在太常见,而且网上百度一下很容易解决,所以这里就简单介绍下了!1.运行打印截取(WARN)1.log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell). 2.log4j:WARN Please i...

2018-12-16 15:25:18 152

原创 初始java集群操作遇到的bug1——Missing artifact jdk.tools:jdk.tools:jar:1.8

Missing artifact jdk.tools:jdk.tools:jar:1.81.图解错误2.原因3.解决方案4.图解真像在上一篇中遇到的一个bug!!!记录下,一般这个应该遇不到,所以如果没遇到请跳过。1.图解错误1.在pom.xml中2.原因tools.jar包是JDK自带的,pom.xml中以来的包隐式依赖tools.jar包,而tools.jar并未在库中,只需要将t...

2018-12-16 15:24:18 138

原创 集群HDFS文件操作(客户端开发java)

集群HDFS文件操作(客户端开发java)

2018-12-15 13:33:12 264 2

原创 集群HDFS文件的操作(Shell)

集群HDFS文件的操作(Shell)1.基本语法2.一些帮助理解的例子2.1命令执行条件(启动集群)2.2查看常用命令2.3查看单个命令详情2.4一些思考1.基本语法1.既能操作分布式也能操作本地:bin/hadoop fs 具体命令2.只能操作分布式:bin/hdfs dfs 具体命令注:如果配了hadoop的环境变量可以省去bin/2.一些帮助理解的例子2.1命令执行条件(启动集群...

2018-12-15 08:31:32 1568

原创 HDFS需要了解的思想

HDFS需要了解的思想1.HDFS文件块大小怎么确定2.如果将文件块的大小设置的太大或者太小会怎么样1.HDFS文件块大小怎么确定1.在分布式集群Hadoop2.x版本中默认大小是128M;在Hadoop1.x中是64M;在本地默认都是32M。2.确定块大小所依据的设计原理:寻址时间为传输时间的1% - 由于现在磁盘的寻址时间都是10MS - 而普通磁盘的传输速率大概为100M/S -...

2018-12-15 08:29:58 771

原创 HDFS简介

HDFS简介1.为什么会有HDFS?2.HDFS定义3.HDFS适合的场景4.HDFS优缺点4.1优点4.2缺点5.HDFS组成及作用5.1 图解5.2 Client(客户端)5.3 NameNode(类似一个主管、管理者)5.4 DataNode(执行NameNode下达的命令)5.5 Secondary NameNode(协助NameNode工作)1.为什么会有HDFS?因为数据量的增大,...

2018-12-13 14:39:28 500

原创 源码编译时遇到的一些问题总结

源码编译时遇到的一些问题总结1.MAVEN install时候JVM内存溢出2.编译期间maven报错。可能网络阻塞问题导致依赖库下载不完整导致,多次执行命令(一次通过比较难)3.报ant、protobuf等错误,插件下载未完整或者插件版本问题,最开始链接有较多特殊情况,同时推荐1.MAVEN install时候JVM内存溢出处理方式:在环境配置文件和maven的执行文件均可调整MAVEN_O...

2018-12-12 19:03:27 791

原创 Linux下Hadoop源码的编译

Linux下Hadoop源码的编译1.前期准备1.1CentOS联网1.2采用root角色编译,减少文件夹权限出现问题1.3jar包准备(hadoop源码、JDK8、maven、ant 、protobuf)1.4linux工具安装2.编译源码3.编译后源码所在目录/opt/hadoop-2.7.2-src/hadoop-dist/target1.前期准备1.1CentOS联网1.2采用roo...

2018-12-12 18:32:16 834

原创 Hadoop源码编译之linux工具安装

Hadoop源码编译之linux工具安装1.JDK解压、配置环境变量 JAVA_HOME和PATH,验证java-version(如下都需要验证是否配置成功)2.Maven解压、配置 MAVEN_HOME和PATH3.ant解压、配置 ANT _HOME和PATH4.安装 glibc-headers 和 g++5.安装make和cmake6.安装libprotoc,进入到解压后protob...

2018-12-12 18:14:17 85

原创 集群配置常见错误定位及解决方案

集群配置常见错误及解决方案1.防火墙没关闭、或者没启动YARN2.主机名称配置错误3.IP地址配置错误4.ssh没有配置好5.单点启动集群时,启动集群用户不同6.配置文件缺这缺那7.hadoop未编译源码8.不识别主机名称9.不能开启多个DataNode和NameNode进程![在这里插入图片描述](https://img-blog.csdnimg.cn/2018121118485641.png?...

2018-12-11 18:53:33 2099

原创 完全分布式集群的总结

完全分布式集群的总结1.某些问题的说明2.集群启动/停止方式2.1逐个启动/停止2.2整体启动/停止(配置SSH是前提)3.博客提到的配置文件汇总3.1配置在core-site.xml上的有3.2配置在hdfs-site.xml上的有3.3配置在yarn-site.xml上的有3.4配置在mapred-site.xml上的有4.返回目录1.某些问题的说明1.博主相信有很多人初学者(了解一点li...

2018-12-11 14:10:37 1201

原创 Hadoop集群时间同步配置

Hadoop集群时间同步配置1.时间服务器配置(必须root用户)1.1检查ntp是否安装1.2修改ntp配置文件1.3修改/etc/sysconfig/ntpd 文件1.4重新启动ntpd1.5 其他机器配置(必须root用户)1.6 编写定时任务1.7 测试1.时间服务器配置(必须root用户)1.1检查ntp是否安装执行命令:rpm -qa|grep ntp1.2修改ntp配置文件...

2018-12-10 20:44:41 1165 2

原创 Hadoop完全分布式集群的搭建

如果前一章的内容你看懂了,那么请先删除之前搭建的三个新服务器重新克隆三个!!!(博主绝对不是故意为之,真的只是忘记了?)Hadoop完全分布式集群的搭建1.分布式集群搭建规划2.集群的配置(权限问题,命令执行位置问题请自行注意)2.1核心配置文件(core)2.2 HDFS配置文件(hdfs)2.3YARN配置文件(yarn)2.4MapReduce配置文件(mapred)2.5在集群上分发配置...

2018-12-10 13:37:14 1638 3

原创 Hadoop集群SSH无密登录

Hadoop集群SSH无密登录1.原理及操作1.1在登录用户家目录的.ssh下操作1.2生成公钥和私钥1.3将公钥拷贝到要免密登录的目标机器上2.无密配置(注意命令执行位置!)2.1在配置NameNode主机lsl用户家目录的.ssh目录下2.2在配置NameNode主机root用户家目录的.ssh目录下2.3在配置ResourceManager主机lsl用户家目录的.ssh目录下3.如何避免集群...

2018-12-10 13:29:57 1730 1

原创 集群间文件的拷贝

如果你伪分布式搭建成功,那么恭喜你,你离完全分布式集群的搭建只差一步了(其实你已经会了,因为完全分布式其实也就相当于配置多个伪分布式。只是配置文件可能有一定的区别)集群间文件的拷贝1.scp(secure copy)安全拷贝1.1定义:1.2基本语法:1.scp(secure copy)安全拷贝1.1定义:scp可以实现服务器与服务器之间的数据拷贝。(from server1 to ser...

2018-12-09 10:20:07 3075

原创 伪分布式的总结与完全分布式的开始

伪分布式的总结与完全分布式的开始1.伪分布式的总结2.完全分布式的开始2.1开始的准备条件:2.2开始的条件1.伪分布式的总结如果你对hadoop目录结构没有很清晰的认识,那么这个伪分布式搭建的过程会让你很难受!如果你对Linux权限的认识不够,那么可能伪分布式还不足以让你非常难受!所以你有以上的感觉那么赶快去补充下自己吧,不然后面的完全分布式可能会让你觉得世界不值得!2.完全分布式的开始...

2018-12-08 16:06:57 1871

原创 Hadoop2.x目录结构

Hadoop一些重要的目录结构drwxr-xr-x. 2 lsl lsl 4096 5月 22 2017 bindrwxr-xr-x. 3 lsl lsl 4096 5月 22 2017 etcdrwxr-xr-x. 2 lsl lsl 4096 5月 22 2017 includedrwxr-xr-x. 3 lsl lsl 4096 5月 22 2017 lib...

2018-12-08 13:51:42 165

原创 伪分布式问题二(配置日志服务)

伪分布式问题二(配置日志服务)1.引出1.1点击logs无法显示日志信息2.解决2.1配置yarn-site.xml2.2关闭NodeManager 、ResourceManager和HistoryManager2.3启动NodeManager 、ResourceManager和HistoryManager2.4删除HDFS上已经存在的输出文件2.5执行WordCount程序2.6查看日志1.引...

2018-12-08 09:05:08 803

原创 伪分布式问题一(配置历史服务器)

伪分布式问题一(配置历史服务器)1.引出2.解决(配置历史服务器)2.1在当前目录下2.2配置mapred-site.xml2.3启动历史服务器2.4查看历史服务器2.5查看JobHistory1.引出点击浏览器上的history无效2.解决(配置历史服务器)2.1在当前目录下2.2配置mapred-site.xml执行命令:vi mapred-site.xml添加如下内容:&...

2018-12-08 08:44:16 114

原创 伪分布式的搭建(YARN上运行MapReduce 程序)

伪分布式的搭建(YARN上运行MapReduce 程序)1.启动集群1.1在当前目录下1.2确保NameNode和DataNode已经启动1.3启动ResourceManager1.4启动NodeManager1.5查看启动情况2.集群测试2.1YARN的浏览器页面查看2.2如果文件系统上存在output文件则删除2.3执行MapReduce程序2.4查看运行结果1.启动集群1.1在当前目录下...

2018-12-07 20:04:50 175

原创 伪分布式的搭建(启动HDFS并运行MapReduce程序)

如果前一章测试成功,那么恭喜你,你已经可以开始新的篇章了(但是如果测试不成功,请务必搭建测试成功后再看此篇章)伪分布式的搭建1、启动HDFS并运行MapReduce程序1.1配置伪分布式集群1.2启动集群1.2.1切换到当前目录1.2.2格式化NameNode1.2.3启动NameNode(执行成功后可执行JPS看是否启动成功)1.2.4启动DataNode1.2.5注意的一些事项1.3查看集群...

2018-12-07 18:05:02 540

原创 基础环境搭建好后的测试

环境搭建好后的测试一、官方grep案例二、官方wordcount案例一、官方grep案例在hadoop-2.7.2文件下面创建一个input文件夹:mkdir input将hadoop的xml配置文件复制到input:cp etc/hadoop/*.xml input3.执行share目录下的mapreduce程序:bin/hadoop jar share/hadoop/mapreduc...

2018-12-07 08:27:35 143

原创 搭建的准备环境

最开始准备一篇写完但是发现篇幅太长,所以针对其中的一些配置会单独提出搭建的准备环境克隆虚拟机修改克隆虚拟机的静态IP关闭防火墙克隆虚拟机修改克隆虚拟机的静态IP命令窗口执行命令一: vim /etc/udev/rules.d/70-persistent-net.rules命令窗口执行命令二:vim /etc/sysconfig/network-scripts/ifcfg-eth0...

2018-12-06 09:12:29 253

原创 Linux安装Hadoop

Linux安装Hadoop1.安装前的注意的事项2.使用Xftp5工具将Hadoop导入到opt目录下面的software文件夹下面3.解压4.配置Hadoop环境1.安装前的注意的事项1.查看是否安装了Hadoop:rpm -qa|grep hadoop2.如果安装了则卸载:sudo rpm -e 软件包3.查看hadoop位置:which hadoop已安装:未安装:2.使...

2018-12-06 09:09:09 265

原创 Linux安装JDK

Linux安装JDK1.安装之前的事项2.使用Xftp5工具将JDK导入到opt目录下面的software文件夹下面3.解压4.配置JDK环境1.安装之前的事项查看是否安装了JAVA软件 :rpm -qa|grep java注:如果安装了则卸载: sudo rpm -e 软件包2.使用Xftp5工具将JDK导入到opt目录下面的software文件夹下面1.切换到拷贝目录下:cd s...

2018-12-05 21:21:28 819

原创 关闭Linux防火墙

关闭Linux防火墙查看防火墙状态防火墙未开启防火墙已开启关闭防火墙查看防火墙状态执行命令:service iptables status防火墙未开启防火墙已开启关闭防火墙1.临时关闭防火墙(当重启后防火墙还是会开启):service iptables stop2.开机使设置防火墙关闭查看开机防火墙启动状态:chkconfig iptables –list设置开机时关闭防火...

2018-12-05 20:47:35 318

原创 linux虚拟机克隆

linux虚拟机克隆右击想要克隆的虚拟机---->选中管理---->选中克隆点击下一步点击下一步改为创建完整克隆---->点击下一步修改虚拟机名称---->选择克隆存储位置---->点击完成等待克隆完成点击关闭版权声明:本博客为记录本人自学感悟,转载需注明出处!https://me.csdn.net/qq_39657909...

2018-12-04 23:33:12 271

原创 Hadoop 2.x与Hadoop 3.x之间的功能比较

Hadoop 2.x与Hadoop 3.x之间的功能比较1.JDK要求2.HDFS支持纠删码3.YARN Timeline Service版本更新到v.24.重写相关shell脚本,比如所有脚本都以hadoop-env.sh为基础脚本等等5.合并客户端jar,比如使用maven的shaded插件将 hadoop-client-api和hadoop-client-runtime合并为一个jar6.支...

2018-12-04 16:59:26 1457

原创 大数据技术生态体系

大数据技术生态体系图解相关简介一个简单的实例图解图解相关简介1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是Cloudera提供的一个高可用的...

2018-12-03 13:23:06 2382 3

大数据阿里云开放端口.json

阿里云大数据开放端口

2020-11-23

DolphinScheduler.docx

大数据调度框架ds,定时任务调度,详解安装与基础配置。大数据调度框架ds,定时任务调度,详解安装与基础配置。大数据调度框架ds,定时任务调度,详解安装与基础配置。大数据调度框架ds,定时任务调度,详解安装与基础配置

2020-05-15

scala脑图.xmind

scala个人学习时总结的脑图

2020-03-09

实时ETL工具-StreamSets操作手册.docx

StreamSets操作手册

2020-02-18

HBase学习脑图

HBase简介、部署、优化、预分区等等知识点、最后进行总结

2019-04-10

个人总结JVM脑图

详解JVM组成,GC,内存区域,以及一些GC机制和算法,一些简单的调优

2019-04-10

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除