hadoop_Tag标签_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
当前位置:程序员俱乐部 >>Tag标签 >> hadoop >>列表
最近帮公司搭建hadoop集群,现在总结一下相关要点:1、没有搭建过hadoop的,建议先搭建一个伪集群体验一下2、建议最少集群机器配置:5台。1台NameNode1台ResourceManager3台DataNode3、完全分布集群搭建的重点、难点就是无密SSH登录,很多人会卡在这里。重点:<1>各个服务器创建同一个账号,同一个用户组<2>ssh-keygen-trsa生成无密密钥文件<3>catid_rsa.pub>>... 查看全文
除了使用Hive,Pig来执行一个MapReduce任务,不需要专门的把项目打成jar包,提交执行,或者定时执行,因为Hive,Pig这些开源框架已经,帮我们自动打包上传了。而有些时候,我们自己手写了一个MapReduce的任务,然后这个任务里面依赖了其他的第三方包,比如说是Lucene的,或者是Solr,ElasticSearch的,那么打包的时候就需要将这些依赖的jar包也一起的打包进去。如果你用的是maven,那么事情就简单了,maven会自动把所有依赖的jar包,打成一个统一的jar... 查看全文
在hadoop的编程中,如果你是手写MapReduce来处理一些数据,那么就避免不了输入输出参数路径的设定,hadoop里文件基类FileInputFormat提供了如下几种api来制定:如上图,里面有(1)addInputPath(),每次添加一个输入路径Path(2)addInputPaths,将多个路径以逗号分割的字符串,作为入参,支持多个路径(3)setInputPath,设置一个输入路径Path,会覆盖原来的路径(4)setInputPath,设置多个路径... 查看全文
· Hadoop2源码分析-MapReduce篇发布时间:2015-04-18
1.概述前面我们已经对Hadoop有了一个初步认识,接下来我们开始学习Hadoop的一些核心的功能,其中包含mapreduce,fs,hdfs,ipc,io,yarn,今天为大家分享的是mapreduce部分,其内容目录如下所示:MapReduceV1MapReduceV2MRV1和MRV2的区别MRV2的重构思路本篇文章的源码是基于hadoop-2.6.0-src.tar.gz来完成的。代码下载地址,请参考《Hadoop2源码分析-准备篇》。2... 查看全文
· hadoop求最大值方法发布时间:2015-03-27
hadoop求最大值问题,代码比求最值前N个要简单一些,因为直接使用LongWritable类型,不需要自定义hadoop对象进行比较,所以直接覆盖map和reduce方法,并且覆盖cleanup方法,这是在map和reduce都执行完成之后才会执行的方法,只需要把最大值写入即可publicclassMySuper{publicstaticvoidmain(String[]args)throwsException{finalStringINPUT_PATHs="hdfs://chaoren... 查看全文
· hadoop处理前N个最值问题发布时间:2015-03-27
例子为100W条数据取出前十个最值(纯本人看完课程后的手写,没有参考网上,结果应该没问题的,也没找到标准答案写法。。)首先,由于值都是double,默认的排序方式是升序,这里面我们取得是降序,所以自定义hadoop对象,并实现WritableComparable接口,然后覆盖compareTo方法。classMySuperKeyimplementsWritableComparable<MySuperKey>{Longmykey;publicMySuperKey(){... 查看全文
· hadoop处理手机流量小例子发布时间:2015-03-10
最近一直在学习hadoop这是一个简单的关于MapReduce的示例通过实现map和reduce2个函数完成操作首先定义一个自定义对象classMyWriterbleimplementsWritable{longUpPackNum;longDownPackNum;longUpPayLoad;longDownPayLoad;publicMyWriterble(){}publicMyWriterble(StringUpPackNum,StringDownPackNum... 查看全文
· Hadoop集群环境安装步骤发布时间:2015-01-15
1.实验环境:1)三台主机,IP地址和记住名称如下:IP:132.129.31.36主机名:ossitsp3用途:主节点(Master)IP:132.129.31.37主机名:ossitsp4用途:从节点(Slaver)IP:132.129.31.38主机名:ossitsp5用途:从节点(Slaver)其中36主机作为主节点,37和38作为从节点。2)Hadoop版本:hadoop-2.4.12.安装步骤概览3.操作过程1)检查前置软件JDK。Hadoop是基于JVM的... 查看全文
publicstaticvoidcreateNewFile(Stringpath,Stringcontent,FileSystemfs)throwsException{Configurationconf=newConfiguration();conf.set("dfs.support.append","true");Pathd_path=newPath(path);FSDataOutputStreamos=null;if(fs.exists(d_path)){try{os=fs.append... 查看全文
· hadoop2.6版本集群环境搭建发布时间:2015-01-05
一、环境说明1、机器:一台物理机和一台虚拟机2、linux版本:[spark@S1PA11~]$cat/etc/issueRedHatEnterpriseLinuxServerrelease5.4(Tikanga)3、JDK:[spark@S1PA11~]$java-versionjavaversion"1.6.0_27"Java(TM)SERuntimeEnvironment(build1.6.0_27-b07)JavaHotSpot(TM)64-BitServerVM(build20.2... 查看全文
平时的开发中线程是个少不了的东西,比如tomcat里的servlet就是线程,没有线程我们如何提供多用户访问呢?不过很多刚开始接触线程的开发工程师却在这个上面吃了不少苦头。怎么做一套简便的线程开发模式框架让大家从单线程开发快速转入多线程开发,这确实是个比较难搞的工程。那具体什么是线程呢?首先看看进程是什么,进程就是系统中执行的一个程序,这个程序可以使用内存、处理器、文件系统等相关资源。例如QQ软件、Eclipse、Tomcat等就是一个exe程序,运行启动起来就是一个进程。为什么需要多线程... 查看全文
· Spark与Hadoop之间的PK发布时间:2014-12-05
一说大数据,人们往往想到Hadoop。这固然不错,但随着大数据技术的深入应用,多种类型的数据应用不断被要求提出,一些Hadoop被关注的范畴开始被人们注意,相关技术也迅速获得专业技术范畴的应用。最近半年来的Spark之热就是典型例子。Spark是一个基于RAM计算的开源码ComputerCluster运算系统,目的是更快速地进行数据分析。Spark早期的核心部分代码只有3万行。Spark提供了与HadoopMap/Reduce相似的分散式运算框架,但基于RAM和优化设计... 查看全文
· 吴超hadoop7天视频教程全集下载发布时间:2014-10-31
一、初级班全套视频1、linux使用(3节)2、伪分布模式安装hadoop(2节)3、HDFS的体系结构和操作(2节)4、HDFS的java操作方式(4节)5、代码二、中级班全套视频1、MapReduce入门(2节)2、MapReduce的源码简介和自定义类型(4节)3、mapReduce的剩余核心环节讲解(5节)4、MapReduce的自定义排序和分组(3节)5、hadoop的集群安装和安全模式介绍(3节)6、代码三、高级班全套视频1、ZooKeeper的集群安装与操作(2节)2... 查看全文
· hadoop2.2.0 搭建时错误提示发布时间:2014-10-20
hadoop2.2.0搭建时错误提示Youhaveloadedlibrary/usr/local/hdfs/hadoop-2.2.0/lib/native/libhadoop.so.1.0.0错误。我的错误提示:hduser@ubuntu:/usr/local/hdfs/hadoop-2.2.0/etc/hadoop$start-dfs.sh14/10/1923:16:20WARNutil.NativeCodeLoader:Unabletoloadnative... 查看全文
· HADOOP序列化应该注意的问题发布时间:2014-10-16
hadoop在序列化的时候,如果被序列化的BEAN里面含有其他对象如list等,一定要在readFields方法里面new出这个新对象。要不然由于序列化里数据重用的原因,会导致list被循环利用,从而使多个BEAN对象的list里面的元素叠加到一个BEAN里。例如:publicclassUserPortrait2RedisBeanimplementsWritable{privateStringdeviceId;privateStringmodel;privateList<... 查看全文
Hadoop所有的跨节点的通信都是通过RPC来通信的,RPC通信是需要创建Stub,一个好的RPC需要通过良好的设计确保了对上层调用的透明性.我们下面就通过Hadoop里面最常用的心跳(JobTrack和TaskTracker)来研究一下Hadoop的RPC机制.心跳函数的调用在方法:TaskTracker.transmitHeartBeat();在此方法中会调用下面的代码段.这个方法实际就不一个本地调用,jobClient实际上就是一个动态代理生成的对象,这个对象已经包括了RPC的Stub... 查看全文
· Apache拟在Docker中运行Hadoop发布时间:2014-09-04
Apache在其Hadoop维基百科发布了一个页面,主要整理了Docker中运行Hadoop的好处,以及要完全在Docker中运行Hadoop所需要完成的工作。在Docker,或者说其它容器中运行HadoopYARN有很多优势,具体如下:软件依赖和配置的隔离:在Docker中运行的应用,其软件依赖和配置是与宿主机完全没有关系的,跟其其它行在Docker中的应用也没有关系;安全性:运行在Docker中的应用,在没有主动配置的情况下,基本没有办法访问(即便是Docker镜像中的root权限... 查看全文
sun.net包里的类,在eclipse里默认是不让用的。解决办法是自定义accessrules工程上右键->工程属性->javabuilderpath->Libraries标签,点击JRESystemLibrary里面的Accessrules,addsun/**为accessible,如果该项存在,就edit... 查看全文
· Teradata Aster在Hadoop和R上的进展发布时间:2014-08-18
刚刚宣布放宽计算及内存限制,Aster提供R语言分析能力之后,Teradata迅速出手,宣布由Teradata实验室收购了Revelytix和Hadapt。前者主要致力于Hadoop上的数据管理,而Hadapt则是一家专注SQL-on-Hadoop的公司。显然,Teradata构建统一数据架构方面正在加速奔跑。构建统一数据架构事实上,结构化数据和非结构化数据通过传统的SQL分析和新的分析算法(时间序列、路径、图和文字)正在产生新的价值。为了最高效率、最优存储、分析和应用的成本... 查看全文
· hadoop eclipse plugin 集成报错发布时间:2014-08-17
把hadoop-eclipse-plugin-2.2.0.jar放到Eclipse的plugin目录,重启Eclipse后,运行WordCount报错:Java代码如下:packagecom.lyq.study.example;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path... 查看全文