hadoop_Tag标签_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
当前位置:程序员俱乐部 >>Tag标签 >> hadoop >>列表
· hadoop2.6版本集群环境搭建发布时间:2015-01-05
一、环境说明1、机器:一台物理机和一台虚拟机2、linux版本:[spark@S1PA11~]$cat/etc/issueRedHatEnterpriseLinuxServerrelease5.4(Tikanga)3、JDK:[spark@S1PA11~]$java-versionjavaversion"1.6.0_27"Java(TM)SERuntimeEnvironment(build1.6.0_27-b07)JavaHotSpot(TM)64-BitServerVM(build20.2... 查看全文
平时的开发中线程是个少不了的东西,比如tomcat里的servlet就是线程,没有线程我们如何提供多用户访问呢?不过很多刚开始接触线程的开发工程师却在这个上面吃了不少苦头。怎么做一套简便的线程开发模式框架让大家从单线程开发快速转入多线程开发,这确实是个比较难搞的工程。那具体什么是线程呢?首先看看进程是什么,进程就是系统中执行的一个程序,这个程序可以使用内存、处理器、文件系统等相关资源。例如QQ软件、Eclipse、Tomcat等就是一个exe程序,运行启动起来就是一个进程。为什么需要多线程... 查看全文
· Spark与Hadoop之间的PK发布时间:2014-12-05
一说大数据,人们往往想到Hadoop。这固然不错,但随着大数据技术的深入应用,多种类型的数据应用不断被要求提出,一些Hadoop被关注的范畴开始被人们注意,相关技术也迅速获得专业技术范畴的应用。最近半年来的Spark之热就是典型例子。Spark是一个基于RAM计算的开源码ComputerCluster运算系统,目的是更快速地进行数据分析。Spark早期的核心部分代码只有3万行。Spark提供了与HadoopMap/Reduce相似的分散式运算框架,但基于RAM和优化设计... 查看全文
· 吴超hadoop7天视频教程全集下载发布时间:2014-10-31
一、初级班全套视频1、linux使用(3节)2、伪分布模式安装hadoop(2节)3、HDFS的体系结构和操作(2节)4、HDFS的java操作方式(4节)5、代码二、中级班全套视频1、MapReduce入门(2节)2、MapReduce的源码简介和自定义类型(4节)3、mapReduce的剩余核心环节讲解(5节)4、MapReduce的自定义排序和分组(3节)5、hadoop的集群安装和安全模式介绍(3节)6、代码三、高级班全套视频1、ZooKeeper的集群安装与操作(2节)2... 查看全文
· hadoop2.2.0 搭建时错误提示发布时间:2014-10-20
hadoop2.2.0搭建时错误提示Youhaveloadedlibrary/usr/local/hdfs/hadoop-2.2.0/lib/native/libhadoop.so.1.0.0错误。我的错误提示:hduser@ubuntu:/usr/local/hdfs/hadoop-2.2.0/etc/hadoop$start-dfs.sh14/10/1923:16:20WARNutil.NativeCodeLoader:Unabletoloadnative... 查看全文
· HADOOP序列化应该注意的问题发布时间:2014-10-16
hadoop在序列化的时候,如果被序列化的BEAN里面含有其他对象如list等,一定要在readFields方法里面new出这个新对象。要不然由于序列化里数据重用的原因,会导致list被循环利用,从而使多个BEAN对象的list里面的元素叠加到一个BEAN里。例如:publicclassUserPortrait2RedisBeanimplementsWritable{privateStringdeviceId;privateStringmodel;privateList<... 查看全文
Hadoop所有的跨节点的通信都是通过RPC来通信的,RPC通信是需要创建Stub,一个好的RPC需要通过良好的设计确保了对上层调用的透明性.我们下面就通过Hadoop里面最常用的心跳(JobTrack和TaskTracker)来研究一下Hadoop的RPC机制.心跳函数的调用在方法:TaskTracker.transmitHeartBeat();在此方法中会调用下面的代码段.这个方法实际就不一个本地调用,jobClient实际上就是一个动态代理生成的对象,这个对象已经包括了RPC的Stub... 查看全文
· Apache拟在Docker中运行Hadoop发布时间:2014-09-04
Apache在其Hadoop维基百科发布了一个页面,主要整理了Docker中运行Hadoop的好处,以及要完全在Docker中运行Hadoop所需要完成的工作。在Docker,或者说其它容器中运行HadoopYARN有很多优势,具体如下:软件依赖和配置的隔离:在Docker中运行的应用,其软件依赖和配置是与宿主机完全没有关系的,跟其其它行在Docker中的应用也没有关系;安全性:运行在Docker中的应用,在没有主动配置的情况下,基本没有办法访问(即便是Docker镜像中的root权限... 查看全文
sun.net包里的类,在eclipse里默认是不让用的。解决办法是自定义accessrules工程上右键->工程属性->javabuilderpath->Libraries标签,点击JRESystemLibrary里面的Accessrules,addsun/**为accessible,如果该项存在,就edit... 查看全文
· Teradata Aster在Hadoop和R上的进展发布时间:2014-08-18
刚刚宣布放宽计算及内存限制,Aster提供R语言分析能力之后,Teradata迅速出手,宣布由Teradata实验室收购了Revelytix和Hadapt。前者主要致力于Hadoop上的数据管理,而Hadapt则是一家专注SQL-on-Hadoop的公司。显然,Teradata构建统一数据架构方面正在加速奔跑。构建统一数据架构事实上,结构化数据和非结构化数据通过传统的SQL分析和新的分析算法(时间序列、路径、图和文字)正在产生新的价值。为了最高效率、最优存储、分析和应用的成本... 查看全文
· hadoop eclipse plugin 集成报错发布时间:2014-08-17
把hadoop-eclipse-plugin-2.2.0.jar放到Eclipse的plugin目录,重启Eclipse后,运行WordCount报错:Java代码如下:packagecom.lyq.study.example;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path... 查看全文
· hadoop 1.2.1 安装步骤 伪分布式发布时间:2014-07-28
最近在系统的学习hadoop课程第一步是安装hadoop1.x,具体安装步骤如下:一、系统安装本文使用centos6.5安装,具体安装步骤省略二、jdk安装下载jdk1.7.0_51解压,在环境中设置环境变量:vi/etc/profile,添加如下行:exportJAVA_HOME=/usr/local/jdk1.7.0_51exportCLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar... 查看全文
· Java 读取Hadoop文件系统文件发布时间:2014-07-23
放一个hello的文件到Hadoop文件系统根目录:[root@hadooplocal]#touchhello[root@hadooplocal]#vihello[root@hadooplocal]#hadoopfs-puthello/代码:packagehadoop.jack.javacallhadoop;importjava.io.InputStream;importjava.net.URL;importorg.apache.hadoop.conf.Configuration... 查看全文
· Hadoop1.2.0的DataNode启动失败异常发布时间:2014-07-16
在配置hadoop1.x的集群时,如果我们在hdfs-site.xml里面,如果明确指定了dfs的路径,需要设置下dfs.data.dir的权限,下面是散仙在Hadoop1.2.0里面的配置:<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs... 查看全文
一直以来,都以为,想在Win上提交hadoop集群的作业,必须得在eclipse上安装hadoop-eclipse-plugin插件才可以提交,但最近与同事交流,发现其实,不一定必须安装hadoop的eclipse插件,才能提交。今天试了一把,发现果然可以不用安装插件也可以正确提交作业到集群上,故在此总结一下。既然,无须安装hadoop的eclipse插件,就能提交hadoop作业,那为毛,还出现了这个插件呢?其实安装插件除了能直接提交作业外,还有一个比较方便的功能... 查看全文
把eclipse中的hadoop项目,换了一个工作空间,再次启动任务时,发现报如下异常:java.io.IOException:NoFileSystemforscheme:hdfsatorg.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2421)atorg.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2428)atorg.apache... 查看全文
在上一篇博文中,散仙已经讲了Hadoop的单机伪分布的部署,本篇,散仙就说下,如何eclipse中调试hadoop2.2.0,如果你使用的还是hadoop1.x的版本,那么,也没事,散仙在以前的博客里,也写过eclipse调试1.x的hadoop程序,两者最大的不同之处在于使用的eclipse插件不同,hadoop2.x与hadoop1.x的API,不太一致,所以插件也不一样,我们只需要使用分别对应的插件即可.下面开始进入正题:序号名称描述1eclipseJunoServiceRelease4... 查看全文
hadoop2.x的稳定版本,已经发布多时了,散仙一直都用的hadoop1.x的版本,最近有项目用到hadoop2.x,所以就开始折腾hadoop2.x了,在hadoop2.x的版本里,目前最新版本已经到hadoop2.4了,但散仙在这里用的是hadoop2.2.0的版本,为什么用它?因为这是一个稳定的版本,所以相对来说,问题比较少。散仙在上篇博客,已经讲了如何在编译hadoop2.2.0的64位的版本,如果有不清楚怎么编译,可以参考散仙上篇博文,在这里就不涉及了。下面... 查看全文
利用Mahout实现在Hadoop上运行K-Means算法一、介绍MahoutMahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包,用于处理大数据机器学习的问题,当你正在研究的数据量大到不能在一台机器上运行时,就可以选择使用Mahout,让你的数据在Hadoop集群的进行分析。Mahout某些部分的实现直接创建在Hadoop之上,这就使得其具有进行大数据处理的能力... 查看全文
· Hadoop MapReduce程序开发(一)发布时间:2014-04-25
1.Configurationpackagecom.mapreduce.test1;importorg.apache.hadoop.conf.Configuration;publicclassTest1{publicstaticvoidmain(String[]args){Configurationconf=newConfiguration();conf.addResource("config-default.xml");conf.addResource("config-site.xml")... 查看全文