adoop 最初是Linux平臺(tái)使用的,集群環(huán)境也是搭建在linux系統(tǒng)。其實(shí)在學(xué)習(xí)的時(shí)候完全可以在Windows去練習(xí)它的使用,這樣不需要安裝虛擬機(jī)也可以學(xué)習(xí)Hadoop了。下面我通過實(shí)踐總結(jié)了一套步驟供你一步步實(shí)現(xiàn)。其中更改配置的部分可以到Github上下載。
· 下載Java 1.8 64位版本https://java.com/en/download/. 如果不是64位java,在啟動(dòng)資源節(jié)點(diǎn)管理器時(shí)會(huì)出現(xiàn)錯(cuò)誤
· Java 安裝自選目錄, 必須是中間不帶空格的目錄結(jié)構(gòu):比如 C:\java64
· 安裝完成后,使用"java -version"命令在命令行中確認(rèn)運(yùn)行了正確的版本
· 下載并安裝WinRAR 64位版本,用來解壓Windows上的Linux類型tar.gz包:
· 或者使用7-zip:
· 安裝Hadoop發(fā)行版。二進(jìn)制包:
· 解壓并將文件夾名重命名為hadoop,并將其放在C:\Learning
· 目錄名字中間不要有空格(因?yàn)镠adoop初始開發(fā)基于linux, linux 文件名字不能有空格)。
3. 1 Setup Environmental Variables
添加以下目錄到path變量:
3.2 Edit Hadoop Configuration
注意:如果你不想自己配置下面 3.2 過程, 除了3.2.3 其它的步驟可以忽略, 那么下載下面鏈接(bin data etc)文件夾放到你的hadoop目錄下覆蓋(https://github.com/yjy24/bigdata_learning ), 然后從3.2.3 開始繼續(xù)!
3.2.1 新建data 目錄和子目錄
· c:/Learning/hadoop/data
· c:/Learning/hadoop/data/namenode
· c:/Learning/hadoop/data/datanode
3.2.2 修改 Hadoop 配置文件
· HDFS服務(wù)地址
· 加入如下內(nèi)容到mapreduce 框架設(shè)置文件
· 添加namenode 和 datanode 目錄設(shè)置
· 添加如下內(nèi)容到Y(jié)arn配置文件
· 設(shè)置 JAVA_HOME 目錄到 hadoop-env.cmd. 文件第一行。
3.2.3 下載配置Windows 環(huán)境需要的庫文件
· 1. 安裝 Visual C++ 2010 Redistributable Package (x64):
· 2. 把 winutils.exe 等 windows 需要的文件放到 C:\Learning\hadoop\bin 下面。
下載 下面的bin 直接覆蓋C:\Learning\hadoop\bin。
· 3. 把里面的 hadoop.dll 拷貝到 C:\Windows\System32 一份
3.3 啟動(dòng)Hadoop
3.3.1 格式化 Hadoop namenode:
3.3.2 啟動(dòng) Hadoop 所有的服務(wù):
· 要用管理員身份運(yùn)行,四個(gè)service窗口會(huì)打開運(yùn)行, 包括HDFS 的數(shù)據(jù)節(jié)點(diǎn) 和 Yarn 管理器服務(wù)進(jìn)程
C:\Learning\hadoop\sbin\start-all.cmd
3.4 Open Hadoop GUI
· 完成以上步驟后,打開瀏覽器,導(dǎo)航到: , 這里可以查看job的運(yùn)行情況 log 信息。
關(guān)注了解更多
windows下spark開發(fā)環(huán)境配置
特注:windows下開發(fā)spark不需要在本地安裝hadoop,但是需要winutils.exe、hadoop.dll等文件,前提是你已經(jīng)安裝了eclipse、maven、jdk等軟件
spark支持jdk版本建議是1.8及以上,如果開發(fā)spark建議將jdk編譯版本設(shè)置為1.8
我選擇的spark是spark-1.4.0-bin-hadoop2.6.tgz,故以該版本為例
第一步:下載spark-1.4.0-bin-hadoop2.6.tgz到本地,并解壓在本地目錄
地址為:http://spark.apache.org/downloads.html
第二步:下載windows下hadoop工具包(分為32位和64位的),在本地新建一個(gè)hadoop目錄,必須有 bin目錄例如:D:\spark\hadoop-2.6.0\bin
然后將winutil等文件放在bin目錄下
地址:https://github.com/sdravida/hadoop2.6_Win_x64/tree/master/bin
第三步:配置hadoop和spark的環(huán)境變量:
HADOOP_HOME 例如:D:\spark\hadoop-2.6.0
SPARK_HOME
SPARK_CLASSPATH
path中加入spark和hadoop
至此,在cmd命令下輸入spark-shell 至此windows下配置ok了
搭建自己的spark maven項(xiàng)目hello world程序
對于已經(jīng)安裝了eclipse環(huán)境的程序員來說,不用再單獨(dú)安裝saprk的開發(fā)環(huán)境,由于spark是基于scala語言的,所以如果要想看源代碼,需要安裝scala的eclipse插件
第一步:安裝scala的eclipse插件
地址:http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site
第一步:創(chuàng)建自己的spark maven項(xiàng)目
勾選create a simple project
第二步:選則maven生成的包,這里一定要選這jar,因?yàn)閟park程序一般是打包為jar包的
其他必填自己按需填
第三步:添加spark的jar包到剛才新建的maven項(xiàng)目中
找到集群安裝的spark安裝目錄,在lib目錄下會(huì)看到
將加到maven項(xiàng)目的build path下
第四步:pom中添加自己的spark,hadoop maven依賴
例如:
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.5.2</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>1.5.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>1.2.0</version>
</dependency>
第五部:spark程序的入口是main函數(shù),至此可以編寫自己的hello world并讓它跑起來和調(diào)試
public class SparkMain implements Serializable {
public static void main(String[] args) throws Exception {
//編寫自己的spark程序
System.out.println(“hello spark!”);
}
}
Now everything is ready for you to run your main Class. Enjoy!
--本篇由同事葛同學(xué)提供。