欄目導(dǎo)航

新聞資訊

新聞資訊

adoop 最初是Linux平臺(tái)使用的，集群環(huán)境也是搭建在linux系統(tǒng)。其實(shí)在學(xué)習(xí)的時(shí)候完全可以在Windows去練習(xí)它的使用，這樣不需要安裝虛擬機(jī)也可以學(xué)習(xí)Hadoop了。下面我通過實(shí)踐總結(jié)了一套步驟供你一步步實(shí)現(xiàn)。其中更改配置的部分可以到Github上下載。

1.Java

· 下載Java 1.8 64位版本https://java.com/en/download/. 如果不是64位java，在啟動(dòng)資源節(jié)點(diǎn)管理器時(shí)會(huì)出現(xiàn)錯(cuò)誤

· Java 安裝自選目錄, 必須是中間不帶空格的目錄結(jié)構(gòu)：比如 C:\java64

· 安裝完成后，使用"java -version"命令在命令行中確認(rèn)運(yùn)行了正確的版本

C:\Users>java -version

java version "1.8.0_251"
Java(TM) SE Runtime Environment (build 1.8.0_251-b08)
Java HotSpot(TM) 64-Bit Server VM (build 25.251-b08, mixed mode)

2.WinRAR/7-ZIP

· 下載并安裝WinRAR 64位版本，用來解壓Windows上的Linux類型tar.gz包：

· 或者使用7-zip：

3. Hadoop

· 安裝Hadoop發(fā)行版。二進(jìn)制包:

· 解壓并將文件夾名重命名為hadoop，并將其放在C:\Learning

· 目錄名字中間不要有空格(因?yàn)镠adoop初始開發(fā)基于linux， linux 文件名字不能有空格)。

3. 1 Setup Environmental Variables

添加以下目錄到path變量:

3.2 Edit Hadoop Configuration

注意：如果你不想自己配置下面 3.2 過程，除了3.2.3 其它的步驟可以忽略，那么下載下面鏈接（bin data etc）文件夾放到你的hadoop目錄下覆蓋（https://github.com/yjy24/bigdata_learning ）, 然后從3.2.3 開始繼續(xù)！

3.2.1 新建data 目錄和子目錄

· c:/Learning/hadoop/data

· c:/Learning/hadoop/data/namenode

· c:/Learning/hadoop/data/datanode

3.2.2 修改 Hadoop 配置文件

· HDFS服務(wù)地址

· 加入如下內(nèi)容到mapreduce 框架設(shè)置文件

· 添加namenode 和 datanode 目錄設(shè)置

· 添加如下內(nèi)容到Y(jié)arn配置文件

· 設(shè)置 JAVA_HOME 目錄到 hadoop-env.cmd. 文件第一行。

3.2.3 下載配置Windows 環(huán)境需要的庫文件

· 1. 安裝 Visual C++ 2010 Redistributable Package (x64)：

· 2. 把 winutils.exe 等 windows 需要的文件放到 C:\Learning\hadoop\bin 下面。

　　　　下載下面的bin 直接覆蓋C:\Learning\hadoop\bin。

· 3. 把里面的 hadoop.dll 拷貝到 C:\Windows\System32 一份

3.3 啟動(dòng)Hadoop

3.3.1 格式化 Hadoop namenode：

3.3.2 啟動(dòng) Hadoop 所有的服務(wù)：

· 要用管理員身份運(yùn)行，四個(gè)service窗口會(huì)打開運(yùn)行，包括HDFS 的數(shù)據(jù)節(jié)點(diǎn) 和 Yarn 管理器服務(wù)進(jìn)程

C:\Learning\hadoop\sbin\start-all.cmd

3.4 Open Hadoop GUI

· 完成以上步驟后，打開瀏覽器，導(dǎo)航到: ，這里可以查看job的運(yùn)行情況 log 信息。

關(guān)注了解更多

windows下spark開發(fā)環(huán)境配置

特注：windows下開發(fā)spark不需要在本地安裝hadoop，但是需要winutils.exe、hadoop.dll等文件，前提是你已經(jīng)安裝了eclipse、maven、jdk等軟件

spark支持jdk版本建議是1.8及以上，如果開發(fā)spark建議將jdk編譯版本設(shè)置為1.8

我選擇的spark是spark-1.4.0-bin-hadoop2.6.tgz，故以該版本為例

第一步：下載spark-1.4.0-bin-hadoop2.6.tgz到本地，并解壓在本地目錄

地址為：http://spark.apache.org/downloads.html

第二步：下載windows下hadoop工具包（分為32位和64位的），在本地新建一個(gè)hadoop目錄，必須有 bin目錄例如：D:\spark\hadoop-2.6.0\bin

然后將winutil等文件放在bin目錄下

地址：https://github.com/sdravida/hadoop2.6_Win_x64/tree/master/bin

第三步：配置hadoop和spark的環(huán)境變量：

HADOOP_HOME 例如：D:\spark\hadoop-2.6.0

SPARK_HOME

SPARK_CLASSPATH

path中加入spark和hadoop

至此，在cmd命令下輸入spark-shell 至此windows下配置ok了

搭建自己的spark maven項(xiàng)目hello world程序

對于已經(jīng)安裝了eclipse環(huán)境的程序員來說，不用再單獨(dú)安裝saprk的開發(fā)環(huán)境，由于spark是基于scala語言的，所以如果要想看源代碼，需要安裝scala的eclipse插件

第一步:安裝scala的eclipse插件

地址：http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site

第一步：創(chuàng)建自己的spark maven項(xiàng)目

勾選create a simple project

第二步：選則maven生成的包，這里一定要選這jar，因?yàn)閟park程序一般是打包為jar包的

其他必填自己按需填

第三步：添加spark的jar包到剛才新建的maven項(xiàng)目中

找到集群安裝的spark安裝目錄，在lib目錄下會(huì)看到

將加到maven項(xiàng)目的build path下

第四步：pom中添加自己的spark，hadoop maven依賴

例如：

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.10</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_2.10</artifactId>

</dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-client</artifactId>

</dependency>

第五部：spark程序的入口是main函數(shù)，至此可以編寫自己的hello world并讓它跑起來和調(diào)試

public class SparkMain implements Serializable {

public static void main(String[] args) throws Exception {

//編寫自己的spark程序

System.out.println(“hello spark!”);

}

Now everything is ready for you to run your main Class. Enjoy!

--本篇由同事葛同學(xué)提供。

操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

1.Java

2.WinRAR/7-ZIP

3. Hadoop