版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1.Spark window安裝過(guò)程參考簡(jiǎn)書:/p/c5190d4e8aaawindows下安裝spark-python首先需要安裝Java卸載java7安裝java8Jdk選擇E:javajdkJre選擇E:javajre設(shè)置環(huán)境變量 系統(tǒng)變量新建 JAVA_HOME 變量 。變量值填寫jdk的安裝目錄(本人是 E:javajdk1.8.0_66) 系統(tǒng)變量尋找 Path 變量編輯在變量值最后輸入 %JAVA_HOME%bin;%JAVA_HOME%jrebin;(注意原來(lái)Path的變量值末尾有沒(méi)有;號(hào),如果沒(méi)有,先輸入;號(hào)再輸入上面的代碼) 系統(tǒng)
2、變量新建 CLASSPATH 變量變量值填寫 .;%JAVA_HOME%lib;%JAVA_HOME%libtools.jar(注意最前面有一點(diǎn))系統(tǒng)變量配置完畢 檢驗(yàn)是否配置成功 運(yùn)行cmd 輸入 java -version (java 和 -version 之間有空格)若如圖所示 顯示版本信息 則說(shuō)明安裝和配置成功。下載安裝scala直接安裝 選擇e:/scala下載安裝并配置Spark從官方網(wǎng)站Download Apache Spark下載相應(yīng)版本的spark,因?yàn)閟park是基于hadoop的,需要下載對(duì)應(yīng)版本的hadoop才行,這個(gè)頁(yè)面有對(duì)hadoop的版本要求,點(diǎn)擊Download
3、 Spark:spark-2.3.1-bin-hadoop2.7.tgz就可以下載壓縮包了,對(duì)應(yīng)的hadoop版本要在Hadoop2.7及其以后。這里解壓到D:spark-2.3.1-bin-hadoop2.7,為了后續(xù)操作簡(jiǎn)便,這里將解壓以后的文件夾名稱改為spark,這樣解壓的路徑就是D:spark配置環(huán)境變量右鍵我的電腦,依次點(diǎn)擊屬性-高級(jí)系統(tǒng)設(shè)置-環(huán)境變量新建用戶變量 SPARK_HOME D:spark找到系統(tǒng)變量Path 點(diǎn)擊按鈕新建,然后添加文本%SPARK_HOME%bin,按回車enter,繼續(xù)新建一個(gè),添加文本%SPARK_HOME%sbin,按鍵回車,一直點(diǎn)擊確定,就保存
4、了更改,這樣就將bin、sbin文件夾中的程序放到了系統(tǒng)變量中%SPARK_HOME%bin; %SPARK_HOME%sbin;pyspark:到這里spark的配置完成了一部分,還有pyspark需要配置,pyspark等anaconda安裝后在下文中討論,pyspark的安裝有幾種方式,其中解壓以后的spark文件夾中就有pyspark庫(kù),可以安裝到python的庫(kù)當(dāng)中去;還可以不復(fù)制,pyspark可以通過(guò)pip單獨(dú)安裝,還有一種是單獨(dú)下載pyspark的安裝包,解壓以后安裝到python庫(kù)當(dāng)中去。安裝并配置Hadoop上面安裝spark的時(shí)候有對(duì)hadoop的版本要求,這里要求的是2
5、.7及以后的版本,進(jìn)入官方網(wǎng)站Apache Hadoop Releases下載2.7.6 binary版本,其中source版本是該版本hadoop的源代碼,下載以后解壓到D:hadoop-2.7.6,為了后續(xù)操作方便,解壓以后修改文件夾名稱為hadoop,這樣文件夾就是D:hadoop配置環(huán)境變量:右鍵我的電腦,依次點(diǎn)擊屬性-高級(jí)系統(tǒng)設(shè)置-環(huán)境變量新增用戶變量 HADOOP_HOME D:hadoop然后找到系統(tǒng)變量Path 點(diǎn)擊按鈕新建,然后添加文本%HADOOP_HOME%bin,按回車enter,繼續(xù)新建一個(gè),添加文本%HADOOP_HOME%sbin,按鍵回車,一直點(diǎn)擊確定,就保存了
6、更改,這樣就將bin、sbin文件夾中的程序放到了系統(tǒng)變量中從網(wǎng)站中下載點(diǎn)擊打開鏈接一個(gè)壓縮包,然后解壓出來(lái),復(fù)制其中的winutils.exe和winutils.pdb到hadoop的安裝文件夾中,復(fù)制目錄為:D:hadoopbin,復(fù)制到這個(gè)目錄中當(dāng)輸入命令pyspark出現(xiàn)以下結(jié)果時(shí)表明spark安裝配置完成了安裝并配置anaconda在anaconda官方網(wǎng)站中下載并安裝對(duì)應(yīng)版本的anaconda,安裝路徑這里的是C:Anaconda,其中需要注意的一點(diǎn)是,需要勾選第一個(gè)將anaconda加入環(huán)境變量的選項(xiàng),這樣就不需要我們自己將它的路徑加入到環(huán)境變量中去了安裝anaco
7、nda不是必須的,必須安裝的是python,單獨(dú)只安裝python也是可以的,但是anaconda當(dāng)中集成了很多需要用到的庫(kù),為了方便起見(jiàn),這里安裝的是anaconda。配置pyspark庫(kù) anaconda包含pyspark之前在安裝spark的時(shí)候,提到過(guò)pyspark庫(kù)的安裝有幾種方法,一種方法是直接將spark自帶的pyspark庫(kù)安裝到python的庫(kù)當(dāng)中去;一種是使用命令pip install pyspark安裝;還有一種是單獨(dú)下載pyspark的安裝包,解壓以后安裝到python庫(kù)當(dāng)中去。這幾種方法,這里都會(huì)進(jìn)行講解。將spark自帶的pyspark庫(kù)安裝到python:以管理員
8、身份打開cmd,按一下鍵盤上的window鍵,依次選中Windows 系統(tǒng),右鍵命令提示符,點(diǎn)擊更多,點(diǎn)擊以管理員身份運(yùn)行進(jìn)入spark安裝目錄的python文件夾,cdD:sparkpythonC:cd D:sparkpythonC:d:D:sparkpython輸入命令 python setup.py install,等待安裝完成,D:sparkpythonpython setup.py install出現(xiàn)這個(gè)圖時(shí)pyspark就安裝好了pip install pyspark命令行方式安裝:同上面打開cmd的方式相同,需要以管理員身份運(yùn)行,按一下鍵盤上的window鍵,依次選中Window
9、s 系統(tǒng),右鍵命令提示符,點(diǎn)擊更多,點(diǎn)擊以管理員身份運(yùn)行輸入命令pip install pyspark,等待安裝完成,這里需要注意的是,pyspark本身的安裝包占用磁盤空間很多,有幾百M(fèi),這種方式安裝需要在線下載pyspark,網(wǎng)速不錯(cuò)的話,是非常推薦的,這種方式最簡(jiǎn)單,只需要一行命令就行了。單獨(dú)下載安裝pyspark:進(jìn)入pyspark的PyPI的網(wǎng)站,點(diǎn)擊左側(cè)的Download files,下載pyspark的安裝包,然后解壓好,這里解壓的路徑是D:pyspark-2.3.1同上面打開cmd的方式相同,需要以管理員身份運(yùn)行,按一下鍵盤上的window鍵,依次選中Windows 系統(tǒng),右鍵
10、命令提示符,點(diǎn)擊更多,點(diǎn)擊以管理員身份運(yùn)行進(jìn)入解壓以后文件夾的目錄輸入命令行 python setup.py install ,等待安裝完成,pyspark就安裝完成了D:pyspark-2.3.1python setup.py install以上幾種方式都可以安裝pyspark,其中最方便的方式是使用命令行 pip install pyspark,下面將講解pycharm的安裝配置過(guò)程,并演示一個(gè)python編寫spark的示例。安裝并配置Pycharm在Pycharm的官方網(wǎng)站中下載pycharm的community版本,這個(gè)版本是免費(fèi)的,按照默認(rèn)配置安裝就可以安裝好以后打開pycharm
11、,根據(jù)自己的喜好配置界面,到這一步時(shí),可以安裝一些插件,這里安裝的是Markdown進(jìn)入打開界面時(shí)打開settings選擇好Project Interpreter,點(diǎn)擊右側(cè)的下拉鏈,然后點(diǎn)擊show all點(diǎn)擊+號(hào),添加項(xiàng)目解釋器,選中其中的Conda Environment,然后點(diǎn)擊Existing environment,點(diǎn)擊右側(cè)的選擇按鈕,進(jìn)入目錄C:Anaconda,選中其中的python.exe文件,然后一直點(diǎn)擊OK等待庫(kù)載入完成以后,點(diǎn)擊OK,就完成了Project Interpreter的配置,等待更新完成,或者讓它在后臺(tái)運(yùn)行這個(gè)是在最開始的時(shí)候配置Project
12、Interpreter,進(jìn)入界面以后,可以在File-Settings或者File-Default_Settings中設(shè)置設(shè)置自己的字體,在File-Settings-Editor-Font當(dāng)中設(shè)置使用python來(lái)編寫spark的WordCount程序?qū)嵗鞒绦陆ㄒ粋€(gè)項(xiàng)目,編輯好項(xiàng)目的存放目錄以后,需要注意選擇Existing interpreter,而不是New interpreter,上一步就是在配置Project interpreter,需要點(diǎn)擊選擇已經(jīng)配置好的解釋器。新建一個(gè)項(xiàng)目還依次點(diǎn)擊按鈕File-Setting-New Project等待pycharm配置好,右下角會(huì)有提示的,
13、等這個(gè)任務(wù)完成以后,就可以新建python文件了點(diǎn)擊Create就創(chuàng)建好了一個(gè)項(xiàng)目,鼠標(biāo)放在左側(cè)項(xiàng)目然后右鍵,依次點(diǎn)擊New-Python File,創(chuàng)建一個(gè)python文件WordCount.py進(jìn)入WordCount.py文件寫入如下代碼,就是中文版WordCount,很經(jīng)典的分布式程序,需要用到中文分詞庫(kù)jieba,去除停用詞再進(jìn)行計(jì)數(shù)新建兩個(gè)文件jieba分詞/project/jieba/#files下載完后將導(dǎo)入項(xiàng)目中from pyspark.contextimport SparkContextimport jiebasc = SparkContext(
14、local, WordCount)#初始化配置data = sc.textFile(rD:WordCount.txt)#讀取是utf-8編碼的文件with open(rd:中文停用詞庫(kù).txt,r,encoding=utf-8)as f:x=f.readlines()stop=i.replace(n,)for iin xprint(stop)stop.extend(,,的,我,他,。, ,n,?,;,:,-,(,),!,1909,1920,325,B612,II,III,IV,V,VI,“,”,、)#停用標(biāo)點(diǎn)之類data=data.flatMap(lambda line: jieba.cut(
15、line,cut_all=False).filter(lambda w: wnot in stop).map(lambda w:(w,1).reduceByKey(lambda w0,w1:w0+w1).sortBy(lambda x:x1,ascending=False)print(data.take(100)最終結(jié)果是:2.在notebook上運(yùn)行spark程序import os import sys spark_name = os.environ.get(SPARK_HOME,None) if not spark_name: raise ValueErrorError(spark環(huán)境沒(méi)有配置好) sys.path.insert(0,os.path.join(spark
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年通過(guò)客戶體驗(yàn)優(yōu)化提高房地產(chǎn)銷售額
- 2026年電氣傳動(dòng)控制系統(tǒng)的項(xiàng)目案例分享
- 2026年年房地產(chǎn)行業(yè)的重要法律法規(guī)
- 2026春招:物流專員面試題及答案
- 貨車司機(jī)安全培訓(xùn)例會(huì)課件
- 貨梯安裝培訓(xùn)課件
- 2026年電子科技大學(xué)成都學(xué)院?jiǎn)握芯C合素質(zhì)考試備考題庫(kù)帶答案解析
- 2026年德州科技職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性考試備考題庫(kù)帶答案解析
- 2026年鶴壁職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試模擬試題帶答案解析
- 賬務(wù)知識(shí)講解課件模板
- 2024年新疆中考數(shù)學(xué)試卷試題解讀及答案講解課件
- 迎接期末+做自己的英雄 高二上學(xué)期心理健康教育主題班會(huì)
- 招標(biāo)代理服務(wù)服務(wù)方案
- 初一數(shù)學(xué)上冊(cè)有理數(shù)加減混合運(yùn)算練習(xí)題及答案(共100題)
- 《檳榔的危害》課件
- 正畸口腔健康宣教課件
- 人工智能在檢驗(yàn)醫(yī)學(xué)中的應(yīng)用
- DB42T2043-2023既有住宅和社區(qū)適老化改造技術(shù)規(guī)范
- 單位消防安全教育培訓(xùn)記錄表
- 江蘇省工程質(zhì)量安全手冊(cè)實(shí)施細(xì)則房屋建筑工程篇(2022年版)上冊(cè):質(zhì)量分冊(cè)
- 頂板離層儀管理規(guī)定
評(píng)論
0/150
提交評(píng)論