版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
Hadoop數(shù)據(jù)分析平臺趙
博士復(fù)旦大學(xué)
學(xué)院wd
PigHadoop客戶端使用類似于SQL的面向數(shù)據(jù)流的語言Pig
LatinPig
Latin可以完成排序,過濾,求和,聚組,關(guān)聯(lián)等操作,可以支持自定義函數(shù)Pig自動把PigLatin
為Map-Reduce作業(yè)上傳到集群運行,減少用戶編寫Java程序的苦惱三種運行方式:Grunt
s
, 方式,Hadoop流:最簡便的M-RWordcount的例子
bin/hadoop
jarcontrib/streaming/hadoop-0.20.2-streaming.jar
-inputinput
-output
output-mapper
/bin/cat-reducer
/usr/bin/wc注意,命令一定要寫完整的路徑一個案例:生物數(shù)據(jù)庫BLASTBLASTBLAST的Map-Reduce化BLAST比對算法,只涉及獨立的一條基因信息,沒有交叉計算,非常適合M-RBLAST算法用c實現(xiàn),代碼龐大,修改困難權(quán)宜之計可以使用hadoopstream快速實現(xiàn)Hive數(shù)據(jù)倉庫工具??梢园袶adoop下的原始結(jié)構(gòu)化數(shù)據(jù)變成Hive中的表支持一種與SQL幾乎完全
相同的語言HiveQL。除了不支持更新、索引和事務(wù),幾乎SQL的其它特征都能
支持可以看成是從SQL到Map-Reduce的
器提供s
、JDBC/ODBC、Thrift、Web等接口Hive簡介
自
由JeffHammerbacher領(lǐng)導(dǎo)的團隊構(gòu)建在Hadoop上的數(shù)據(jù)倉庫框架設(shè)計目的是讓SQL技能良好,但Java技能較弱的分析師可以查詢海量數(shù)據(jù)2008年
把hive項目貢獻給ApacheHive的組件與體系架構(gòu)用戶接口:sweb等Thrift服務(wù)器,
thrift,元數(shù)據(jù)庫“Derby,Mysql等解析器Hadoop架構(gòu)圖Hive安裝內(nèi)嵌模式:元數(shù)據(jù)保持在內(nèi)嵌的Derby模式,只允許一個會話連接本地獨立模式:在本地安裝Mysql,把元數(shù)據(jù)放到Mysql內(nèi)
模式:元數(shù)據(jù)放置在
的Mysql數(shù)據(jù)庫Hive安裝:內(nèi)嵌模式1.http://a
/hive/hive-0.8.1/hive-0.8.1.tar.gz2.安裝(1)上傳hive安裝包到機器上,使用root用戶登陸:tar
-xvf
hive-0.8.1.tar.gz(2)將解壓的hive分別移動并改名為/usr/local/hiverm
-rf
/usr/local/hive
mv
hive-0.8.1/usr/local/hive內(nèi)嵌模式3.配置hive(1)修改/usr/local/hive/bin/hive-config.sh在文件末尾加入exportJAVA_HOME=/usr/local/jdk
export
HIVE_HOME=/usr/local/hiveexportHADOOP_HOME=/usr/local/hadoop(2)
根據(jù)hive-default.xml
hive-site.xmlcp
/usr/local/hive/conf/hive-default.xml
/usr/local/hive/conf/hive-site.xml(3)配置hive-site.xml,主要配置項如下:hive.metastore.warehouse.dir:(HDFS上的)數(shù)據(jù)hive.exec.scratchdir:(HDFS上的)臨時文件hive.metastore.warehouse.dir默認(rèn)值是/user/hive/warehousehive.exec.scratchdir默認(rèn)值是/tmp/hive-${}內(nèi)嵌模式以上是默認(rèn)值,暫時不改。(4)改變
/usr/local/hive的
所有者為hadoopchown
-R
hadoop:hadoop
/usr/local/hive(5)配置hive的log4j:cp
/usr/loca/hive/conf/hive-perties.template/usr/loca/hive/conf/hive-perties修改/usr/loca/hive/conf/hive-perties將org.apache.hadoop.metrics.jvm.EventCounter改為org.apache.hadoop.log.metrics.EventCounter(6)啟動hive使用hadoop用戶登陸,執(zhí)行/usr/local/hive/bin/hiveHive安裝:獨立模式安裝Mysql并啟動服務(wù)在Mysql中為hive建立賬號,并授予足夠的權(quán)限,例如hive賬號,授予all
privileges用上述賬號登陸mysql,然后創(chuàng)建數(shù)據(jù)庫,比如名叫hive,用于存放hive的元數(shù)據(jù)在本地安裝mysql客戶端配置hive-site.xml文件, 使用本地Mysql數(shù)據(jù)庫,已經(jīng)連接協(xié)議,賬號、口令等把mysql-connector-java-x.x.x.jar下到hive的lib啟動hive能進入s
表示安裝成功Hive安裝:
模式在本地模式的基礎(chǔ)上修改hive-site.xml文件,設(shè)置hive.metastore.local為false,并指向
mysql數(shù)據(jù)庫即可hive-site.xml文件內(nèi)容<property><name>hive.metastore.local</name><value>false</value>
<description>controls
whether
to
connect
to
remove
metastoreserveror
open
a
new
metastore
server
in
Hive
ClientJVM</description></property><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://mysql_server_host:3306/hivedb?createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=latin1</value>
<description>JDBC
connect
string
for
a
JDBCmetastore</description></property>hive-site.xml文件內(nèi)容<property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value><description>Driver
class
name
for
a
JDBC
metastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>mysql_username</value><description>username
to
use
againstmetastore
database</description></property><property><name>javax.jdo.option.ConnectionPassword</name><value>mysql_password</value><description>password
to
use
against
metastore
database</description></property>hive-site.xml文件內(nèi)容<property><name>hive.stats.dbconnectionstring</name><value>jdbc:mysql://mysql_server_host:3306/hive_stats?useUnicode=true&characterEncoding=latin1&user=mysql_username&password=mysql_password&createDatabaseIfNotExist=true</value><description>The
default
connection
string
for
the
database
that
storestemporary
hive
statistics.</description></property><property><name>hive.stats.dbconnectionstring</name><value>jdbc:mysql://mysql_server_host:3306/hive_stats?useUnicode=true&characterEncoding=utf8&user=mysql_username&password=mysql_password&createDatabaseIfNotExist=true</value>
<description>The
default
connection
string
for
the
database
that
storestemporary
hive
statistics.</description></property>hive-site.xml文件內(nèi)容<property><name>hive.stats.dbclass</name><value>jdbc:mysql</value><description>The
defaustatistics.</description></property><property>atabase
that
stores
temporary
hive<name>hive.stats.jdbcdriver</name><value>com.mysql.jdbc.Driver</value>
<description>The
JDBC
driver
for
the
database
that
stores
temporaryhivestatistics.</description></property><property><name>hive.metastore.uris</name><value>thrift://:9083</value></property>Hive
s執(zhí)行HiveQL(大約相當(dāng)于SQL
92標(biāo)準(zhǔn))查看或臨時設(shè)置Hive參數(shù),只對當(dāng)前會話有效創(chuàng)建函數(shù)導(dǎo)入jar包創(chuàng)建表創(chuàng)建表數(shù)據(jù)查詢表連接JDBC/ODBC接口用戶可以像連接傳統(tǒng)關(guān)系數(shù)據(jù)庫一樣使用JDBC或ODBC連接Hive目前還不成熟JDBC的具體連接過程1.使用jdbc的方式連接Hive,首先做的事情就是需要啟動hive的ThriftServer,否則連接hive的時候會報connectionrefused的錯誤。啟動命令如下:hive
--service
hiveserver2.新建java項目,然后將hive/lib下的所有jar包和hadoop的
jar包hadoop-0.20.2-core.jar添加到項目的類路徑上樣板代碼public
static
void
main(String[]
args)
throws
Exception
{//
TODO
Auto-generated
method
stubClass.forName("org.apache.hadoop.hive.jdbc.HiveDriver");String
dropSql="drop
table
pokes";String
createSql="create
table
pokes
(foo
int,bar
string)";String
insertSql="load
data
local
inpath
'/home/zhangxin/hive/kv1.txt'
overwrite
into
tablepokes";String
querySql="select
bar
from
pokes
limit
5";Connectionconnection=Driv
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026福建水投集團漳州區(qū)域水務(wù)公司第一批招聘23人參考考試題庫附答案解析
- 2026年度濟寧市兗州區(qū)事業(yè)單位公開招聘初級綜合類崗位人員備考考試試題附答案解析
- 2026廣東中山市東鳳鎮(zhèn)佛奧幼兒園教職工招聘2人備考考試題庫附答案解析
- 2026黑龍江黑河市康寧醫(yī)院(黑河市精神病人福利院)招聘5人備考考試試題附答案解析
- 種植業(yè)自律生產(chǎn)制度
- 安全生產(chǎn)雙隨機檢查制度
- 紙板生產(chǎn)線安全制度
- 生產(chǎn)數(shù)據(jù)立體化管理制度
- 酒類生產(chǎn)如何管理制度
- 安全生產(chǎn)責(zé)任制抽查制度
- 高中期末家長會
- 2023年度國家社科基金一般項目申請書(語言學(xué))立項成功范本,特珍貴
- 風(fēng)機系統(tǒng)巡檢內(nèi)容及標(biāo)準(zhǔn)
- 新生兒高血糖護理課件
- 熱食類食品制售管理制度
- 五金件外觀檢驗標(biāo)準(zhǔn)
- 香精概論第四章-芳香療法課件
- 電梯安裝調(diào)試工地EHS管理要求和交底
- 車輛考核制度6篇
- JJF 1487-2014超聲波探傷試塊校準(zhǔn)規(guī)范
- GB/T 39253-2020增材制造金屬材料定向能量沉積工藝規(guī)范
評論
0/150
提交評論