基本介紹
1. 安裝cloudera VM檔 虛擬環境
2.
※ HDFS是什麼?
Ans: HDFS 是 Hadoop Distributed File System 的縮寫, 分散式系統,要建好,沒建好就會變成數十台工作環境只有一台在工作
※ MapReduce是什麼?
Ans: 運算分散式系統資料,本上要解決的問題有兩個,一個是儲存,一個是計算。
運作: Mapper 會拉local端的資料找資料,每次註記1 最後才加總。(也可以下程式讓它每次都加總,之後會提到)
MapReduce Execution Overview ?
3. HBASE = Hadoop DataBase 分散式系統資料庫:
重點:追求可靠性 穩定性
4. 常用指令 ls cd <Linux 指令須熟悉>
Hadoop Common
Hadoop Distributed File System (HDFS)
Hadoop YARN v2
Hadoop MapReduce 有跑進資料兩次 效能比較慢 ,但不會一斷電資料就全部消失 < 分散式系統 >
巨量資料
當資料量大於電腦可以負荷時,
Scale up → 成本高,有上限的機數
Scale out→ 可以擴充式,用同樣規格的電腦可以同時處理 = Hadoop的環境
補充:
RDB & HDFS 差異? 誰比較快? <面試問題>
RDB→ 基本上有一致性和完整性。存取&查詢比較快,無須透過網路可以在本機查。
HDFS→ 則是分散給N台電腦沒有一致性和完整性。分散,在查詢上比較慢,需要連線且有網路連線問題,穩定度高
RDB 比 Hadoop早出現且發展多年,所以整體系統比Hadoop完善且便利。
特定情況會是HDFS 比RDB優秀 (之後會提到)
沒有資料源,公司資料量大小可以決定資料分析師在公司的重要性
***********************************************************************
※ 指令
process 程序
ps:show 程序
ps -al:show 程序 減號單一字元 a = all , l = list
ps --help:利用 help 查詢 ps 內建指令的說明 減號單一字詞
man ps : 查詢 ps 指令的輔助說明 ( 按q離開介面 )
查詢g 開頭的字 grep -n 'g'
相關資料來源:http://linux.vbird.org/linux_basic/0330regularex/0330regularex-fc4.php
start hbase.sh 執行
hbase
shell
# 建立table
create ' test ','cf '
Table - test
select * from test X
scan ' test '
mapper
key value?
family: Quality time: ,value?
http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm
***********************************************************************
重點: 後兩張簡報 http://www.syscom.com.tw/ePaper_Content_EPArticledetail.aspx?id=154&EPID=169&j=4&HeaderName=%E7%A0%94%E7%99%BC%E6%96%B0%E8%A6%96%E7%95%8C
master
Google chunkserver (等同於hadoop的dataNode)
溫習一下: 霍夫曼演算法 <壓縮演算法> 建樹
***********************************************************************
HDFS ↓
sqoop - h 10.120.28.13
eth1 網卡
Bridge<橋接介面卡> & NAT
不要用vm需你出來的網卡,要用實體本機的網卡去run 才能讓分享器抓到你的IP位址
DHCP 動態分配
cmd - ipconfig <IPv4 address>
ping 10.120.28.13
TTL <255> 每送一次封包就少1,送255次之後就自動死掉 網路就掛囉XD
netstat - plnt
ifconfig
開啟pietty 輸入cloudera <帳號密碼>
vi filename.txt
vim filename.txt
wq filename.txt
複習linux 指令
/bin & /sbin 差異
/bin
系統有很多放置執行檔的目錄,但/bin比較特殊。因為/bin放置的是在單人維護模式下還能夠被操作的指令。 在/bin底下的指令可以被root與一般帳號所使用,
/sbin
Linux有非常多指令是用來設定系統環境的,這些指令只有root才能夠利用來『設定』系統,其他使用者最多只能用來『查詢』而已。
PATH <路徑放在越前面越優先執行>
=========================================
hadoop enter : 給出hadoop指令
hadoop jar :
hadoop = filesystem
和linux
hadoop dfs -ls
hadoop fs -ls
hadoop fs -ls /
hadoop fs
hadoop fs -ls /user
hadoop fs -ls /user/cloudera
建資料夾
刪除資料夾
ls
echo aaa
echo aaa > tmp.txtha
cat tmp.txt
hadoop fs -put tmp.txt /user/cloudera
hadoop fs -ls
hadoop fs -cat tmp.txt
markdown 製作說明相關文件的好幫手
http://markdown.tw/
觀念和操作是兩件事情 >0<
參考資訊:
http://www.dotblogs.com.tw/rickyteng/archive/2012/12/11/85556.aspx
http://www.haredb.com/HareDB/src_tw/About.aspx?l=4
http://www.pcnet.idv.tw/pcnet/linux/linux_command.htm
http://contest.trendmicro.com/2014/cn/material/hbase.pdf
http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm sqoop
https://www.google.com.tw/search?sourceid=chrome-psyapi2&ion=1&ie=UTF-8&q=sqoop%20%E6%95%99%E5%AD%B8&oq=sqoop%20&aqs=chrome.1.69i57j0l5.6644j0j7&bav=on.2,or.r_cp.&bvm=bv.90491159,d.dGc&biw=1280&bih=660&dpr=1&ech=1&psi=A7UoVY_xCpTW8gXb_YH4DQ.1428731137827.3&ei=A7UoVY_xCpTW8gXb_YH4DQ&emsg=NCSR&noj=1
http://www.pcnet.idv.tw/pcnet/linux/linux_command.htm
http://contest.trendmicro.com/2014/cn/material/hbase.pdf
http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm sqoop
https://www.google.com.tw/search?sourceid=chrome-psyapi2&ion=1&ie=UTF-8&q=sqoop%20%E6%95%99%E5%AD%B8&oq=sqoop%20&aqs=chrome.1.69i57j0l5.6644j0j7&bav=on.2,or.r_cp.&bvm=bv.90491159,d.dGc&biw=1280&bih=660&dpr=1&ech=1&psi=A7UoVY_xCpTW8gXb_YH4DQ.1428731137827.3&ei=A7UoVY_xCpTW8gXb_YH4DQ&emsg=NCSR&noj=1
沒有留言:
張貼留言