2015年4月11日 星期六

0411 Hadoop 基礎


基本介紹


1. 安裝cloudera VM檔 虛擬環境

2. 

※ HDFS是什麼? 
Ans: HDFS 是 Hadoop Distributed File System 的縮寫, 分散式系統,要建好,沒建好就會變成數十台工作環境只有一台在工作
    
※ MapReduce是什麼?   
Ans: 運算分散式系統資料本上要解決的問題有兩個,一個是儲存,一個是計算。
運作: Mapper 會拉local端的資料找資料,每次註記1 最後才加總。(也可以下程式讓它每次都加總,之後會提到)
    
MapReduce Execution Overview ?

3. HBASE = Hadoop DataBase 分散式系統資料庫:

    重點:追求可靠性 穩定性 

4. 常用指令 ls cd  <Linux 指令須熟悉>


Hadoop Common

Hadoop Distributed File System (HDFS)
Hadoop YARN v2
Hadoop MapReduce  有跑進資料兩次 效能比較慢 ,但不會一斷電資料就全部消失 < 分散式系統 >

















巨量資料

當資料量大於電腦可以負荷時,


Scale up → 成本高,有上限的機數


Scale out→ 可以擴充式,用同樣規格的電腦可以同時處理 = Hadoop的環境



補充:


RDB & HDFS 差異? 誰比較快?  <面試問題>

RDB→ 基本上有一致性和完整性。存取&查詢比較快,無須透過網路可以在本機查。


HDFS→ 則是分散給N台電腦沒有一致性和完整性。分散,在查詢上比較慢,需要連線且有網路連線問題,穩定度高


RDB 比 Hadoop早出現且發展多年,所以整體系統比Hadoop完善且便利。


特定情況會是HDFS 比RDB優秀 (之後會提到)

沒有資料源,公司資料量大小可以決定資料分析師在公司的重要性



***********************************************************************


※ 指令

process 程序

ps:show 程序  


ps -al:show 程序     減號單一字元   a = all , l = list

                                  
ps --help:利用 help 查詢 ps 內建指令的說明   減號單一字詞

man ps  查詢 ps 指令的輔助說明    ( 按q離開介面 )

查詢g 開頭的字 grep -n 'g'

相關資料來源:http://linux.vbird.org/linux_basic/0330regularex/0330regularex-fc4.php


start hbase.sh  執行

hbase


shell



# 建立table
create ' test ','cf '
Table - test
select * from test X
scan ' test '


mapper

key   value?
family: Quality  time:  ,value?
http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm

***********************************************************************


重點: 後兩張簡報  http://www.syscom.com.tw/ePaper_Content_EPArticledetail.aspx?id=154&EPID=169&j=4&HeaderName=%E7%A0%94%E7%99%BC%E6%96%B0%E8%A6%96%E7%95%8C

master  


Google chunkserver (等同於hadoop的dataNode)


溫習一下: 霍夫曼演算法 <壓縮演算法>  建樹



***********************************************************************

HDFS ↓
sqoop - h 10.120.28.13


eth1 網卡

Bridge<橋接介面卡> & NAT

不要用vm需你出來的網卡,要用實體本機的網卡去run 才能讓分享器抓到你的IP位址

DHCP 動態分配

cmd - ipconfig <IPv4 address>
ping 10.120.28.13
TTL <255> 每送一次封包就少1,送255次之後就自動死掉 網路就掛囉XD

netstat - plnt
ifconfig
開啟pietty 輸入cloudera <帳號密碼>

vi  filename.txt
vim filename.txt
wq filename.txt


複習linux 指令

/bin & /sbin 差異
/bin
系統有很多放置執行檔的目錄,但/bin比較特殊。因為/bin放置的是在單人維護模式下還能夠被操作的指令。 在/bin底下的指令可以被root與一般帳號所使用,

/sbin
Linux有非常多指令是用來設定系統環境的,這些指令只有root才能夠利用來『設定』系統,其他使用者最多只能用來『查詢』而已。 


PATH  <路徑放在越前面越優先執行>

=========================================

hadoop enter : 給出hadoop指令
hadoop jar : 

hadoop = filesystem
和linux

hadoop dfs -ls
hadoop fs -ls
hadoop fs -ls /
hadoop fs
hadoop fs -ls /user
hadoop fs -ls /user/cloudera

建資料夾
刪除資料夾

ls
echo aaa
echo aaa > tmp.txtha
cat tmp.txt
hadoop fs -put tmp.txt /user/cloudera
hadoop fs -ls
hadoop fs -cat tmp.txt




markdown 製作說明相關文件的好幫手
http://markdown.tw/




觀念和操作是兩件事情 >0<


參考資訊:
http://www.dotblogs.com.tw/rickyteng/archive/2012/12/11/85556.aspx
http://www.haredb.com/HareDB/src_tw/About.aspx?l=4
http://www.pcnet.idv.tw/pcnet/linux/linux_command.htm
http://contest.trendmicro.com/2014/cn/material/hbase.pdf
http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm sqoop
https://www.google.com.tw/search?sourceid=chrome-psyapi2&ion=1&ie=UTF-8&q=sqoop%20%E6%95%99%E5%AD%B8&oq=sqoop%20&aqs=chrome.1.69i57j0l5.6644j0j7&bav=on.2,or.r_cp.&bvm=bv.90491159,d.dGc&biw=1280&bih=660&dpr=1&ech=1&psi=A7UoVY_xCpTW8gXb_YH4DQ.1428731137827.3&ei=A7UoVY_xCpTW8gXb_YH4DQ&emsg=NCSR&noj=1

沒有留言:

張貼留言