Hadoop 參數設定 – hdfs-site.xml

现在的位置: 首页 > 综合 > 正文

Hadoop 參數設定 – hdfs-site.xml

2013年10月30日 ⁄ 综合 ⁄ 共 5246字 ⁄ 字号小中大 ⁄ 评论关闭

本篇是介紹 hdfs-site.xml 的相關設定及說明

NameNode
- dfs.name.dir
  預設值 : ${hadoop.tmp.dir}/dfs/name
  說明 : 指定本機上存取 fsimage 及 editlog 的目錄，這個目錄非常的重要，如果損毀就無法存取 HDFS 的資料了，所以不建議放在 ${hadoop.tmp.dir} 目錄下。更好的做法是用 “," 指定多個目錄，Hadoop 會複製 fsimage 的資料到所有的目錄下，如果其中一個目錄損毀 Hadoop 會自動使用正常的目錄並把對的資料再複製到損毀的目錄下。
  指定多個目錄後在 HDFS portal 會看到多個目錄，正常狀況會是 Active，當損毀時會變成 Inactive
- dfs.namenode.logging.level
  預設值 : info
  說明 : 這個值是指定 namenode 的 logging level。其他的值有
  - dir : 看 namenode server 的變化
  - block : 看 blocks 新增刪除或 replication 的變化
  - all : 顯示全部的 log
  除非是為了 debug，不然不建議用其他的等級，會造成 Hadoop 的 log 檔案太大。
- dfs.http.address
  預設值 : 0.0.0.0:50070
  說明 : Web UI 用的 port。除非是為了 security 的考量才會需要改 binding 的 IP/Port，不然不需要改這個值。
- dfs.https.enable
  預設值 : false
  說明 : namenode 預設並沒有啟動 https，在設定 https 的 IP/Port 之前要先確定這個值設為 true。
- dfs.https.address
  預設值 : 0.0.0.0:50470
  說明 : Web UI 用的 port，用 https protocol。除非是為了 security 的考量才會需要改 binding 的 IP/Port，不然不需要改這個值。
- dfs.replication
  預設值 : 3
  說明 : 預設 blocks 的備份數量。如果不需要太多的備份或 cluster 比較小，可以改為 2。Client 端也可以根據使用狀況自行更改這個值。只是如果所設的值小於 dfs.replication，在執行 hadoop fsck 指令時會看到這個 block 被標示為 Under-Replicated Blocks。至於備份的機制可以參考 Hadoop
  參數設定 – core-site.xml 裡的 topology.script.file.name 說明。
- dfs.replication.min
  預設值 : 1
  說明 : 不需要特別改這個值。因為並不是所有在 HDFS 上的資料都需要有 3 份備份，這可以由 client 來決定。如果對資料備份非常敏感可以把這個值設為跟 dfs.replication 一樣。
- dfs.replication.max
  預設值 : 512
  說明 : 因為 client 可以自行決定每個 block 要有幾份備份，為了怕誤操作導致備份過多而影響整個 cluster 的使用量，建議給一個小一點的值，例如 10。
- dfs.block.size
  預設值 : 67108864(byte)
  說明 : 預設每個 block 是 64MB。如果確定存取的檔案都很大可以改為 134217728(128MB)。Client 也可自行決定要使用的 block size 而不需要更改整個 cluster 的設定。
  
  1 hadoop fs -D dfs.block.size=134217728 -put local_name remote_location
- dfs.safemode.threshold.pct
  預設值 : 0.999f
  說明 : Hadoop 在啟動時預設會進入 safe mode，也就是唯讀模式，這時是不能寫入資料的。只有當 99.9% 的 blocks 達到最小的 dfs.replication.min 數量(預設是 1)才會離開 safe mode。在 dfs.replication.min 設的比較大或 data nodes 數量較多時會等比較久。
  下面討論兩個極端的狀況
  - 設為大於 1 : 表示永遠不會離開 safe mode，這在當 Hadoop cluster 需要做 migration 時很好用，即可繼續提供讀取服務，又可防止使用者寫入資料導至 migration 不完全。
  - 設為 0 : 表示不會啟動 safe mode。在 local 測試時會非常的方便，不然常常需要等一段時間或直接執行
    
    1 hadoop dfsadmin -safemode leave
    
    才能離開 safe mode。
- dfs.hosts
  預設值 : N/A
  說明 : 預設不指定的狀況下，只要 datanodes 在 hdfs-site.xml 指定 namenode，在 mapred-site.xml 指定 jobtracker 的位址就可以加入這個 cluster。但是為了安全的考量，系統管理者可能要決定只有特定的 nodes 可以加入。此值是指定一個檔案位置，名字可自取，例如 : /etc/hadoop/conf/dfs-hosts，並列出所有可以連結 namenode 的機器清單。不在清單上的機器是沒有權限的。在 mapred-site.xml 裡也有個類似的值
  mapred.hosts 來指定可以連 jobtracker 的機器清單。
- dfs.hosts.exclude
  預設值 : N/A
  說明 : 當需要汰換或移除多台機器時會用到。理論上一台機器無預期的當機，Hadoop 會偵測並把該機器上的 blocks 搬到其他的 datanodes 上，並不需要系統管理員做額外的動作。但是停掉多台機器的情況下是有風險的，假設備份個數為 3 並停掉三台機器，則有一定的機率某些 blocks 正好只在這三台機器上，移掉之後資料也救不回來了。正確的做法是先告訴 namenode 這些機器將被移除，讓 namenode 把上面的資料全部備份到其他的 datanodes 上，再進行停機。跟 dfs.hosts 一樣，指定一個檔案位置，名字可自取，例如
  : /etc/hadoop/conf/dfs-exclude-hosts，並列出所有需汰換的機器清單。設定後要執行以下的指令通知 namenode 做搬資料的動作。
  
  1 hadoop dfsadmin -refreshNodes
  
  進度可以在 web UI 上看到，當該 datanodes 的狀態顯示為 “Decommissioned" 表示可以安全的移除機器了。
- dfs.support.append
  預設值 : false
  說明 : 指定是否可在 HDFS 原有檔案內容之後加入新資料。看 hfds-default.xml 裡對這個參數的說明是有 bug “This is currently set to false
  because there are bugs in the “append code" and is not supported in any prodction cluster."。但是 HBase Configuration 裡另外說明了以上的資訊是過時的，在
  Cloudera 及 MapR 的版本都已經加入了這個功能。如果有使用 HBase，為了避免資料遺失，請把這個值設為 true。
- dfs.namenode.handler.count
  預設值 : 10
  說明 : 設定 namenode server threads 的數量，這些 threads 會用 RPC 跟其他的 datanodes 溝通。當 datanodes 數量太多時會發現很容易出現 RPC timeout，解決方法是提升網路速度或調高這個值，但要注意的是 thread 數量多也表示 namenode 吃的記憶體也隨著增加。在 Hadoop
  Cluster Setup 這篇文章裡的提到 900 個 nodes 只需要設成 40，但是在個人經驗裡是 100 個 nodes 配 100 個 threads。
- dfs.namenode.keytab.file
  預設值 : N/A
  說明 : 當 core-site.xml 裡的 hadoop.security.authentication 參數設為 “kerberos" 時就要指定 keytab 的位置。例如 : /etc/hadoop/conf/hdfs.keytab
- dfs.namenode.kerberos.principal
  預設值 : N/A
  說明 : 指定 kerberos principal 名稱，這在產生 keytab 檔案時會指定，一般常用的命名規則是 hdfs/_HOST@KERBEROS-REALM.COM
Secondary NameNode
- dfs.secondary.namenode.keytab.file
  預設值 : N/A
  說明 : 當 core-site.xml 裡的 hadoop.security.authentication 參數設為 “kerberos" 時就要指定 keytab 的位置。例如 : /etc/hadoop/conf/hdfs.keytab
- dfs.secondary.namenode.kerberos.principal
  預設值 : N/A
  說明 : 指定 kerberos principal 名稱，這在產生 keytab 檔案時會指定，一般常用的命名規則是 hdfs/_HOST@KERBEROS-REALM.COM

DataNode

dfs.data.dir
預設值 : ${hadoop.tmp.dir}/dfs/data
說明 : 指定本機上放 data nodes 資料的目錄，如果要指定多個目錄(volumes) 可用 “," 分隔。在 production 環境會指定多個，並設定 dfs.datanode.failed.volumes.tolerated。一般來說，多個目錄會對應到系統上不同的 partitions，不同的硬碟。設定多個可加快存取速度，及避免硬碟壞掉需要抽換用。
dfs.datanode.address
預設值 : 0.0.0.0:50010
說明 : datanode service 聽的 port，用來傳輸資料用。除非是為了 security 的考量才會需要改 binding 的 IP/Port，不然不需要改這個值。
dfs.datanode.http.address
預設值 : 0.0.0.0:50075
說明 : Web UI 用的 port。除非是為了 security 的考量才會需要改 binding 的 IP/Port，不然不需要改這個值。
dfs.datanode.handler.count
預設值 : 3
說明 : 指定 data node 上用的 thread 數量。在 production 的環境建議調到 100。
dfs.datanode.max.xcievers
預設值 : 256
說明 : 這個值是指定 datanode 可同時處理的最大檔案數量。但是預設值很小，當多個或一個大型程式存取時會發生下面的錯誤訊息

1 10/12/08 20:10:31 INFO hdfs.DFSClient: Could not obtain block blk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException:

2 No live nodes contain current block. Will get new block locations from namenode and retry...

以使用 HBase 為例，建議值是 4096。如果還有多個程式存取可再乘 2。

dfs.datanode.failed.volumes.tolerated
預設值 : 0
說明 : 這個值要對應 dfs.data.dir 參數設定的目錄個數，0 表示只要有任何一個 volume 壞掉 data nodes 就會被強制停掉。假設掛載 n 個 volumns，Hadoop 會確定 n – dfs.datanode.failed.volumes.tolerated 不能小於 0。設定錯誤在啟動 data node 會看到下面的訊息

01

2011-08-27

 11:53:03,785 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.util.DiskChecker$DiskErrorException: Invalid value for validVolsRequired : -1 ,  Current valid volumes: 1

02

       at

 org.apache.hadoop.hdfs.server.datanode.FSDataset.<init>(FSDataset.java:906)

03

       at

 org.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:373)

04

       at

 org.apache.hadoop.hdfs.server.datanode.DataNode.<init>(DataNode.java:282)

05

       at

 org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:1544)

				返回
			
			【上篇】Erlang orddict
【下篇】Cloud Foundry 入门教程[汇总]			
			
					作者: beyondwinner
				
				该日志由 beyondwinner 于10年前发表在综合分类下，最后更新于 2013年10月30日.
转载请注明: Hadoop 參數設定 – hdfs-site.xml | 学步园 +复制链接

抱歉!评论已关闭.
书签
	招生
白云飘飘网
青岛房产网

最新文章New
								网站优化可以收获更好的收益
								robots在网页开发中起到了一定的
								SEO引擎优化可以更好的方便搜索
								Dreamweaver教程很实用，值得学习
								很多的photoshop教程值得学习，你
								编程语言很重要，特别是对于计算
								数据库非常常见，也非常实用！
								H5指的是第5代html，不同于传统企
								HTML是什么，该怎么制作？
							
本站推荐

				为什么PHP的吉祥物是一头大象

				作业的提交和监控（二）

				作业的提交和监控（一）

				Boost – Function 分析

				奇技淫巧 – C/C++ 宏自身

				模板的 SFINAE 原则

				Octopress 和 Git 的结合

				Electric-fence 介绍

web前端
数据库
编程语言
搜索技术
关于本站

	返回首页

	Copyright © 2013-2018 学步园  保留所有权利.

	软文销售 QQ客服：2265327166 （其他合作也可洽谈）
		必威体育
必威电竞