「Apache Hadoop」の版間の差分

削除された内容 追加された内容
m ボット: 言語間リンク 18 件をウィキデータ上の (d:Q29120 に転記)
Idios (会話 | 投稿記録)
m アーキテクチャセクションの整理
52行目:
データの複製を3回行うことは高コストである。コスト軽減のため、HDFSの最近のバージョンでは[[:en:Erasure Code|Erasure符号]]をサポートし、同じファイルの複数のブロックを結合しパリティブロックを生成している。HDFSではこのパリティブロックを非同期で生成することにより、複製生成数を3から2に減らしている。これにより、必要とされる物理ストレージ領域が3倍から約2.2倍に減少しているとの報告がある。
 
=== ジョブトラッカとタスクトラッカ: map/reduceエンジン ===
 
ファイルシステムの上に[[MapReduce]]エンジンが動作する。MapReduceエンジンはひとつの''ジョブ・トラッカー''を持ち、クライアント・アプリケーションはこのジョブ・トラッカーに向けてmap/reduceジョブを投入する。ジョブが投入されると、ジョブ・トラッカーはクラスタ中の利用可能な''タスク・トラッカー''に仕事を依頼する。この時、できるだけデータに近くで仕事が行われるように努力を払う。Rack awareなファイルシステムにより、ジョブ・トラッカーはどのノードがデータを保持しているか、そしてどのマシンが近くにあるかを知ることができる。これによりメイン・バックボーン・ネットワークの通信トラフィックを抑える。タスク・トラッカーが落ちるかタイムアウトすると、その部分のジョブは再スケジュールされる。ジョブ・トラッカーが落ちると、実行中の仕事は失われる。
62行目:
* あるタスク・トラッカーがとても遅い場合、特にジョブの終りでは他のすべてが1つの遅いタスクの待ちに入り、全体のmap/reduce操作が遅くなってしまう。しかし、投機的実行を用いると1つのタスクを複数のスレーブ・ノードで実行することができる。
 
=== 他のアプリケーション ===
 
<!--