NTTデータのHadoop報告書がすごいと話題に

更新日：2017年8月16日

NTTデータのHadoop報告書がすごいと話題になっています。

その中でも、一番まとまっているサイトがこちらです。
http://d.hatena.ne.jp/shiumachi/20100928/1285673951

以下、上記URLから本文を引用して紹介します。

今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。

そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。

Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。

http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf

「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」というタイトルもいかついですが、その分量たるや、なんと375ページ。

その量でさえ、内容に比べれば大したことではありません。

とにかく内容が濃いです。

Hadoopの入門書や入門ページには書かれてないような構築・運用・チューニングの話が盛りだくさんなのです。

まず、2章では渋滞解析アプリケーションの開発事例が紹介されています。

車や携帯からのGPS情報を集積して渋滞情報を解析するシステムの事例です。クラウドマガジンVol.2の特集4に全く同じ話が書かれていたので読んだ方も多いかと思います*1。

題材としても十分面白いのですが、この章ではデータの収集方法・解析方法の説明から、MapReduce処理の設計を丁寧に解説し、さらに Mapper, Reducer だけでなく Comparator などの必要なソースコードの全てを載せて解説しています。

ここまで詳しく書かかれた事例はそうそうないです。

3章以降は読まなくても、2章だけでは読んでおくといいと思います。

とはいえ、すごいのは3章からです。まだ私もざっとしか読んでいませんが、すごいと思った箇所を列挙していきます。

異なるスペックのサーバ(なんと5種類)でクラスタを組む際の構築・運用・チューニング(3章、9章)

可用性検証(4章、10章)

障害発生時の影響範囲が部位ごとに一覧になっている。これだけでもすごいが、L3スイッチ(ラック間スイッチ)障害のレベルまできちんと検証してる

高可用性構成(4章、10章)

ソフトウェアFTのkemariを使って、ネームノードをフェイルオーバさせたときのセーフモード状態を回避し、1秒で切り替えている

シナリオ(6章)

サービス開始(サーバ3台)からサービスを徐々に拡大し、サーバ93台構成に拡張するまでどういう問題がありどう対処していくかをテストシナリオとして解説している

Hadoop関係なくこんな資料みたことない

プログラミング(8章)

開発にあたり、何を設計し何を実装すべきかが細かく書かれている

Pig/Hiveの概要だけでなく、どういう場面でPig/Hiveを使うべきかも書かれている

外部データ(文書中では静的データ)の参照先を選択する際の比較表がある

ローカルディスク、memcached、RDBMS、HBase/HyperTable、MapReduceアプリケーション

チューニング(3章、9章)

パラメータを決定する手順(3章)

少量のデータを用いる場合と大規模データを用いる場合の両方を使ってパラメータを決定する(9章)

mapやreduceなどのプロセスが持つメモリの内訳が図式化されている(9章)

IOネック、CPUネックそれぞれの性能測定とパラメータチューニングの指針(9章)

MapReduce処理時間見積もり式(3章、9章)

運用(11章)

想定している運用レベルがやたら具体的

「24h365d稼働ただし不定期メンテ時間あり、保守は日中のみ対応、ベンダ保守は翌日以降対応」というケースを想定して書かれているらしい

puppetを使った構成管理

自動構築(12章)

kickstart+puppetやプロプライエタリ製品を含む3種類の実現方法で機能比較している

サーバの命名規則についての指針

なんと運用規約についての指針まである

もちろんこの章もサーバスペックが均一でないことを考慮している

監視(13章)

サーバのどの部分を可視化すべきかについて細かく書いてある

Gangliaのグラフが見にくいからと、それをカスタマイズする方法まで書かれている。ちなみに今まで言及はしなかったがGangliaの導入手順ももちろん書かれている

これでも全然書き足りないぐらいですね。とにかく分量がものすごいです。

ものすごいお金がかかってるなと思ったと同時に、なんとなく血と汗と涙の匂いがただよってくる感じがしました。実際の案件かなりこなしてないと書けない気がします。運用規約の話なんて頭だけじゃ絶対思いつかないですよ。

この報告書は、Hadoop本の次に読む2冊目のドキュメントとして非常にいいんじゃないかなと思いました。入門書としては全く不向きだと思いますけど。いきなりこれ読まされたら「こんなん作れるか！」って投げ出したり、「こんな大規模構成関係ないし」ってそっぽ向かれそうです。

まだざっとしか読んでませんので、これからじっくり読むことにします。

関連記事

Hadoopリンクまとめ(1) - 科学と非科学の迷宮

勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

第1回MapReduce本読書会 - 科学と非科学の迷宮

comment コメントをキャンセル

[大阪開催] ボードゲームで成功の思考「7つの習慣」を身につけよう！ 2019年04月28日(日)14:00～16:30

■ イベントの参加申し込みはこちらからお願いいたします。 https://panasonic.co.jp/center/osaka/event/all/2019/03/post-2277.html ■ ...

クラウドで変わる産業構造

「クラウドで変わる産業構造」という記事がわかりやすいのでご紹介します。 http://blogs.itmedia.co.jp/business20/2010/08/post-512f.html 以下、 ...

eneloopがリニューアル！なんと既存の1.5倍も寿命が延びた！

三洋電機株式会社は、
“くり返し使うライフスタイル”を提案する充電池｢ｅｎｅｌｏｏｐ（エネループ）｣の単３形・単４形において、
業界Ｎｏ．１※２のくり返し使用回数｢約１５００回※３｣を実現した新商品を、
発売５年目となる１１月１４日に発売します。

三洋電機株式会社は、

“くり返し使うライフスタイル”を提案する充電池｢ｅｎｅｌｏｏｐ（エネループ）｣の単３形・単４形において、

業界Ｎｏ．１※２のくり返し使用回数｢約１５００回※３｣を実現した新商品を、

発売５年目となる１１月１４日に発売します。

「ｅｎｅｌｏｏｐ」は、２００５年１１月１４日の発売以来、
｢約１０００回※３くり返し使える｣、
あらかじめ充電済なので「買ってすぐ使える｣利便性に対して高い評価を頂いています。

「ｅｎｅｌｏｏｐ」は、２００５年１１月１４日の発売以来、

｢約１０００回※３くり返し使える｣、

あらかじめ充電済なので「買ってすぐ使える｣利便性に対して高い評価を頂いています。

この度、新開発の技術を投入し、業界Ｎｏ．１※２のくり返し使用回数　約１５００回※３を実現しました。
さらに、工場からの出荷時の充電に「グリーン電力証書」による太陽エネルギーを利用※１し、
“ｅｎｅｒｇｙ（エネルギー）”の“ｌｏｏｐ（循環）”というコンセプトも進化させています。

この度、新開発の技術を投入し、業界Ｎｏ．１※２のくり返し使用回数　約１５００回※３を実現しました。

さらに、工場からの出荷時の充電に「グリーン電力証書」による太陽エネルギーを利用※１し、

“ｅｎｅｒｇｙ（エネルギー）”の“ｌｏｏｐ（循環）”というコンセプトも進化させています。

[ ...

枠にとらわれずに考える（1問目）

「達人プログラマー」p217より抜粋。問題以下の点すべてを、「3本」の「一筆書き直線」で結び、最初の地点に戻ってくるようなことができるでしょうか？ [crayon-69c9fccc92017216 ...

[T2-202] TFS ではじめるエンタープライズ開発入門

日時 2009/08/27（木）13:40-14:50 概要

昨今、開発現場では以前にも増して「テストや品質管理が重要」と言われるようになりました。
しかし、数値ベースできちんとプロジェクト管理や品質管理ができていると言える開発チームは
なかなか少ないのではないでしょうか。
圧力鍋を買えばすぐにおいしい料理が作れるようになるわけではないのと同様に、
そもそもエンタープライズ開発とは何なのか、ホビープログラミングとは何が違うのかを理解しなければ、
高価なツールを購入しても宝の持ち腐れになってしまいます。
 
本セッションでは、あえてツールの細かい機能には触れずに、
エンタープライズ開発における開発やテストの基本的な考え方の部分を整理し、
今、我々が取り組まなければならない課題は何なのかを考えてみたいと思います。
 
1. サンデー プログラミングとエンタープライズ開発の違い
2. ビルド システムの重要性
3. 開発チームの成熟度レベル
4. 日本の開発プロジェクトへの適用問題
5. Dev 10 に向けて

昨今、開発現場では以前にも増して「テストや品質管理が重要」と言われるようになりました。

しかし、数値ベースできちんとプロジェクト管理や品質管理ができていると言える開発チームは

なかなか少ないのではないでしょうか。

圧力鍋を買えばすぐにおいしい料理が作れるようになるわけではないのと同様に、

そもそもエンタープライズ開発とは何なのか、ホビープログラミングとは何が違うのかを理解しなければ、

高価なツールを購入しても宝の持ち腐れになってしまいます。

本セッションでは、あえてツールの細かい機能には触れずに、

エンタープライズ開発における開発やテストの基本的な考え方の部分を整理し、

今、我々が取り組まなければならない課題は何なのかを考えてみたいと思います。

1. サンデープログラミングとエンタープライズ開発の違い

2. ビルドシステムの重要性

3. 開発チームの成熟度レベル

4. 日本の開発プロジェクトへの適用問題

5. Dev 10 に向けて

スピーカー [crayon-69c9fccc92368635780697 ...

PREV: アプリケーションをクラウドに移行するためのヒント
NEXT: 「Java の Microsoft Azure クラウドへの小さな一歩」という記事が公開されています。

NTTデータのHadoop報告書がすごいと話題に

関連記事

共有:

関連