- 日時: 2014-12-16 13:30〜17:30
- 場所: 筑波大東京キャンパス文教校舎(茗荷谷)
- 案内: http://oss-tsukuba.org/?page_id=554
- 申込: http://kokucheese.com/event/index/233115/
- まとめ: http://togetter.com/li/758525
一日中、冷たい小雨が降っていた。風も強めで体が冷える。
[2014-12-16 13:31]
理事長挨拶 / 建部修見 
- サポートのためNPO昨年設立
- gfarmファイルシステム
- gfarm2fs
- sambaプラグイン
- zabbixプラグイン
- Pwrake(プレイク) 大規模向け
- gfarmをホームディレクトリとしてautomountする情報などを掲載
[2014-12-16 13:35]
Gfarm2.6の新機能 / 筑波大学 建部修見 
- リリースする予定
- 今朝sourceforge.netのCVSサーバにトラブルがありreadonlyになっててリリースできてない。。。
- 2000年から研究開発している。14年。
- 広域ネットワークで遅延があっても性能が落ちないように工夫。
- 単一障害点がない。(自動ファイル複製、ホットスタンバイMDS)
- ダウンロード数: 15175
- これまで複製の数の指定はできたが、場所も指定できるようになった。
- クライアント透明なフェイルオーバ:アクセスしている最中でもアプリにエラーを返さないようになった。(もっとも工数がかかってる! 異常系3年以上テストした! 自信あるよ!)
- end-to-endのデータ完全性 (確実に書けて、確実に読める、データ化けがない、下のファイルシステムでデータ化けがあっても)
- gfs_pio_sendfile: read/writeじゃなくてsendfile系apiでgfpcopy(並列コピー)が高速化。
- CentOS7対応:起動ファイルがsystemdになったり。
- Linuxカーネルモジュールがつかえるようになった(CentOS6.4で動作確認)
- ファイルシステムノードグループによる複製配置指定機能
- ノードグループの指定: gfnodegroup -s hostname groupname
- 複数属性の指定: gfncopy -S GroupA:2,GroupB:1 directory グループごとの複製数を指定
- 従来: gfncopy -s NUM directory 複製属性の方が優先、Σ複製属性<複製数なら、残りはてきとうに配置
- フェイルオーバ
- すべてのAPIが再接続して処理継続。クライアントにはエラーをかえさない。
- フェイルオーバと書き込みが競合した場合(書いたのに消えるケース)は、lost+found に移動。
- proc Aがファイル更新中(複製あり)にgfmdフェイルオーバ発生
- proc Bが同一ファイルを更新(フェイルオーバ中のためproc Aが更新していることに気づかない)してcloseした。
- end-to-end完全性
- gfsdでチェックサム(md5)を計算してた。(gfarm 2.5.8.5以降) 逐次読み書きのみ。
- ファイル複製のときにチェックサム計算ようにした。
- クライアントライブラリでもチェックサム計算して、ネッーワークエラーもチェック。
- sha256もサポート
- チェックサム計算は連続アクセスか複製時。はじめて計算したときにMDSに登録。
- gfpcopy高速化
- BULKWRITE/BULKREADプロトコル新設。ftpのように連続転送。RTTが大きくても性能がでるように。
- Q: 京大fwは遅いはずだが?
- A: 実測値なので出ているはず。
- 2.6は去年だす予定だったものをend-to-endを入れて遅れた。
- 2.5.8系はバグフィックス中心にサポート
[2014-12-16 14:03]
- Q: チェックサムによる性能低下は?
- A: 測ってないけど、ユーザから文句はでてない、数%も遅くなってないはず。
[2014-12-16 14:05]
WebGfarm: 分散ファイルシステムGfarmのHTTPインターフェース / 筑波大学 鷹津冬将 
- 建部さんのところで研究
- gfarmのインターフェース
- libgfarm (低レベル)
- gfarm2fs (FUSEベース)
- mpiio_gfarm (MPI I/O)
- gfarm_hadoop (ふつうはHDFSをつかうけど)
- gfarm_samba
- NEW: WebGfarm (REST API)
- Apache HTTP serverモジュールとして実装
- Apacheのシェアは37.05%。
- mod_webgfarm: Cで700行ほど。
- Rangeヘッダの処理がめんどくさい。
- RESTゲートウェイとして動作。
- https://github.com/fuyumacha/mod_webgarm
- つかいかた
- httpd.confに書くだけ。
- WebGfarm on ← 有効
- WebGfarmBase /v1/ ←URLのパスを指定 mod_rewriteのrewritebaseとおなじかんじ
- httpd.confに書くだけ。
- GET → read, readdir
- メタデータはヘッダにはいってくる。
- PUT(idempotent) → create,mkdir,write(truncateしてからwrite)
- POST(追記) → write
- DELETE → unlink,rmdir
- ステータス
- 200 OK, 201 Created: 成功
- 404 NotFound: ENOENT
- 403 Forbidden: EPERM
- 307 TEMPORARY_REDIRECT: 複数ノードのとき
- 500 Internal Server Error: 実装できてないものとか
- apacheとgfsdが異なるノードの場合は性能劣化→HTTPリダイレクトさせることで誘導。(ファイルサイズが小さいと無駄が大きいので注意)
- WebGfarmRedirectSSL on
- WebGfarmReadRedirect on
- ...
[2014-12-16 14:34]
- Q: httpユーザとgfarmユーザのマッピングは?
- A: 認証でやろうとおもったが、現在はApache専用ユーザを用意してアクセスする。
[2014-12-16 14:35]
ZabbixによるGfarm障害監視 / SRA 笠原基之 
- 止まらなくても高負荷で使いものにならなくなることともある。
- zabbix
- 監視対象はUNIX
- デザインを意識したUI、多国語対応している。gfarm-zabbixは英語のみorz
- テンプレート: 監視項目のセット (linux OS用のテンプレートとか)
- ホスト: zabbixはホスト単位でしか監視できない。ホスト上でzabbixエージェントを動かす。
- gfmdフェイルオーバ対応で、障害検出して自動フェイルオーバできる。
- CentOS6対応。7は近日対応。
- Gfarm: クライアントにパッチあててるので特定のバージョンじゃないと動かない。
- Zabbix: 1.8と2.2 LTS。
- テンプレート
- gfsdが動いているか
- 認証がとおるか
- syslogになにか出てないか
- スプールの空き
- gfarm代表クライアント
- このクライアントをとおしてGfarmの全ノードの監視をおこなう。zabbixの監視アプローチとはちょっとちがう。
- gfarm一般クライアント
- 認証がとおるかどうかチェック
- gfarm-zabbix 1.x
- 2012年4月に1.0をリリース
- gfsdが20台以上の環境に投入された → アラート多発・master gfmdに負荷
- master gfmdに障害があるとアラートメールの洪水になって問題が把握できなくなる。
- 多数のエージェントがgfarmに問い合わせするのでgfmdの負荷上昇
- gfarm-zabix 2.0
- 2014年10月リリース
- 代表クライアントをもうけることでgfrmdの負荷軽減
- gfmd 4台、gfsd 28台の環境で運用中。スプール 5PB。ユーザ数100。
[2014-12-16 15:10]
- Q: 代表クライアントの障害時は?
- A: フェイルオーバはないが、zabbixサーバ上に置いておけばよい。
[2014-12-16 15:11]
休憩
自販機でココア購入100円。廊下は寒いのですぐに部屋に戻る。
[2014-12-16 15:34]
HPCI共用ストレージの歩み / 理研 原田浩
- http://www.mext.go.jp/a_menu/kaihatu/jouhou/hpci/1307375.htm
- 各大学でアカウントをとって利用していたのを、HPCI事務局で一括管理。シングルサインオン。
- レプリカ数2で運用。1PBくれといったユーザは2PBの割り当てになる。
- 2年運用して1度データ消失があった。
- ストレージ容量は21.5PB。
- 利用は活発。そろそろ枯渇しそう。資源割り当ての見直しを実施。
- 2011/5に東大に納入。Lustre/IBで納入されたのを2012/4にGfarmに改修。
- テープストレージも入れている。
- 2012/5にHPCI共用ストレージのリハーサル。HPCI構成機関からのgfarmマウント。
- IPoverIBで外に見えてる。
- 最初はあまり利用されなかった(1PB)が、初年度後半では研究成果を残す目的で利用されるようになった。
- 京コンピュータからは直接書けない。ログインノードからのみ読み書き。IPリーチャブルじゃないとだめなので。
- 2.7PBくらいつかってる課題が3課題もあって60%くらい占めてる。
- HPCIのヘルプデスクがある。そこでトラブルは一元管理。
- FUSEマウントを推奨。予想以上に使ってくれている。GSI認証にたどりつくところの敷居が高いようだ。
- マニュアルにはgfコマンドも書いてある。
- マウントすることが難しいのではないか? マウントポイントに(マウントする前に)ファイルを書いてしまって(マウントが)EBUSYなってしまうとかあった。京のように複数ログインノードがあると、毎回マウント・アンマウントしなくてはいけなかった。(今はautomounterがあるけど)
- 複数ノード使わないユーザはsshをつかってしまう。GSI認証の普及が課題。
- 2013/11ごろから2014/1にかけて4ユーザ135ユーザでデータ消失。レプリカをつくるまえにデータが消えた。
- xfsをふくむパッチをあてまくって今は安定。
- SATAの信頼性はおもったよりも高い。4800台のうち故障は月1桁台。
- サーバの一斉起動でUPSの容量越えたり障害はヒューマンエラーが多い。ハードやソフトは少ない。
- mdsは冗長化しているがファイルデータはランダム配置なので片側運転ができない状況。
- 国プロでオープンソースはどうなの?
- うまくいっている。
- ベンダー単独ではむつかしいシステム規模。
- HCPI共用ストレージはHPC向けとしては世界最大級(参加組織・容量・実績)。
[2014-12-16 16:27]
- Q: xfsの問題でgfarmデータ消失なら、もっとxfsの事故を調査しては?
- A: 事故のあと、毎週データ整合性のレポートを取るようにしている。
[2014-12-16 16:30]
NICTサイエンスクラウドでのGfarm利活用及び開発事例紹介 / NICT 村田健史 
- JGN
- データ消失を経験してからは、ユーザはフロントエンドのNASをさわる。バックエンドにGfarm。スパコンからは直接Gfarm。
- 観測系がファイル数が多い、シミュレーション系がファイルサイズが大きい。
- サーバは随時追加している(google方式)。
- (水増しできる)ユーザ数で比較するのではなく(ごまかせない)論文数で利用規模を比較しよう。
- ファイルの操作履歴とっている(トレーサビリティ)。
- タイムスタンプサーバをつかって、インテグリティチェックを実装中。コピーが改竄されているかどうかチェックできる。インターネットからの問い合わせも可能。
- ひまわり8号のデータをサイエンスクラウドで受けることになっている。
- 3次元レーダの可視化はMPIだと遊びができちゃうのでpwrakeをつかって計算をつめこむ方が効率がよい。
- HPCスパコン的 ⇔ Many-Task-Computing (MTC)クラウド的
- 4K 900fps:FT-ONE 自動車の衝突解析など 2TBでも10秒しか記録できない。90Gbps。
- 10Gbpsを5本たばねて50Gbpsくらいは出るようになった。
- カメラからのRAWデータを保存しながら計算できるメリット
- GPFS/Lustreのシステムが圧倒的におおい。
[2014-12-16 17:07]
総括 / ベストシステムズ 西克也 
- ベンチャーでお金をほしかったら国からもらう→しかしまきとられてしまう問題。大企業はうまいことやるけど。
- そのなかでGfarmは奇跡的に生きのこった。
- NICTのGfarmはちょこちょこ増築していった。データ消失のときにはネガティブキャンペーンがひどかった。大きなお金はつかわないようにしている。
- オープンハウスのときにはタイムスタンプとトレーサビリティが人気だった。
- REST API: HEADでメタデータをとれる。今後S3互換のものもつくっていきたい。
[2014-12-16 17:24]
懇親会
- くいもの屋 わん 九州自慢 茗荷谷店 にて 18:00〜20:00
二次会
- 白木屋 茗荷谷駅前店 20:00〜22:00