_1250615x_1250617_1250618_1250619_1250620_1250621

一日中、冷たい小雨が降っていた。風も強めで体が冷える。

[2014-12-16 13:31]

理事長挨拶 / 建部修見 _1250622

  • サポートのためNPO昨年設立
  • gfarmファイルシステム
  • gfarm2fs
  • sambaプラグイン
  • zabbixプラグイン
  • Pwrake(プレイク) 大規模向け
  • gfarmをホームディレクトリとしてautomountする情報などを掲載

[2014-12-16 13:35]

Gfarm2.6の新機能 / 筑波大学 建部修見 _1250624

  • リリースする予定
  • 今朝sourceforge.netのCVSサーバにトラブルがありreadonlyになっててリリースできてない。。。
  • 2000年から研究開発している。14年。
  • 広域ネットワークで遅延があっても性能が落ちないように工夫。
  • 単一障害点がない。(自動ファイル複製、ホットスタンバイMDS)
  • ダウンロード数: 15175
  • これまで複製の数の指定はできたが、場所も指定できるようになった。
  • クライアント透明なフェイルオーバ:アクセスしている最中でもアプリにエラーを返さないようになった。(もっとも工数がかかってる! 異常系3年以上テストした! 自信あるよ!)
  • end-to-endのデータ完全性 (確実に書けて、確実に読める、データ化けがない、下のファイルシステムでデータ化けがあっても)
  • gfs_pio_sendfile: read/writeじゃなくてsendfile系apiでgfpcopy(並列コピー)が高速化。
  • CentOS7対応:起動ファイルがsystemdになったり。
  • Linuxカーネルモジュールがつかえるようになった(CentOS6.4で動作確認)
  • ファイルシステムノードグループによる複製配置指定機能
    • ノードグループの指定: gfnodegroup -s hostname groupname
    • 複数属性の指定: gfncopy -S GroupA:2,GroupB:1 directory グループごとの複製数を指定
    • 従来: gfncopy -s NUM directory 複製属性の方が優先、Σ複製属性<複製数なら、残りはてきとうに配置
  • フェイルオーバ
    • すべてのAPIが再接続して処理継続。クライアントにはエラーをかえさない。
    • フェイルオーバと書き込みが競合した場合(書いたのに消えるケース)は、lost+found に移動。
      • proc Aがファイル更新中(複製あり)にgfmdフェイルオーバ発生
      • proc Bが同一ファイルを更新(フェイルオーバ中のためproc Aが更新していることに気づかない)してcloseした。
  • end-to-end完全性
    • gfsdでチェックサム(md5)を計算してた。(gfarm 2.5.8.5以降) 逐次読み書きのみ。
    • ファイル複製のときにチェックサム計算ようにした。
    • クライアントライブラリでもチェックサム計算して、ネッーワークエラーもチェック。
    • sha256もサポート
    • チェックサム計算は連続アクセスか複製時。はじめて計算したときにMDSに登録。
  • gfpcopy高速化
    • BULKWRITE/BULKREADプロトコル新設。ftpのように連続転送。RTTが大きくても性能がでるように。
    • Q: 京大fwは遅いはずだが?
    • A: 実測値なので出ているはず。
  • 2.6は去年だす予定だったものをend-to-endを入れて遅れた。
  • 2.5.8系はバグフィックス中心にサポート

[2014-12-16 14:03]

  • Q: チェックサムによる性能低下は?
  • A: 測ってないけど、ユーザから文句はでてない、数%も遅くなってないはず。

[2014-12-16 14:05]

WebGfarm: 分散ファイルシステムGfarmのHTTPインターフェース / 筑波大学 鷹津冬将 _1250627

  • 建部さんのところで研究
  • gfarmのインターフェース
    • libgfarm (低レベル)
    • gfarm2fs (FUSEベース)
    • mpiio_gfarm (MPI I/O)
    • gfarm_hadoop (ふつうはHDFSをつかうけど)
    • gfarm_samba
    • NEW: WebGfarm (REST API)
  • Apache HTTP serverモジュールとして実装
    • Apacheのシェアは37.05%。
    • mod_webgfarm: Cで700行ほど。
    • Rangeヘッダの処理がめんどくさい。
    • RESTゲートウェイとして動作。
  • https://github.com/fuyumacha/mod_webgarm
  • つかいかた
    • httpd.confに書くだけ。
      • WebGfarm on ← 有効
      • WebGfarmBase /v1/ ←URLのパスを指定 mod_rewriteのrewritebaseとおなじかんじ
  • GET → read, readdir
    • メタデータはヘッダにはいってくる。
  • PUT(idempotent) → create,mkdir,write(truncateしてからwrite)
  • POST(追記) → write
  • DELETE → unlink,rmdir
  • ステータス
    • 200 OK, 201 Created: 成功
    • 404 NotFound: ENOENT
    • 403 Forbidden: EPERM
    • 307 TEMPORARY_REDIRECT: 複数ノードのとき
    • 500 Internal Server Error: 実装できてないものとか
  • apacheとgfsdが異なるノードの場合は性能劣化→HTTPリダイレクトさせることで誘導。(ファイルサイズが小さいと無駄が大きいので注意)
    • WebGfarmRedirectSSL on
    • WebGfarmReadRedirect on
    • ...

[2014-12-16 14:34]

  • Q: httpユーザとgfarmユーザのマッピングは?
  • A: 認証でやろうとおもったが、現在はApache専用ユーザを用意してアクセスする。

[2014-12-16 14:35]

ZabbixによるGfarm障害監視 / SRA 笠原基之 _1250628

  • 止まらなくても高負荷で使いものにならなくなることともある。
  • zabbix
    • 監視対象はUNIX
    • デザインを意識したUI、多国語対応している。gfarm-zabbixは英語のみorz
  • テンプレート: 監視項目のセット (linux OS用のテンプレートとか)
  • ホスト: zabbixはホスト単位でしか監視できない。ホスト上でzabbixエージェントを動かす。
  • gfmdフェイルオーバ対応で、障害検出して自動フェイルオーバできる。
  • CentOS6対応。7は近日対応。
  • Gfarm: クライアントにパッチあててるので特定のバージョンじゃないと動かない。
  • Zabbix: 1.8と2.2 LTS。
  • テンプレート
    • gfsdが動いているか
    • 認証がとおるか
    • syslogになにか出てないか
    • スプールの空き
  • gfarm代表クライアント
    • このクライアントをとおしてGfarmの全ノードの監視をおこなう。zabbixの監視アプローチとはちょっとちがう。
  • gfarm一般クライアント
    • 認証がとおるかどうかチェック
  • gfarm-zabbix 1.x
    • 2012年4月に1.0をリリース
    • gfsdが20台以上の環境に投入された → アラート多発・master gfmdに負荷
    • master gfmdに障害があるとアラートメールの洪水になって問題が把握できなくなる。
    • 多数のエージェントがgfarmに問い合わせするのでgfmdの負荷上昇
  • gfarm-zabix 2.0
    • 2014年10月リリース
    • 代表クライアントをもうけることでgfrmdの負荷軽減
    • gfmd 4台、gfsd 28台の環境で運用中。スプール 5PB。ユーザ数100。

[2014-12-16 15:10]

  • Q: 代表クライアントの障害時は?
  • A: フェイルオーバはないが、zabbixサーバ上に置いておけばよい。

[2014-12-16 15:11]

休憩

自販機でココア購入100円。廊下は寒いのですぐに部屋に戻る。

_1250639

[2014-12-16 15:34]

HPCI共用ストレージの歩み / 理研 原田浩_1250641

  • http://www.mext.go.jp/a_menu/kaihatu/jouhou/hpci/1307375.htm
  • 各大学でアカウントをとって利用していたのを、HPCI事務局で一括管理。シングルサインオン。
  • レプリカ数2で運用。1PBくれといったユーザは2PBの割り当てになる。
  • 2年運用して1度データ消失があった。
  • ストレージ容量は21.5PB。
  • 利用は活発。そろそろ枯渇しそう。資源割り当ての見直しを実施。
  • 2011/5に東大に納入。Lustre/IBで納入されたのを2012/4にGfarmに改修。
  • テープストレージも入れている。
  • 2012/5にHPCI共用ストレージのリハーサル。HPCI構成機関からのgfarmマウント。
  • IPoverIBで外に見えてる。
  • 最初はあまり利用されなかった(1PB)が、初年度後半では研究成果を残す目的で利用されるようになった。
  • 京コンピュータからは直接書けない。ログインノードからのみ読み書き。IPリーチャブルじゃないとだめなので。
  • 2.7PBくらいつかってる課題が3課題もあって60%くらい占めてる。
  • HPCIのヘルプデスクがある。そこでトラブルは一元管理。
  • FUSEマウントを推奨。予想以上に使ってくれている。GSI認証にたどりつくところの敷居が高いようだ。
    • マニュアルにはgfコマンドも書いてある。
    • マウントすることが難しいのではないか? マウントポイントに(マウントする前に)ファイルを書いてしまって(マウントが)EBUSYなってしまうとかあった。京のように複数ログインノードがあると、毎回マウント・アンマウントしなくてはいけなかった。(今はautomounterがあるけど)
    • 複数ノード使わないユーザはsshをつかってしまう。GSI認証の普及が課題。
  • 2013/11ごろから2014/1にかけて4ユーザ135ユーザでデータ消失。レプリカをつくるまえにデータが消えた。
  • xfsをふくむパッチをあてまくって今は安定。
  • SATAの信頼性はおもったよりも高い。4800台のうち故障は月1桁台。
  • サーバの一斉起動でUPSの容量越えたり障害はヒューマンエラーが多い。ハードやソフトは少ない。
  • mdsは冗長化しているがファイルデータはランダム配置なので片側運転ができない状況。
  • 国プロでオープンソースはどうなの?
    • うまくいっている。
    • ベンダー単独ではむつかしいシステム規模。
  • HCPI共用ストレージはHPC向けとしては世界最大級(参加組織・容量・実績)。

[2014-12-16 16:27]

  • Q: xfsの問題でgfarmデータ消失なら、もっとxfsの事故を調査しては?
  • A: 事故のあと、毎週データ整合性のレポートを取るようにしている。

[2014-12-16 16:30]

NICTサイエンスクラウドでのGfarm利活用及び開発事例紹介 / NICT 村田健史 _1250651

  • JGN
  • データ消失を経験してからは、ユーザはフロントエンドのNASをさわる。バックエンドにGfarm。スパコンからは直接Gfarm。
  • 観測系がファイル数が多い、シミュレーション系がファイルサイズが大きい。
  • サーバは随時追加している(google方式)。
  • (水増しできる)ユーザ数で比較するのではなく(ごまかせない)論文数で利用規模を比較しよう。
  • ファイルの操作履歴とっている(トレーサビリティ)。
  • タイムスタンプサーバをつかって、インテグリティチェックを実装中。コピーが改竄されているかどうかチェックできる。インターネットからの問い合わせも可能。
  • ひまわり8号のデータをサイエンスクラウドで受けることになっている。
  • 3次元レーダの可視化はMPIだと遊びができちゃうのでpwrakeをつかって計算をつめこむ方が効率がよい。
  • HPCスパコン的 ⇔ Many-Task-Computing (MTC)クラウド的
  • 4K 900fps:FT-ONE 自動車の衝突解析など 2TBでも10秒しか記録できない。90Gbps。
    • 10Gbpsを5本たばねて50Gbpsくらいは出るようになった。
    • カメラからのRAWデータを保存しながら計算できるメリット
  • GPFS/Lustreのシステムが圧倒的におおい。

[2014-12-16 17:07]

_1250652x

総括 / ベストシステムズ 西克也 _1250662

  • ベンチャーでお金をほしかったら国からもらう→しかしまきとられてしまう問題。大企業はうまいことやるけど。
  • そのなかでGfarmは奇跡的に生きのこった。
  • NICTのGfarmはちょこちょこ増築していった。データ消失のときにはネガティブキャンペーンがひどかった。大きなお金はつかわないようにしている。
  • オープンハウスのときにはタイムスタンプとトレーサビリティが人気だった。
  • REST API: HEADでメタデータをとれる。今後S3互換のものもつくっていきたい。

[2014-12-16 17:24]

懇親会

  • くいもの屋 わん 九州自慢 茗荷谷店 にて 18:00〜20:00

_1250663x

二次会

  • 白木屋 茗荷谷駅前店 20:00〜22:00

image_1250666