オンラインとライブの両方で開催。久しぶりに外に行きたい気分だったのでライブ会場の秋葉原へ。台風14号(チャンホン)接近中で一日中雨。
[2020-10-09 13:29]
- 司会: HPCソリューションズ 河野
- 参加者: 秋葉原15名、オンライン15名
[2020-10-09 13:30]
Gfarmファイルシステムの最新機能
筑波大学 建部 修見
- ワークショップは2月に別府で開催。おなじくライブとオンラインのミックスで。
- オーストラリアではLibre Solutions
- 開発を始めてから20周年 2000年6月スタート 電総研と高エネ研のGRIDミーティングから
- MTセーフ: 暗号化(EncFS)をサポートするのに必要だった
- read only機能: zabbixでフェイルオーバするときにスプリットブレインを避けるためにメタデータがちゃんとつたわってるのをたしかになるまでread onlyにする。
- githubに移行した(なかなかたいへんだった)
- MPIでバーストバッファがつかえるようにもなっている(IBがつかえない環境もあるので) MPI-IOで高速化
- gfarm2.8ではIPv6,S3,TLSがサポートされる予定。
- (例年は建部さんの話が長いけど今年はずいぶん早くおわった)
[2020-10-09 13:43]
スーパーコンピュータ「不老」
〜大規模コールドストレージ導入によるデータサイエンス支援を指向したスパコン〜
名古屋大学情報基盤センター 片桐 孝洋
- 「不老」2020-07-01正式運用開始
- type1: 富岳の同型機をつかっている
- type2: GPU型
- type3: 大規模共有メモリ
- 6PBの光ディスク コールドストレージ(ソニー) 100年保存
- 湧き水でエコ冷却
- 特徴アプリ: 台風と医用画像につよい先生がいるので
- デジタルサイエンス
- 名古屋大学は伝統的に富士通製
- 5年サイクルでリプレイスしている
- 国策スパコンとPCスパコンの二本建
- コールドストレージ: 10PBまでキャパがあるけど4PBはユーザ持ち込みのためにあけてある。
- 最大消費電力: 1.9MW
- 湧き水: 夏でも18℃ 30リットル/分 ポンプで吸い上げて雨水としてすてていたのを冷熱源として利用
- 2〜3℃さがる。
- どのくらい効果があるかは計測中。2〜300万やすくなるはず。
- 夏場の昼のピーク電力カットのためジョブの実行を抑制 12時間キューを用意して実装
- でも今年はコロナで人が来てないので電力は逼迫しなかった
- type1は富岳の1/70の規模
- type2: nvidia V100、ssdもたっぷり、機械学習向き
- type3: プリ処理(メッシュきったり)、ポスト処理(可視化)など
- ストレージを共有しているのでポスト処理でデータの移動は必要ない
- クラウドシステム: よくつかわれている(稼働率8割くらい)
- ホットストレージ: HDD RAID 30PB 384GB/s
- コールドストレージ: xxx
- フロントエンド: ログインノード以外の利用も想定
- 料金は前払い 優先キューはポイント2倍でつかえる
- IORベンチマーク: /data/group1は一般、group2は大規模向け
- 独自ベンチ: github/exthnet/iotest type2のlocal SSDがおもったより速くない type1のホットストレージがおそい
- 気象 坪木先生
- 医用 森先生
- コールドストレージ操作ツール ODAPLUS
- COVID19用: AIでCTで肺を正常か炎症かセグメント分け
- 臓器のサンプルはあまりないので2つの臓器データ間を連続的に変形させて学習データにする
- シミュレーションせずに機械学習で気象予想 相馬先生
- コールドストレージ
- ホットストレージ→コールドストレージはアーカイブ、 逆はリコール
- 利用者支援室からホットストレージにデータ転送 計算結果をホット→コールドに転送
- コールドストレージに直接光ディスクをつっこむのもあり
- fibrechannelでフロントエンドにつながっている???
- 光ディスクはwrite once
- ドライブユニットは5しかないのでバッチで処理
- 小さいファイルは固めて大きなファイルにしないと性能がでない
- ディスクはセンターで買ってユーザが利用申請(早い者勝ち;ふつうに買うより安い) 利用終了したらカートリッジがもらえる
[2020-10-09 14:35]
[2020-10-09 14:36]
Prometheus ではじめる Gfarm サービス監視
— HPCI共用ストレージの1000日無停止連続稼働を強力にサポート —
理化学研究所 金山 秀智、芝野 千尋、原田 浩
東京大学 小瀬田 勇
- 無停止でアップデート、2拠点間でデータ二重化、これにより連続運用ができるようになった。
- gfarm zabbixプラグイン
- アラートチェック
- postgreSQL死活監視
- データ完全性チェック
- 設定情報の監視
- 稼働率とデータ保護の両方を重視している
- 現状: アラート検知→チケット起票→障害レベル判定→障害対応・緊急連絡・ユーザアナウンス
- これを自動化したい
- 監視ソフト: Prometheus、ダッシュボード: Grafana
- ディレクトリ数、シンボリックリンク数、レプリカ数はコマンドで取得できないのでメタデータを直接参照
- ユーザが利用してないときの障害は利用率にいれてない、タイムアウトも稼働率にいれてない、これはユーザ向けでない。
- shibbolethの認証情報をつかってユーザ向のgrafanaを表示できないか。
[2020-10-09 15:08]
休憩
[2020-10-09 15:30]
IO500 #1 DAOSアップデート
インテル株式会社 石橋 史康
- DAOS デイオス
- IO500で1位
- Optane(オプテーン) Persistent Memoryが前提
- dramとssdの中間的存在
- dramとちがって永続性がある
- ssdとちがってbyte addressingが可能
- daosではup direct modeをつかっている (memoryモードではない)
- posixとblockの問題を解決する
- posixで書くときにブロックサイズにあっているわけではない
- ブロックに複数のファイルが混ざるとロック待ちになる問題。
[2020-10-09 15:40]
webex調子わるい
- バイトアドレッシング可能なので問題回避できる。
- DAOSはlustreでつくっていた
- バイトアドレッシングできる永続メモリをベースにアーキテクチャをつくりなおし
- ふつうのファイルシステムというよりはオブジェクトストレージ
- ちいさいデータ・メタデータはoptane persistentへ (interface:PMDK)
- バルクデータはSSDへ (interface:NVMe)
- ユーザ空間で動かすので性能がでる。バージョンアップも楽に。
- posixでつかいたいときは dfuse(アプリ変更なし) or libdfs(変更あり)
- libdaosがnative interface (KV-storeっぽいAPI)
- apache sparkとかのAPIも用意する予定
- lustreとnamespaceを共有するパッチを開発中
- optaneはインターリーブきかせてつかうのがふつうなので障害に弱い → サーバごとにレプリケーションして回避
- erasure codeも将来的にはサポートする予定
- DAOSでデータのコピーを簡単に用意できるのでAIの学習で効果あり。
- ソースコードだけでなくRPMでも提供
- resources: https://github.com/daos-stack/daos
- dramエミュレーションもある
[2020-10-09 16:00]
- Q: IOR hardの性能はpersistent memoryはいいけどSSDはどうか?
- A: libdfsをつかっているのでコードをかえている。persistent memoryをつかっている。
- Q: スパコンのストレージを束ねるのに向いてるようにみえるが?
- A: できるけど、CPUをつかうので計算の邪魔になってダメかも(検証してないけど)。ストレージサーバにするのがいいのでは?
[2020-10-09 16:07]
[2020-10-09 16:11]
DDN ExaScalerのさまざまな性能改善について
株式会社データダイレクト・ネットワークス・ジャパン 井原 修一
- lustreベース
- exascalerはソリューション名
- lustre 2.10と2.12 がよくつかわれている (つぎは2.13)
- パッチはアップストリームになげていて、プライベートなパッチはあまりない
- 最近はシングルクライアントの性能も重視される (DGXみたいなファットクライアントがでてきたため)
- strided single shared file writeは性能がでていない lusterのもんだいもあるがblockアドレッシングのもんだいもある byteアドレッシングにたいおうしたい
- ページキャッシュのせいでネットワーク帯域がつかいきれてなかった???
- データベースではO_DIRECT+aioがよくつかわれる (lustre 2.10はサポートしてなかった 2.12はAIOがつかえるけど同期モードでうごく)
- gpfsとくらべてlustreはシングルスレッドの性能が低い問題 readaheadを並列化して改善 writeはまだ改善してない
- lustre IB multi-rail構成だとネットワークをつかいきれてないことがわかった。
- GPUダイレクト
- 4x DNN AI400 --(16xIB-EDR) Mellanox (8xIB-HDR200)-- 1x GDX A100
- CPUのアグリゲート帯域が100Gしかない問題を回避できる
- CPU:シーケンシャル(fio): write 94GB/s read 107GB/s
- GPU:シーケンシャル(gdsio): write 154GB/s read 178GB/s
[2020-10-09 16:38]
- Q: strided-SSF-Hardで何をかいぜんした?
- A: over stripe (OSTの数をこえてストライプできる) ロックのコンテンションを減らせた。 2.13で入る機能。
- Q: byteアドレッシングでなにをやる?
- A: プロジェクトredをやっている。deosにちかいアーキ。deosとちがって提供するサービスはブロックストレージ(kv-storeではなくて)。
- Q: gpu direct はai トレーニングで流行りそう?
- A: nvidiaとしてはやろうとしている。
- Q: gpu directは?
- A: ファイルシステムとしてつかえる。シャドーメモリとしてみえる。apiをlustreで実装するかんじ。
[2020-10-09 16:50]
[2020-10-09 16:51]
次世代のストレージ・ ファイルシステム技術
富士通株式会社 住元 真司
- NGACI(次世代先端的計算基盤)でwhite paper執筆中
- CXL: Compute Express Link
- pcie 5から入る
- キャッシュコヒーレンシあり
- アクセラレータアタッチドメモリ
- redfish
- DMTF
- IPMI KCSのおきかえ
- サーバの管理
- RPMA: remote persistent memory access
- librpma
- 次世代:
- アプリケーション特化ストレージ
- OSバイパス
- オフロード
- OSがクライアントとサーバで一体化したストレージになる?
- computational network:
- MPIで転置行列はストライドアクセスできつがバイトアドレッシングできるとうれしい。
- LLIOのはなしはなし
[2020-10-09 17:31]
- Q: persistent memory, cxlは富士通としてはどう?
- A: 標準技術ははいるはず
- Q: グローバルなファイルシステムはひつよう? ローカル(テナント的なのが)なのがあればよい?
- A: daosみたいにがらっとかえるのもあるが、古いファイルシステムものこるはず。ユーザがえらぶ。
[2020-10-09 17:36]
クロージング
[2020-10-09 17:37]
懇親会
Journey×Journey 2号店にて。(参加者7名)