[2021-03-05 10:31]

Gfarmファイルシステムの概要と最新機能 / 建部修見

  • ワークショップは地方開催だったが、今回はオンライン。
  • libreがdebianのパッケージをメンテしているのでubuntuではapt installで入る。
  • 新機能: S3互換IF、TLS通信
  • 暗号化ファイルシステム
    • encfsをつかう。
  • read only
    • メタデータが更新されなくなる。
    • フェイルオーバーでsplit brainの可能性が残る場合(disaster recoveryとか)につかう。
  • Gfarm/BBバーストバッファ
    • ノードローカルの高速ストレージをつかう
    • メタデータの同期が不要になるので高速に。
  • NSMPI (MPI-IO for Node-local Storage)
    • ノード数に対してスケールする
    • readでもスケールする。
  • Q: ROで書きこむと待たされるか?
  • A: 待たされずエラーになる。書き込み途中でROになったらcloseで待たされる。

[2021-03-05 10:54]

HPCI共用ストレージ利用者向け情報公開サービスの構築とと今後の展望 / 金山秀智

  • 論理 45PB (二重化しているので物理90PB)
  • プライマリは7.8PBで容量80%を越えたら古いのは消す。
  • Gfarm Zabbixで障害監視しているが管理者向け
  • prometheus(監視)+Gfafana(ダッシュボード)でユーザ向けの情報
  • apache+shibboleth, grafana+mysql, prometheus+influxdb
    • nginxはshibolethがサポートしてない..
  • Gfarmのコマンド出力がjsonだったらなぁ...
  • SELECT DISTINCT inumber FROM xattr WHERE attrname in ('gfarm.replicainfo','gfarm.ncopy')
  • ダッシュボード作りは大変だった。
  • ネットワークの障害(SINETの運用状況)と連携したい
  • ユーザ別の情報を提供する予定
  • Gfarm Exporter: スクリプトのメンテナンスがたいへんなので。

[2021-03-05 11:27]

  • Q: イベントからGUI反映までの遅延は?
  • A: 15秒に1回とっているが、バッファ3分なので最大3分。

[2021-03-05 11:29]

スーパーコンピューティングシステムSQUIDとデータ集約基盤ONION / 伊達進

SQUID
  • supercomputer for quest to unsolved interdisciplinary datascience
  • 汎用CPU計算ノードはdragofly+ でスレージをふくめた全体はfat treeで
ONION
  • セキュアフロントエンドを経由するとスパコンを資源分離環境で使える(医療系とかで利用)
  • google driveにおいてデータを共有しているのをなんとかしたい。(open research, open innovation)
  • 多様なデータをスーパーコンピューティング環境に集約できるデータ基盤
  • データフローを妨げないデータ基盤
  • データの適正な管理
  • sftp,scpでデータ移動しているのはなんとかしたい (HPCI共用ストレージはあるけど) (スパコン内はNFSで)
  • Osaka university Next-generation Infrastructure for Open reserch and open InnovationN
  • WebUIで利用者がデータ操作ができるようにしたい
  • 計測機器のデータを自動的にストレージに保存できるようにしたい

[2021-03-05 12:01]

昼休み

[2021-03-05 13:20]

Gfarm-S3-MinIO GfarmのS3互換ゲートウェイ / 石橋拓也

  • https://min.io: S3互換ストレージ、gateway機能がある、Go言語
  • WebUIにログイン (Gfarm共有鍵のハッシュ値もつかえる)
  • ユーザごとにMinIOプロセスを起動する
  • アクセスキーがuser ID、シークレットアクセスキーがパスワードに相当する
  • apacheリバースプロキシでアセクスキー → MinIOのポート番号に転送
  • /sss/ユーザ名/バケット名 としてみえる。
  • WinSCP,Nextcloudとかからもつかえる
  • マルチパートアップロードをどうするか
    • ローカルFSに溜めてからGfarmにアップロード
    • ローカルがあふれたらGfarmにためる。
  • 注意事項
    • ディレクトリを改名できない
      • そもそもS3 APIにrenameがないのでコピー+削除になるため
      • クライアントの実装次第
    • /sssバケットを消さないように!
      • rm -rf / 相当。削除できるものはすべて削除することになる

[2021-03-05 13:51]

  • Q: gfarmから作成されたファイルもS3からアクセスできるか?
  • A: S3で共有する設定になっているディレクトリならOKl
  • Q: マルチパートアップロードをDNSでエンドポイントを複数に分けたときにどうなるか気になる
  • A: S3クライアントは1つのgatewayにしかつながらないなず
  • Q: readもマルチパートになる?
  • A: minio-gfarmは1本
  • Q: マルチパートアップロードはoffsetがわかればpwriteできるのでは?
  • A: 最後にならないとoffsetとsizeの情報が飛んでこないのでムリ
  • Q: 結合中にエラーになったらどうなる?
  • A: クライアントは結合の成功を待つのでだいじょうぶのはず
  • MinIOをユーザにちかいところにおくのかgfarmにちかいところにおくのかで性能がちがってくる。

[2021-03-05 14:06]

Amazon Web Services におけるクラウドHPCストレージ ~Amazon FSx for Lustre を中心として~ / 宮本大輔

  • 最近は製薬企業のHPC利用をあつかっている
  • クラウド: 必要なときに・必要なだけ
  • アプリケーションにあわせてクラスタを構成できる(自由度が上がりすぎるけど)
  • ひとりあたり1クラスタ構成もありえる
  • Mobileye: 自動運転のシミュレーションをAWS Batchで。ピーク40万vCPU。
  • Descartes Labs: EC2 C5で2PFlops LINPACK。2.6h 5000$。
  • modernaでもAWS活用
  • EFA: elastic fabric adapter
    • MPI/NCCL専用アダプタ利用。TCP/IPをはぶく。
    • TCPのかわりに SRD: scalable reliable datagram をつかう。
  • amazon FSx for Lustre: フルマネージド
    • scratch(single SSD), persistent(replica ssd), persistent(redundant hdd)
  • ふだんはS3にデータをためて、計算するときだけlustreにインポートする。
  • 自動インポート設定ができる。fsをつくるときにバケットと関連づけする。
    • lustreのHSM機能をつかっている
    • 明示的エクスポートは lfs hsm_archive FILE
    • 状態は lfs hsm_state FILE でみられる。
  • ストレージ構成
    • lustreのみ: すべてのデータを計算につかうばあい
    • lustre + S3: いちぶだけ計算につかうばあい
    • ローカルディスク + S3: 計算でデータの共有が必要ないばあい

[2021-03-05 14:39]

  • Q: lustreでアクセスしているときにS3バケットが消えたらどうなる?
  • A: おそらくエラーになとおもうが
  • Q: toyotaがBeeGFSからAWS Lustreに変えたのはなぜか?
  • A: 運用がたいへんだかららしい

[2021-03-05 14:41]

Lustreの最新機能のご紹介 / 井原修一

  • HPCではlusterがよくつかわれている
  • luster over striping
    • ストライプはOST数が上限
    • プロセス数 > ストライプ数だとOSTで競合がおこる。
    • ストライプ数 > OST数にできるようになった。
    • オブジェクトが分かれるので、競合を減らせる。
    • single shared fileで性能改善
  • PCC: persistent client cache
    • ローカルSSD,NVMeをキャッシュにつかう
    • writeは自動同期する
  • 暗号化
    • fscrypt kernel APIに準拠
    • クライアントでwrite時に暗号化。サーバはそのままディスクに書く。
    • writeは30%くらい性能が落ちる(現状)
    • readは20%くらい性能が落ちる(現状)
  • DNE auto rebalancing
    • distributed namespace environment
      • MDTの負荷分散
    • DNE1: remote direcotry
    • DNE2: striped directory
    • ディレクトリにファイルを入れすぎても自動的に分けてくれる
  • OST Quota
    • lustre quota: uid,gid,project-idに対してinode数/容量のquotaが設定できる。
    • HDDとNVMeのOSTが混在したときに別々のquotaを設定したい。
    • OST Pool Quota
      • OST Poolは以前からあった機能
      • これにquotaを設定できるようになった

[2021-03-05 15:05]

  • Q: ストライプサイズを47008バイトにできるか?
  • A: 64K以上で4K単位の制限がある

[2021-03-05 15:08]

休憩

[2021-03-05 15:25]

Oracle Cloud Infrastructure / 松山慎

  • ベアメタルサーバとフラットなネットワークが特徴
  • availability domain内はフラットな物理ネットワークで
  • SINET接続あり
  • ストレージの種類: local, block, fs, object(standard, infrequent, archive)

[2021-03-05 15:50]

[2021-03-05 15:51]

DDN Update / 橋爪信明

  • 2020年導入実績
    • EXAScaler:14, FEFS:4, ScaTeFS:1
  • NVMe 1.7倍/年、HDD 2倍/年で増えた
  • EXAScalerはコミュニティLustreのアドオンの形で開発
  • EXA5 Hot Pools: NMVeにキャッシュする。非同期でHDDにコピー。
  • GPU Direct storageをつかうと187GB/s
  • S3データサービス: lusterにS3 APIを提供。posixとs3の同時読み書き可能
  • RED: reiable elastic data service
    • NVMe用sofotware defined storage
    • bulkIOだけでなくIOPS向けのエンジンも追加

[2021-03-05 16:14]

クロージング

[2021-03-05 16:15]