sw

いってきた: BitVisor Summit 7

IMG_20181128_100201IMG_20181128_100344bitvisorsummit7

[2018-11-28 10:30]

BitVisorの現状と今後 / 品川 高廣(東京大学)

  • スライド
  • 録画
  • BitVisor Summit を議論の場として提供していく。
  • 昨年は盛況だった。内輪じゃない人がおおかった。
  • 今年は招待講演がない。ちょっとネタ切れ。宣伝不足だった?
  • 今年10周年(2018/03)。
  • vThriiの近況
    • ネットブートとネットインスールのハイブリッド。
    • うれしいのはユーザじゃなくて管理者。
    • 大学中心にけっこう売れてる。合計5690台。
    • あまり競合製品がないので市場規模がわからないけど。
    • Macの方がデバイスドライバで問題がおきにくい。Winはつらい。
    • となるとお金をもってる大学しか入れられない?
    • 海外展開: MacのAdmin会議で宣伝するとか?
    • 東大の機器が2020年にあたらしくなるがMac miniに対応できるかな?
    • ARM対応はいつかやらないといけない。
  • 研究室
    • 査読付き論文 5本
      • Live Migration in Bare-metal Clouds
      • がんばって物理デバイスの状態を取得する。
      • CPUは簡単だけどIOがたいへん。
    • Unified Hardware Abstraction Layer with Device Masquerade
      • bitvisorがハードウェア抽象化することでOSのデバイスドライバを共通化できる。
      • たとえば物理デバイスをvirtioにみせる。
    • Distributed Denial of Service Attack Prevention at Source Machines
      • BitVisorのなかでBPFをうごかしてDoSを防ぐ。
      • 外からBPFで書かれたポリシーを送り込みたい。
      • 攻撃側のPCにポリシーを送り込んで攻撃を止めたい。
      • BPFなら安全。
    • FaultVisor2: Testing Hypervisor Device Drivers against Real Hardware Failures
      • デバイスドライバのバグをみつけるために、デバイスの故障をエミュレーション。
      • VMware ESXiのデバドラバグを発見した。
      • Nested VMに対応したのでHyperVisorのデバッグができるようになった。
    • 進行中 研究3件
    • 論文 VEE09の参照数が200件を越えた。
  • 普及活動
    • コミュニティを活性化したいが、
    • ちょっと敷居がたかい。(一般ユーザ向ではないので)
    • ひきつづき考えていく。
    • ML, slack がある。

[2018-11-28 10:53]

[2018-11-28 10:54]

BitVisor 2018年の主な変更点 / 榮樂 英樹(株式会社イーゲル)

  • スライド
  • 録画
  • NMI関連の問題の修正
    • VMMの処理のなかでNMIが来てるかチェックしてからVMRUNでゲストに戻るまでにNMIをくらった場合、NMIがインジェクトされず、次回VMMに制御が移ったときにインジェクトされる(遅れる)問題。
      • 一見、次のVMEXITのときにインジェクトできるので問題なさそうだが、
      • Windowsの再起動のときにCPU0がNMIを送信して、CPUnは割り込み禁止にしてMWAITしてNMIをまっていて、(VMEXITが発生せず)ハング。
      • 直前にチェックするようにして回避した。
      • AMD SVM: CLGI命令でNMIをマスクできる!のでVMRUNでゲストに戻った瞬間にVMEXITできてNMIチェックをすりぬける隙間が空かない。
      • Intel VT-x: スタックのリターンアドレスをみる。
    • 割り込みでVMEXITしたときにVMMの処理のなかでNMIくらったばあい、両方の割り込みをインジェクトすることができず、次回までNMIインジェクトが待たされる問題。
      • 一旦通常割り込みをインジェクトしてすぐにVMEXITさせることで解決する。
    • NMIハンドラ実行中からIRETまでのNMIはブロックされるが正しく処理できない問題があった。

(以降、話題についてゆけず orz)

[2018-11-28 11:28]

  • Q: Nested VMのときはNMIはどうなる?
  • A: guest vmmがNMIをハンドルしてくれるはず。
  • Q: VMCS shadowingはもっと簡単な方法があるのでは?
  • A: 昨年深井さんからもらったコードはクリアするだけのコードになってたが、いろいろ不具合がありそうだったのでコピーする実装にした。その方が速かった。
  • Q: 不具合対応は榮樂さん以外でもできる体制になってる?
  • A: 調査くらいなら他の人でもできている。
  • Q: AMD対応をがんばっているのはなぜ?
  • A: いまのところ製品としてはAMDには採用されたことはないが、サポートするといっているので、やらないわけにはいかない。
  • Q: 割り込み(NMI)のテストはどうやっている?
  • A: bitvisorのコードwo流用してNMIを起こすようにしてテストした。
  • Q: DPDKとかVT-dとかRDMAとかをつかうアプリ対応は? (マイグレーションのときとかどうする) (virtioをつかうものはbitvisorのvirtioのできしだい)
  • A: 考えてなかった。MacでファームウェアでVT-dを設定しているものがあり、bitvisorが立ち上がったときにはすでにVT-dが設定されている(おそらくfirewireのメモリ転送を止めるため)。 VT-dを無効にしている。
  • Q: 今回のバグを修正したものはつかえるか?
  • A: bitbucketのは反映されている。リリースはまだ予定はない。

[2018-11-28 11:42]

昼休み

IMG_20181128_115514

30分くらい寝た。

[2018-11-28 13:00]

Interesting Issues During NVMe Driver Development / Ake Koomsin(IGEL Co.,Ltd.)

(中学レベルの英語力しかないので理解できず orz)

  • なんとなく:
    • completion queueのエントリをコピーするときにsfenceいれないといけなかった。
    • appleのNVMeんUEFIファームウェアにクセがある。ファームウェアのコードがgithubにあったので参考にした。
    • NVMe各社のコントローラにクセがある。

[2018-11-28 13:20]

QA

[2018-11-28 13:23]

[2018-11-28 13:24]

BitVisorによるOSの見かけ上10倍速実行 / 大山 恵弘(筑波大学)

  • スライド
  • 録画
  • ここ数年は時間を操ることをやっている。
  • 筑波大学には端末室が20もある。端末は1000台以上。
  • vThriiがよくおちる 運用の問題もあるかも
  • ゲストOSの時間を速くする → TSCを増やして返す。
  • あるキーを押すと10倍になるようにした。
  • デモ: xclock, worldclock, amazon, youtube, top, wget, ping が速くなる。
    • youtubeは処理がおいつかなくなってコマ落ちしている。
  • 60倍にしても資源バウンドとか待ち時間バウンドでその速度で動かない。
  • なにのやくにたつ?
    • ソフトウェアの開発で短時間で確認する。
    • 低速にして動作確認(シューティングゲームとか)。
    • 長い時間経過がトリガになる処理の確認。
  • RDTSCでVMEXITして偽装する。
  • RDTSCはwindows,linuxでHPETやPITよりも優先してつかわれる。
  • TSC deadline: linuxが計時につかっているが、めんどうなのでまだ実装してない。linuxがつかっている。
  • RDTSCP: out-of-order実行されないRDTSCは実装してない。
  • ブート時のTSC calibrationのときには1倍速にしておくのが重要。
  • マルチコア対応: コアごとに時刻をおぼえている。
  • 修正は230行。
  • NTPは切っておく。
  • linux tsc=reliableをつけておかないとHPETにきりかわってしまう。watchdogが常にPITでTSCを監視している。
  • windowsはまだうごいてない。画面が真っ黒になってしまう。原因不明。
  • キー入力はキーリピートが10倍速になって操作が難しくなる。
  • コンテキストスイッチも10倍になってオーバヘッドがめだつ。
  • 関連:
    • CPUエミュレータの加速/減速機能ににている。
    • HyperSlow(仮想時間を速くしてマルウェアを動かなくする)
    • うさみみハリケーンの加速減速機能

[2018-11-28 13:50]

  • Q: linux fundationでカーネルをいじって速くするという話があった。jiffiesがあふれる瞬間をみれたり。デバイス周りのタイマとの整合性。USB1だとCPU依存。タイムアウトはあるかも。
  • Q: TCPのタイムスタンプとか。無駄に再送されてる?
  • Q: プロセスごとに時間切り替えはCR3でできる?
  • A: OSの時間管理をいじらないとむつかしそう。
  • Q: マルウェアの解析にはどうつかう?
  • A: 未来にならないと発症しないもの、sleepはスキップするとダメなものがあるのでsleepをスキップせずに早く終わらせたり。
  • Q: タイマー割り込みは?
  • A: 頻度は変えてない。
  • Q: DOSは?
  • A: DOSはだめかも。
  • Q: youtube: ビデオとオーディオの同期はどうなってる? ふつうはオーディオにあわせようとして速くならないのでは?
  • A: 音はミュートしていたのでわからない。
  • Q: 止められる? 逆まわしとか。
  • A: やってない

[2018-11-28 14:03]

[2018-11-28 14:04]

CTFVisor: BitVisorによるCTF作問・出題支援 / 松原 克弥(公立はこだて未来大学)

  • スライド
  • 録画
  • 背景:
    • プロジェクト学習(PBL)
    • CTF(Catch The Flag)
      • attack & defence: 脆弱性のあるシステムの攻防
      • Jeopardy: フラグ(隠されたデータ)を読み出す早さを競うクイズ
  • CTFは作問がむつかしい。
  • ログやダンプを渡して解析させることがおおい(キャプチャはやらない)
    • Network,Forensics,Stego
  • bitvisorが入ったUSBメモリを参加者に渡してパケットキャプチャをするところからやらせる。実環境での体験を提供する。
    • たとえば、CTFVisorの上でパケットを送信するとTCPヘッダのreserved領域にフラグを埋め込まれて、wiresharkでキャプチャして発見させる、など。
    • たとえば、ブートセクタを読むとフラグが埋め込まれたデータが返ってくるとか。
  • windowsだとVRAMを書き換えても画面キャプチャできない。
    • linuxならframebufferをキャプチャすればいける。
  • mrubyで作問できるようにしたい。
  • USBの通信も作文につかわれているので対応したい。

[2018-11-28 14:20]

  • Q: CTFはセキュリティがメインだが、そもそもUSBを挿すのは抵抗があるのでは?しかもハイパーバイザーが立ち上がるし。
  • A: 本格的なCTFよりは易ししCTFとか期末試験につかうとか、CTF初心者に向け。ログをみるよりは実際にキャプチャすることを体験させる。
  • Q: CTFやってるひとからするとUSBを解析されてしまう?
  • A: たぶんbitvisorを解析されてしまう。
  • Q: 画面に表示することでbitvisorが動いていることを示す電子透かしにできないか?
  • A: できるとおもうが、VRAMの書き換えは難易度が高い。
  • Q: デモで毎回リブートしていたのはなぜ?
  • A: intel graphicのドライバの関係。
  • Q: デバイスがいろいろだとbitvisorがうごかないのでは?
  • A: いろんなOSが動くが、いろんなマシンでは動かないというのがbitvisorの欠点...
  • 環境の流通としてのbitvisor: bitvisorでハードウェア環境をわたして、OSはユーザのものを使える。

[2018-11-28 14:32]

休憩

P1210681x

[2018-11-28 14:46]

TinyVisorによるVM間H/Wリソース動的譲渡 / 安岡 亮輔

  • スライド
  • 録画
  • tinyvisorとはVMが2つ(メインVMとサブVM)動くようにしたもの。ハードウェア分割してしまう。
  • タイマとか分割できないものは仮想化しているものもある。
  • 起動時にリソース分割して2つのVMが同時に起動してしまっていた。
  • 起動後にHWリソース分割できるようにした。
  • hotplug/unplugで資源譲渡する。
  • hotunplugするとHALT状態になるのでNMIを送ってvmexitさせる。
  • メモリはhotplugできるけどunplugできないのでhot-offlineをつかう。
    • hot-unplugは物理的に抜ける。
    • hot-offlineは使わないようにするだけ。
  • デモ(ひさしぶりに動かしたので手順ミスって失敗...)
  • サブVMの起動は1回のみ。サブVMのブートシーケンスを改良する必要がある。
  • 実行中に資源を譲渡するのは実装してない(サブVM起動時のみ)。

[2018-11-28 15:08]

  • Q: どういうときに使うとうれしい?
  • A: 先生にいわれたから。。。 VMM再起動で若返りさせるのにつかえる?
  • Q: DPDKではremoveではなくunbindだったような。
  • Q: 非連続物理メモリでもだいじょうぶか? hugepageがつかえない。
  • A: サブVMの方はアドレス変換しているのでだいじょうぶ。hugepageでもだいじょうぶ。
  • Q: 128MiB単位でしかonline/offlineできなかったような。

[2018-11-28 15:17]

[2018-11-28 15:18]

bitvisor.ko : BitVisor as a module / 味曽野 雅史(東京大学)

  • スライド
  • 録画
  • モチベーション:
    • 開発速度を上げたい
    • 仮想化によるオーバヘッドを下げたい
  • bitvisorは常に必要ではないかもしれない → 必要になったときだけ使う
  • デバイスの暗号化では最初から仮想化が必要だが、
  • オンデマンド仮想化: 必要なときだけVMMを挟む。
  • オンデマンド仮想化ネタは新しいものではない。
  • 関連研究:
    • VMX rootkit
    • Late launch (Intel TXT) コードサインの関係で生OSでブートしてからVMMをはさむものらしい。
    • カーネルモジュールでhypervisor: (ksm),bareflank,ShadowBox,HyperPlatform
  • やりかた:
    • (a) bitvisorをカーネルモジュールにする。
    • (b) カーネルモジュールからbitvisor.elfを読む。 (今回はこっちで)
  • bitvisorのUEFIのブートシーケンス:
    • firmware -> loadvmm.elf -> 2nd-loader -> init +start VMM -(VMENTRY)-> トランポリン -> loader.elf,firmwareにもどる
  • 関係しそうなところがたくさんありすぎるので、問題になりそうなところから順番に対応していく方針で。
    • UEFI func call
    • ACPIはいったん実装保留.. (どうせサスペンドさせたりしないし...)
  • - どうやって連続メモリを確保するか? いまはlinuxのブートオプションで特定のメモリ領域をつかわないようにしてbitvisor用の領域を確保する。
  • Application Processor(AP)
    • マルチプロセッサ環境でブートでつかわないCPUの方
    • cf BSP(bootstrap processor)
    • bitvisorは最初BSPしか仮想化してなくて、guest OSがstartup IPIで初期化しようとしたときに初めて仮想化する。
  • bitvisorがサポートしてない命令が実行されたらどうする? (隠蔽できないので)
  • ユーザ空間でどうやって実行するか? SMEP/XD bit のためカーネルモードからユーザ空間のコードを実行できない。
  • de-vitualization: ゲストがvmcallしてきて、vmentryしないで状態を復元してjmpでもどる。
  • 実装はまにあわず。
  • 余談: 開発では ubuntu on bitvisor on VMware workstation on Host の環境でやっているが、linux RAIDのコードがAVX512命令をつかっていて、そこでlinuxがpanicする問題がおきている。

[2018-11-28 15:44]

  • Q: (榮樂)ページ切り替え: 1ページにきりかえコードをおしこむコードがすでにある
  • A: (味曽野)参考にします。
  • Q: (味曽野)APで頻繁に同期してるのは?
  • A: (榮樂)キャッシュをさわるときは同期をとるようにマニュアルに書いてあるので。

[2018-11-28 15:47]

ベアメタルクラウドにおけるハードウェア保護に関する研究 & Advent Calendar について / 深井 貴明(元 筑波大学)

  • スライド
  • 録画
  • BMCArmor: A Hardware Protection Scheme for Bare-Metal Clouds
  • 実は去年のネタ。社会人になって手を動かす時間がとれなくなった。。。
  • 発表6回目。
  • bitvisorはseedsベースの話が多いが、今回はneedsベース。
  • ベアメタルクラウド=物理マシンを提供するIaaSクラウド
    • マシンの最大性能・物理ハードウェアを提供できるが、
    • OS非依存のスナップショットとか資源の多重化は不可。
  • ベアメタルクラウドだとfirmwareをさわれてしまう問題。
  • 起動しなくなったりファームウェアにrootkitを入れられてしまったり。
  • マシンのオーナーとOSの管理者が別なのはPCアーキテクチャでは考えてなった。
  • Permanent DoS,データ盗難・破壊。
  • ハードウェアの保護機構: 有効になってなかったり、脆弱性があったり、そもそも保護機構がなかったり。問題があったときの対応が難しい。
  • ファームウェアの書き戻しがうまくいくとはかぎらない。(すでの壊れてたり、rootkitが入っていたり)
  • 既存研究には検知はあるが防止はない。
  • 不揮発データへのアクアセス: メモリ, IO, コマンドキュー.
  • これをbitvisorでアクセス制限したり、有効になってない保護機能を有効化したり。
  • メモリはwriteだけ止める。readはパススルー。
  • IOはポート単位でread/writeをフックしてwriteは止めるreadはエミュレートする。
  • コメンドキューは止めたいコマンドをダミーコマンド(エラーになるような)に入れかえてしまう。completeキューにはエラーが返ってくる。実装が楽。
  • Intel CHIPSEC(検査ツール)で保護機構が有効かどうかチェックできる。
  • netperfでの性能測定では、オーバヘッドは少なかった。
  • 不要なVMEXITが多発。おなじページに保護したいデータと通常機能があるため。
    • intelは細粒度で保護かけられるようにするらしい。
    • 最近のデバイス(x540とか)だと1つのページにまざらないようになっている。
  • 研究の経緯:
    • 後輩が実験で全てのIOをランダムに改変する実験(デバイスドライバのfuzzing)をしてたらハードが壊れた(ノートPC 3台)。EEPROMを書き換えられてしまった?
BitVisor Advent Calendar 振り返り & 宣伝 & お願い

[2018-11-28 16:16]

  • Q: 不揮発データへのアクセス方法は、この3つだけか? 抜けはないか? (CPUを介さないファーム更新があるかもしれない?)
  • A: 単純なMMIOじゃなくてポインタをつかうようなものはあるかも。
  • Q: 毎回ファームウェアをロードするようなデバイスだと困るのでは? (スマホのカメラの画像プロセッサとか)
  • A: サーバがターゲットだったのでカメラとかはかんがえてなった。NICとNVMeを考えていた。GPUは考えてなかった。
  • Q: UEFI boot menuは対象か? だとするとインストーラが動かないのでは?
  • A: boot menuはBIOS ROMに保持しているので、たぶんだめ。ホワイトリスト形式で制御できるようにしたい。
  • ベアメタルクラウドはPCアーキテクチャベースだがIPMIとかRedfishとかである程度マシンの制御はできるはずだが周辺デバイスまでは管理できない。
  • 究極にはPCIやMMUにポリシーを書けるようにしないといけないだろう。

[2018-11-28 16:30]

[2018-11-28 16:31]

LT: Bitvisor will be dead / Kuniyasu Suzaki

  • 録画
  • T2 secure chip in Mac mini.
  • secure bootを強化したようなもの。linuxがブートしない(セキュリティをoffにすればブートするらしい)。
  • Apple_T2_Security_Chip_Overview.pdf
  • パスワードを27回まちがえると1時間待たされる。さらに間違えるとリカバリーモードになって、さらに間違えると消去される。
  • T2はマイクの電源は切るけどカメラを切らないのは裏がありそう。
  • bitivisorがMacに依存していると、これからたいへんそう。

[2018-11-28 16:36]

閉会

[2018-11-28 16:43]

P1210693x

Gfarmシンポジウム 2018

IMG_20181026_130956IMG_20181026_131153

[2018-10-26 13:30]

Gfarmファイルシステムの最新機能
国立大学法人 筑波大学 教授 建部 修見

  • https://www.youtube.com/watch?v=d2Ijv7PG3m4
  • 外部配信中
  • 他と違うところ:データアクセスの局所性を重視、サイレントデータ損傷に対応
  • 利用(共用): JLDG(10.7PB,8site),HPCI(100PB,2site),NICT,クオリティアactive! world。
  • 利用(解析): すばる望遠鏡のデータ解析,メタゲノム解析
  • 2.7.10が最新リリース
  • 2.6.8で書き込み後ベリファイ(数時間後にベリファイ)
  • バーストバッファ: ノードローカルなNVMeをつかって分散ファイルシステムを構築する
    • NVMeはジョブが割り当てられたときしか使えない
    • 永続性はすてて性能を重視 メタデータはメモリに載せる (postgresqlをやめる)
    • 196s → 20s
    • 0.3sで構成をつくれる
  • データ移行支援: 運用を止めずに10PB→100PBに拡張するときに必要な機能を実装した
    • 書き込み禁止: ファイルに書けないけどファイルは作れるとか
  • gfmdレスポンス改善: JLDG 数10PB/日 のアクセス linuxのスレッドの実装の問題だっ たが
  • IB RDMA
    • クライアントのユーザバッファをpin-downして直接サーバから転送できるようになっ た。
    • 1.8倍性能向上
    • posix apiだと1.2倍
  • quota
    • グループクォータとディレクトリ単位のクォータを併用できる (xfsはできない)
  • データ完全性
    • 書き込み時にダイジェスト(SHA1とか)を計算
    • 読み込み時にチェック 異なっていたら lost+found に移動 修復
    • JLDG 9.9PB 111Mfiles 書き込み後ベリファイで5ファイル検出

分散深層学習を支えるストレージ技術〜AI橋渡しクラウド ABCIの事例と将来課題
産業技術総合研究所人工知能研究センター 主任研究員 佐藤 仁

  • https://www.youtube.com/watch?v=CnfjLiaEaWc
  • 東大柏に 0.550EFlops 37.2PFlops(DP) 19.88 PFlops(peak) 国内最速スパコン
  • gfarmも動く (サポートはしてないが検証はした)
  • 建物から設計した
  • 1node = tesla V100 x4 + Xeon Gold 6148 + 384GiB + NVMe 1.6TB + EDR IB HCA x2
  • 1rack = 34 nodes + full-bisection BW fat-tree ; 70kW
  • inter-rack = 1/3 BWで接続されている
  • storage
    • local: 1.6TB NVMe BeeOnd(like burst-buffer)でまとめることもできる
    • parallel filesystem: GPFS (DDN SFA14K) x3
    • object storage: GPFSの領域の一部でopenstack swiftをうごかしてS3 like APIを提供。グローバルからアクセスできる。暗号化も。
  • 分散深層学習
    • データ並列
      • 同期型 パラメータを正確に更新できるので精度が高い デファクトスタンダード
      • 非同期型 はやい
    • モデル並列
  • GPU+CuDDN(演算), NCCL2(ネットワーク通信), MPI(プロセスの起動)
  • Chainer: forward->backword->optimize
  • ChainerMN: forward->backword->allreduce->optimize
  • 汎化性能: 局所最適化を避けて全体最適化したい
  • ABCI Grand Challenge
  • いまどき: linear scaling rule, gradual warmup, LARS
  • IOのスループットだけでなくメタデータ性能も重要 データセットが小さい 1画像70kB 弱程度
  • 学習時にランダムネスを上げるようにする 汎化性能のため
  • chainerだと配列のようにアクセスするのでopen+read+closeが大量発生してしまう。
  • フレームワークによってはDBをつかうものもある。
  • ファイルキャッシュを入れると1時間のものが30分くらいになる。
  • 将来課題
    • マルチテナントとセキュリティ
    • 企業や医療データ
    • 資源を動的にユーザグループ毎に棚貸し

[2018-10-26 14:32]

  • Q: キャッシュが有効なのはなぜ? 何度も同じファイルを読んでいる?
  • A: もっと上のレイヤーでのAPIがあるといいかも。

次世代スーパーコンピュータ向けファイルシステムについて
富士通株式会社 次世代TC開発本部 ソフトウェア開発統括部
シニアアーキテクト 住元 真司

  • https://www.youtube.com/watch?v=Mf1AocSM1uA
  • A64FX
    • 1chip = (12core+1core) x4
    • 1世代前のsparc chipに比べて2倍の性能
    • Tofu2 -> TofuD
      • そのままもっていくとコスト(シリコンと電力)をくう
      • laneを半分に減らして数を増やした
  • FEFS for K computer
    • 8万ノード 100PB 1TB/s 当時luster1.8
    • 性能か信頼性かはユーザが選べる
    • stage-in → 計算 → stage-outの3段階 3倍の容量が必要になってしまう
    • ファイルの指定が手間
    • 計算時間が短かいとデータの移動がムダ(利用効率が落ちる)
  • ローカルはよりアプリ寄のストレージ → luster-based → アーカイブ
  • データのライフタイム、アクセスパターン
  • 1プロセスが1ファイルを読み書きするパターン、ファイルをつかってプロセス間のデータ通信するパターンが多い。
  • SSDの寿命の問題 アプリが1日にどのくらい書き込むか重要
  • intel optaneは性能はいいけど書き込み信頼性はnandと変らず。素子自体は信頼性が上がっているが回路の部分がいまいち。
  • How SSD based storage shoud be used?
    • lifetime, application's access pattern, data sharing in a job, data shareing among multiple jobs, ssd lifetime issue
  • LLIO (prototype) burst buffer nodeを用意する

[2018-10-26 15:06]

  • Q :メタデータは2nd storageをつかう?
  • A: キャッシュとしてつかうときだけ。ローカルなら

[2018-10-26 15:07]

休憩

[2018-10-26 15:16]

オブジェクトストレージ、AI+IoT+映像における利用事例
クラウディアン株式会社 取締役COO 本橋 信也

  • https://www.youtube.com/watch?v=sZCT-W_xFCo
  • 日本発だが海外の方が大きくなった。
  • オブジェクトストレージ
    • 大手の通信事業者のメールシステム NOSQL
    • amazon S3 とおなじものをつくった -> HYPERSTORE
    • ベンチャー企業として賭けに勝った
  • クラウド事業者向けに販売
  • P2P 3ノードから
  • 日本だとPBを要求する客は少ない。
  • 容量はEBくらいまでは拡張できるのを確認している。
  • replication + erasure-coding
  • バスにカメラ5台をインターネット経由で保存。
  • AI向け: メタデータとblobをまとめて扱える。
  • 実証実験: 高速道路を走る自動車をリアルタイムで識別してデジタルサイネージを出す。
  • →駐車場・ショッピングモールでつかいたいという客が。
  • GPUどうする?クラウドだとレイテンシが → AI BOXをつくった。
  • 4Kカメラ 圧縮すると意味がない エッジの処理が必要
  • 交通量の測定をAIで
  • 画角は手動で設定
  • 自動で車線を認識 車をカウント 速度 直進 右左折 CSVでデータを送る。
  • エッジで学習用の画像を切り出してクラウドに貯める。
  • 車の車種はロングテールで自動でタグ付けする必要がある。

Scalityと大規模オブジェクトストレージの運用の実際のご紹介
スキャリティ・ジャパン株式会社 セールスエンジニア 仁戸 潤一郎

  • 創業はフランス 2009
  • メールサービスのストレージからはじまった
  • 製品: RING ZENNKO
  • データはつかって価値が出る。
  • データはオンプレに置いてワークロードはクラウド。
  • object storageは容量重視、flashは速度重視、NASはあまり市場はない。
  • NASは人間のスケール。flashはオブジェクトストレージはアプリが相手。
  • RING 汎用x86 linuxで動く。ソフトのみ提供。NFS,SMBでもオブジェクトにアクセスで きる。
  • P2P CHORD
  • アプリケーション RINGコネクタサーバ ストレージサーバ スーパーバイザー
  • コネクターはブートストラップノードリストをもっていてリクエストをなげる。
  • メンテナンスタスク
    • balance ノードのつけはずしのときにデータを移動する
    • proxy
    • rebuild 最新のバージョンをもっているか定期的にチェックする
    • repair ディスク障害時にインデックス情報から再レプリカをつくる
    • purge 古いバージョンの物理削除
      • オブジェクトはコンテナファイルに保存しているのでinodeを消費しない
    • relocation
      • デフラグ
  • バックグラウンドタスクの負荷調整
  • 国内事例: KDDI iphone mailでつかっている
  • キースペースの設計が必要でシミュレーションで確認する。障害時に負荷が分散するように配置しないといけない。サポート体制が重要。
  • オジェクトストレージはアプリケーションの関する知識が必要。

[2018-10-26 16:16]

  • Q: 物理的な配置は?
  • A: データセンターをまたいでも構成できる。スプリットブレインになってもデータは アクセスできるように複製している。ラック単位・シャーシ単位でも考慮できる。

HPCI共用ストレージにおけるディザスタリカバリ、
データ二重化運用による高可用性 と災害対策の実現
国立研究開発法人理化学研究所 開発研究員 原田 浩

  • https://www.youtube.com/watch?v=9i76p_njrOc
  • 8/23 台風20号 電源障害
  • 8/31 落雷で停電
  • HPCI共用ストレージ そろそろ運用もおわるけど
    • 補足:運用が終わるのは京でHPCIは続くらしい。認証基盤だし。
  • 通信はGSI(grid security infrastructure)で暗号化している
  • 物理的には100PBくらい、二重化しているので使えるのは50PBくらい。
  • SINET5
  • メタデータサーバは東大と理研で二重化
  • フェイルオーバは自動化されてないのがつらい
  • データ破損があっても1営業日くらいで通知できる体制になっている。ユーザにはデー タは1週間くらい保存するようにいってるけど。
  • スパコンでつくるデータはお金がかかるのでデータ消失は防ぎたい。
  • 理研台風
    • 受電設備に水が入って止まった
    • 京コンピュータが止まったがストレージは止まらなかったのは幸運だった。
    • 仮復旧で停電する可能性があるので全マシンを止める必要があったのでマスターを理研から東大にフェイルオーバー。readonlyに。
  • 柏落雷
    • 東大にマスターがなかったのでたすかった。
  • 重度障害報告はしなくてすんだ。
  • IPアドレス変更・ドメイン変更のときはさすがに止めた。
  • 次の増強時は容量に余裕があるのでサイト内で二重化できそう。
  • 計算機センターに設置できるのはキャッシュメモリだけになって、ストレージは外部に、ということになりそう。場所の問題。
  • セキュリティレベルは民間レベルはむつかしいのではないか。お金の問題だとおもうけど。

[2018-10-26 17:01]

休憩

IMG_20181026_170246

[2018-10-26 17:07]

パネル:ポストムーア時代のストレージシステム

建部
  1. ポストムーア時代に想定されるストレージへの要求と問題点
  2. その問題点を解決するために必要な技術、デバイス
  3. ストレージの向かうべき方向
佐藤
  • スパコン業界からは「ストレージなんでどうでもいい」とおもわれているのではないか。
  • 高速なメモリ(HBM)をどう生かすか
  • NVDIMMをチェックポイントにどうつかうか
  • HPCコンテナ -- オールフラッシュストレージ -- オブジェトストレージ オンプレ・クラウド
  • トラディショナルなストレージだとユーザ・グループ単位の認証になるが、APIキーの ようなものも必要。
住元
  • 電力vs性能が重要
  • アメリカでは many-core と gpgpu の二種類
  • さまざまなarch
    • ノイマン型
    • アナログ型
    • ニューロ関係
    • 量子
  • こういうコンピュータとストレージをどうつなぐ?
  • なにがひつよう?
    • 移動データを抑制する
    • 主記憶の電力を抑制しながら大量データ処理
    • 蓄積型からストリーミング型のデータ処理に
本橋
  • flash hdd tape が連携
  • NBC テープアーカイブをHDD化した。トランプの若いころの映像を探すのに手間どった 。
  • メタデータ データの中身の情報のこと タグ付け 自動で
仁戸
  • ムーアの法則が終わって何がこまるのか?
  • クラウドに資本が集中する
  • データはまだサービスにくっついている
  • 個人にデータのものになるとよいのではないか。(おくすり手帳のような)
原田
  • 地理的な壁を越えたい。
  • 軽いストレージがほしい。床の耐荷重が問題になる。半分くらいしか積めない。
建部
  • まとめ
質問
  • Q: コンピューティングのためのストレージとストレージとしてのストレージ ポストムーアで分散になってストレージのブレークスルーはなに?
  • A:
    • 佐藤 スパコン屋はデータの使い方を考えてないのが問題 データの整理を自動化する 方向に。
    • 住元 ストリーミングで計算 蓄積しない方向へ
    • 本橋 GPUもストレージもひとつの箱で客に提供したい
    • 仁戸 ひとつの箱にはおさまらないのでネットワークの中にストレージがふくまれる 融合する
    • 原田 スパコンセンターはバッチスケジューラだけでいいのか? データの場所で処理 する方向に。

[2018-10-26 17:53]

懇親会は鳥元。

IMG_20181026_180251IMG_20181026_183327IMG_20181026_200219

そのあと曽田さん・白水さんとエクセルシーオルへ。

IMG_20181026_203020

tmux: cut&paste

tmuxのコピペは便利につかえるが、ひと工夫することでより便利に。

bind-key        [       copy-mode
bind-key        C-[     copy-mode
bind-key        C-]     choose-buffer "paste-buffer -p -b %%" 
bind-key        ]       choose-buffer

choose-bufferをつかうことでペーストしたいバッファをインタラクティブに選べて、不要になったバッファを消すこともできる。

paste-buffer -pオプションで(アプリがサポートしていれば)bracketed paste modeをつかって、エディタに直接ペーストできるので、たとえば普通にペーストするとインデントがずれてしまうところ、braceted paste modeをつかうとエディタが(キー入力じゃなくて)ペーストだと認識できるのでインデントがずれないし、ペーストをUNDOできる(キー入力扱いだと一発でUNDOできない)、巨大なテキストを貼り付けた場合には処理時間が短くて済む利点も。

tmux-logo-small

tmux: 画面分割

~/.tmux.confに

bind-key        /       split-window -hv
bind-key        |       split-window -h
bind-key        -       split-window -v
bind-key        _       split-window -vf

って書いておくと、縦分割横分割で、縦ってどっちだっけ?って悩む必要がなくなってよい。

tmux-logo-small

tmux: ドラッグ&ドロップでペイン入れ替え

~/.tmux.confに

bind-key -T root DoubleClick3Pane select-pane -m
bind-key -T root MouseDragEnd3Pane swap-pane -t= \; select-pane -M

というのを追加しておくと、右ボタンをダブルクリックしてドラッグするとペインの入れ替えができて便利。

tmux-logo-small

記事検索
月別アーカイブ
アクセスカウンター

    タグ絞り込み検索
    ギャラリー
    • 靴ブラシ 豚毛
    • 靴ブラシ 豚毛
    • 靴ブラシ 豚毛
    • 靴ブラシ 豚毛
    • 高反発インソール
    • 高反発インソール
    Amazon
    楽天市場
    adby google
    LINE読者登録QRコード
    LINE読者登録QRコード
    • ライブドアブログ