- 日時: 2015-04-17 9:00〜17:40
- 会場: 明治大学 中野キャンパス 3F 312
- プログラム: CPSY・DC・RIS 合同研究会
★ディペンダブルコンピューティング研究会(DC) 専門委員長 金川 信康 (日立) 副委員長 井上 美智子 (奈良先端大) 幹事 岩田 浩司 (鉄道総研), 土屋 達弘 (阪大) ★コンピュータシステム研究会(CPSY) 専門委員長 吉永 努 (電通大) 副委員長 安里 彰 (富士通), 中島 康彦 (奈良先端大) 幹事 中野 浩嗣 (広島大), 入江 英嗣 (電通大) 幹事補佐 井上 浩明 (NEC), 大川 猛 (宇都宮大) 日時 2015年 4月17日(金) 09:00〜17:30 会場 明治大学中野キャンパス 高層棟3F, 312教室'(〒164-8525 東京都中野区中野 4-21-1.JR中央線・東京メトロ東西線:中野駅,北口から徒歩8分.http://www.meiji.ac.jp/koho/campus_guide/nakano/access.html.福本 聡.042-585-8437) 議題 ディペンダブルコンピューティングシステムおよび一般 ◆再生可能集積システム時限研究会(RIS)協賛
4月17日(金) 午前 (09:00〜10:15)
(1) 09:00 - 09:25 Redundant Configuration on FPGA with Rejuvenation for Real Time Applications ○Aromhack Saysanasongkham・Satoshi Fukumoto(Tokyo Metropolitan Univ.)
- SEU(single event upset)
- FPGAのpMOSが劣化して閾値電圧が上がる
- 遅延時間増加
- 制御ビットの反転(リロードするしなかくなる)
- 既存対策: 宇宙線対策, readback CRC, scrubbing, spatial redundancy, temporal redandauncy.
- 提案手法: 結果を比較して一致しなかったらリロード
- DC-DCコンバータ適用例: リロード中は冗長構成のFPGAの出力をつかう。
- Q: 4つの方がいいんでは?
- A: クリティカルな部分の故障を救うため
- Q: 2つの比較なので多数決はできないが?
- A: 結果が異なっていれば故障としてあつかう。多数決回路のエラーをどうするかも問題になる。
[2015-04-17 09:27]
(2) 09:25 - 09:50 重力計算アプリケーションのPEACH2へのオフローディング ○鶴田千晴・久原拓也(慶大)・三木洋平(筑波大)・天野英晴(慶大)
- N体シミュレーション
- GPU-CPU間の通信がボトルネックに
- GPU-GPU間通信ができるように(HA-PACS/TCA)
- PROGRAPE: FPGA版GRAPE
- PEACH2: 通信機構。PCIe 4ポートが必要でチップが大きい。FPGAの機能はあまりつかってないので空きがある。
- ツリー法: 空間を分割(LET)して、粒子iに影響がある粒子の数を絞りこんで計算量削減。
- 本研究: 空間分割(LET)はCPUで計算しているが、空いているPEACH2の中に入れた。
- avalon busをつかう。
- 通信中にon the flyで処理できる
- CPU-GPU通信削減
- Q: 粒子数が3桁ほど増えても対応できるか?
- A: レジスタに入りきらなくなるので外部DDRメモリを使えばいける。
- Q: 7.2倍の高速化は何が効いたのか? PCIeのバンド幅か?レイテンシか?
- A: 粒子数が少ないのでレイテンシかも。
[2015-04-17 09:53]
(3) 09:50 - 10:15 時間遅れのないn-フォールトトレラント制御システムの一提案 ○岩井仁司
- ハザードをあつかう。
- 多数決回路をとおすとその分遅延がふえる。
- TTE: time-to-event
- TTE時間内に故障を検知しないといけない。
- 安全要求にエラーマスクしなければならないというのは特になし。
- 多数決回路だとマスクするしかなくて時間がかかる問題があった。
- Q: 出力をバッファリングしてエラー時にキャンセルする方式もある。責任境界点をどこにするかの問題。
- Q: (ききとれず)
[2015-04-17 10:09]
--- 休憩 ( 10分 ) ---
4月17日(金) 午前 (10:25〜11:40)
(4) 10:25 - 10:50 誘導結合チップ間通信を用いた共有バスアーキテクチャ ○野村明生・藤田 悠・松谷宏紀・天野英晴(慶大)
- 3次元積層チップのチップ間通信
- ワイヤボンディング、マイクロバンプ、TSV(thru silicon via)
- 容量結合(2枚まで)、誘導結合(3枚以上可能)
- Thru Chip Interface (TCI)
- 製造後にチップ入れ替えができる。
- リングトポロジ(遅延大)、バストポロジ(ブロードキャスト可)
- 利用権割り当て方式、static TDMA(簡単、冗長な待ち時間)、dynamic TDMA(リクエストに応じて動的スロット割り当て、アービタとの通信リンクが必要)
- TCI垂直バスにはdynamic TDMAつかえない: アービタへのリクエストと結果のためのリンクが必要→それなら通信につかえばいいじゃん。
- チップ間の距離が遠くなるとインダクタの面積も大きくなる。
- 非同期式バスの提案: CSMA/CD ランダムバックオフ
- 共振型同期式バス (FL-PP同期回路) 有線でリファレンスクロックを供給して誘導結合リンクのクロックをFLL/PLLで同期する。ワイヤの遅延は気にしなくてよい。
- 通常モード(衝突あり)と再送モード(衝突なし)をきりかえる
- 枚数Nでバックオフ 2^N
- dynamic TDMAをつかった場合の評価はあまりしてないが、インダクタが面積食ってもインダクタ内に多少は回路を置ける。
[2015-04-17 10:51]
(5) 10:50 - 11:15 FPGAベースのソーティングアクセラレータの設計と実装 ○小林諒平・吉瀬謙二(東工大)
- 既存研究: Virtex-5のくみこまれているPowerPCの1.1倍くらいしか出てない
- ソーティングネットワーク、マージソートツリー
- ソーティングネットワーク: ワイヤーとコンパレータからなる。ソーティングアルゴリズムをいろいろえらべる。バブルソートも。複雑な構造は不要だがデータが増えるとコンパレータが膨大になる問題。
- バッチャー奇遇マージソート: いちばんコンパレータが少なくてかつ高速。
- マージソートツリー:2入力1出力
- 16入力(32bit*16=512bit)のソーティングネットワーク → マージソートツリー → ソーティングネットワーク(マルチプレクサを用意するのはもったいない) → 。。
- DRAMは入力と出力の両方の領域が必要でデータサイズの2倍。
- 16wayのマージソートでクイックソートの3.24倍。
- マージソートツリーを複製して複数用意してスループット向上 8倍高速化(クイックソート比)
- 関連研究では8k-wayと大きいので彼らは7倍高速。。
- Q: シリアライズしてソートすると回路規模がちいさくなるかも。
- データを圧縮すると2倍くらい速くなりそう。DRAMのバンド幅が問題になってくるので。
- 512bitはメモコンのバンド幅の上限、ソートネットワークの幅はこれで決まっている。
[2015-04-17 11:16]
(6) 11:15 - 11:40 NoCとインターネットを接続するIP-NoCトランスレータ ○柏木直諒・松谷宏紀(慶大)
- メニーコア(TILE64): チップ内ネットワークとイーサネットがシームレスにつながってない。
- 外からは1ノードにみえてる。
- トランスレータで1コア1ノードにみえるようにした。複数コアで1ノードにする構成も可能(クラスタ可)。
- IPアドレスだけではなくポート番号もあつかえる。
- トランスレータ:NoCヘッダとIP/UDPヘッダのつけかえをする。
- NoCヘッダにはノード番号がはいっている。
- 変換テーブル: ノード番号、IPアドレス、ポート番号
- CAMをつかった。
- 外からのARP応答はトランスレータが対応(ProxyARP)。
- ルータはinput portとoutput portに分かれているので、それぞれにトランスレータを配置。
- ルータにはポートがたくさんあるが、そのうちの1つにトランスレータを接続。
- 面積オーバヘッドはルータ1にたいしてトランスレータ5.8。でもルータはたくさんあって面積食ってるので問題ない。
- ソフトウェアIP-NoCトランスレータ (MIPS R2000)に比べて3〜4倍高速
- Q: gcc -O1つかった理由は?
- A: 理由はない。
- Q: トランスレータが1箇所なのでサチってしまわない?
- Q: グローバルアドレスつかった場合にはセキュリティはどう?
[2015-04-17 11:42]
--- 昼食 ( 80分 ) ---
学食は混むのでとなりのビル(中野セントラルパーク)で食べるとよいとの案内。キリンが入っているとのこと。どうりで朝、ビルに吸い込まれる人がおおかったわけだ。
速攻で学食にいったら席は空いてて座れた。Bowl B チキンデミグラスソースカツ丼 390円。
そのあと広場の芝生でごろごろ。ゆっくりしすぎて午後の部の開始に遅れてしまった。
明大マートで小岩井ミルクとコーヒー 140円を買って。
4月17日(金) 午後 (13:00〜14:40)
(7) 13:00 - 13:25 グラフ処理向けCGRA in Cacheの提案 ○竹内昌平・TRAN Thi Hong・高前田伸也・中島康彦(奈良先端大)
遅刻[2015-04-17 13:12]
- near data processing
- Q: 規模がおおきくなったら?
- A: パイプライン処理できるはず
- Q: 32バイトは小さくない?
- Q: グラフが小さくない? (局所性がないのでキャッシュサイズとグラフサイズの関係が重要なのでは?) graph500のようなスモールワールドのだとグラフがおおきくなると幅の広くなるよね?
[2015-04-17 13:25]
(8) 13:25 - 13:50 センサの知能化に適したプロセッサアーキテクチャの考察 ○檜原弘樹・岩崎 晃(東大)・橋本昌宜(阪大/JST CREST)・越智裕之(立命館大/JST CREST)・密山幸男(高知工科大/JST CREST)・小野寺秀俊(京大/JST CREST)・神原弘之(京都高度技研/JST CREST)・若林一敏・杉林直彦・竹中 崇・波田博光・多田宗弘(NEC/JST CREST)
- ユーザの立場でセンサーの開発をしている。
- NEC connexive。
- 人工衛星とおなじでIoTも数がおおすぎて修理できないので高信頼性が要求される。
- 人工衛星にのせるセンサーは質量制限もあって、今でも性能がきびしい。
- はやぶさの通信は最悪8bpsくらいになる。
- 必要なデータだけを送ってほしい。全部じゃなくて。
- ストアードプログラム方式だと演算処理があまり働いてない問題。
- マルチタスクも無駄。
- 動的再構成をつかえば2桁消費電力になる。
- チューリングマシンの読取装置自体がステートマシンのはずなのに、プログラム自体がステートマシンをシミュレーションしてる無駄。
- テープにはデータだけを書けばいいはずだ。
- 組込の世界ではプログラムの書き換えはほとんどない。仕様変更なら再出荷になる。
- 組込オートマトン(EA) 先行研究 FRRARY
- はやぶさ2にソフトウェアモデルを載せた。JPEG2000の命令とかもある。
- なんでも冗長化すると無駄なので感度が高いところだけ冗長化するフレームワークがある。
- FPGAからメモリをなくせる。銅イオンでスイッチ。
- プロセッサの命令セットは製品ごとに違っていてもかまわないが、通信は共通にしておく必要がある。
- Q: バッファが必要になって簡単にならないのでは?
- A: 人口衛星から写真を送るときに雲ばっかりだったらセンサーで弾いてしまいたい
- Q: 特徴量抽出などパイプラインになりにくい
- A: そこはマイコンで。C言語で書いておけばハードにするかソフトにするか選べる。
[2015-04-17 13:51]
(9) 13:50 - 14:15 非定型計算を高速化するニアメモリ処理アーキテクチャ ○枝元正寛・TRAN Thi Hong・高前田伸也・中島康彦(奈良先端大)
- グラフ処理ではキャッシュミス頻発
- メモリ階層間でのコピーで電力効率悪化
- インターコネクトは電力が下ってない。
- 演算1/2,依存性解決1/4,データ転送1/4の割合。
- インターコネクトを介さずメモコンに直結したプロセッサ(NMP;near memory processor)を追加する。
- 汎用CPUとはFIFOで通信する。
- トライアングルカウンティングでシミュレーションによるベンチマークをやってみた。
- BFSとトライアングル探索の繰り返し。
- BFSはメモリキャッシュが効かないが次のステップのトライアングル探索では効く。
- 関連研究のCGRAはメモリの直上にプロセッサを載せるタイプなのでアーキテクチャは比較はできない。
- Q: DIMMNET(メモリユニットに演算器をつける)などとの違いは? 本研究はメモコンに演算器をつけている。
- A: CPUとの距離とメモリとの距離がどこがいいのか?という問題。こった問題ならCPUにも近い方がいい。
- Q: プログラミングするとき、どちらでやらせるのがいいのか?
- A: キャッシュが効くならGPUでいい、キャッシュが効かないとこをNMPで。
- Q: 目的は高速化? 低消費電力?
- A: 両方
- Q: インターコネクトの消費電力は? NMPは演算性能を抑えているので消費電力量はおなじになってしまうのでは?
[2015-04-17 14:17]
(10) 14:15 - 14:40 スモールワールド結合並列プロセッサアーキテクチャ ○森 秀樹(明大)・上原 稔・松本勝慶(東洋大)
- メニーコア(100〜1000コア/パッケージ) 超並列VLSIプロセッサ
- メニーコアのベンダーはたくさんいる。GPU関係がおおい。IBM/Intelの汎用メニーコアはぼちぼち。
- 問題点: マルチスレッド通信どうする。共有メモリつらい。遅延。
- 同時性・同一性
- 通信指向プロセス(CSP) リライアビリティ検査(デッドロック・ライブロックの検証ができる)
- スモールワールド結合: 規則ただしいものとランダムなものの中間
- APL平均パス長 (小さい)
- ACC平均クラスタ係数 三角形の多さ (大きい)
- スモールワールドを2階層にしてネットワークを組む。
- 消費電力=リンク+バッファ+ルータ
- リンクを追加するとルータを通るメッセージは減る。
- Q: NII鯉淵先生の研究との違いは?
- A: スモールワールドのパラメータの違いとか、チップ内通信かチップ間通信かの違いがある。消費電力の観点。チップ内なら消費電力は重量。
- Q: 日本も過去に超並列(MPP)をやってたけど、そこから学ぶことは?
- A: 共有メモリがボトルネック。当時はアイデアはなかった。
[2015-04-17 14:51]
--- 休憩 ( 10分 ) ---
4月17日(金) 午後 特別招待講演 (14:50〜15:40)
座長: 吉永 努 (電通大)
(11) 14:50 - 15:40 [特別招待講演]高速パターンマッチング用ハードウエアについて ○笹尾 勤(明大)
[2015-04-17 14:58]
- 論理設計の専門家 (アーキテクチャじゃなくて) でも最近は上のレイヤーになってきた。
- Exact matching:ビットパターンが完全に一致したものを探す
- MAC address 48bit で表を索いてアクセス制御。MACaddr→Index、 Index→access_bits
- 70bitだと10^21=1ゼタ
- BCAM: 電気くうし、値段もたかい。
- ふつうのメモリは1つのワード線をonにするだけだが、CAMでは全ワード線をonにしないといけないし、比較回路もついてる。
- 汎用メモリで作れないか? → インデックス生成関数
- 不完全定義インデックス関数定義: 一致しない場合の値が未定。一致したらインデックス値。
- 用途: アドレス表、アクセス制御、メモリパッチなど
- 7セグメントを入力して数値(BCD:0〜9)を出力する回路を考える
- 5入力のメモリがあれば足りる(なくてもよいセグメントがある)
- 重み10の7変数不完全定義インデックス関数はどうやってつくるか?
- やってみたら 4と5ビットでほとんどをカバーできる。
- 実は2*log2(k+1)-3くらいあればよいことがわかっている。
- お年玉年賀はがきのあたりをさがす問題もおなじ。下の桁から見ていけばよい。でも一般の問題ではその規則は自明ではない。
- 線形変換するとビット数が減らせることがある。
- 1-out-of-7符号インデックス。ビット位置がインデックスになっているようなやつ。1ビットは減らせるが。
- 線形変換して3ビットに減らせる。すでに最適になっているが。
- 線形変換は決定木をつかって求める。1-out-of-7の決定木は片方に偏った木になっているが、決定木を変換してバランスさせて浅くする。
- 不均衡度が小さくなるように。各桁の1の出現頻度と0の出現頻度が均等になるように。複合度 1の数の二乗と0の数の二乗の和。
- 1-out-of-7:不均衡度が37→25に減った。
- m-out-of-n符号: 昇順辞書式でインデックス
- スキューファクター: 乱数で0と1の偏りがないとs=0 偏っていると>0.
- 偏っているときは線形変換が効く。
- O(k^2 log2 k + nk)
- ベクトルが大きいときはハッシュ関数を複数つかったほうがよい。
- ウイルス検出: IGU で厳密マッチングしてから正規表現マッチングで最終確定。
- LPM(Longest Prefix Matching) プレフィックス長ごとに回路を並列にならべる。
- CAMに比べてIGUで消費電力が1/10に。トータルでは/2くらいにしかならなかったが。
- DNAのパターンマッチング DNAは4値。
[2015-04-17 15:50]
- Q: kが違ったら作り直し?
- A: yes,コストがかかる。ウイルスなら毎日更新。変数削減アルゴリズムは用途によって選ぶ。速度重視かどうか。
[2015-04-17 15:52]
--- 休憩 ( 10分 ) ---
4月17日(金) 午後 (15:50〜17:30)
(12) 15:50 - 16:15 並列処理指向型FPGAアーキテクチャ ○藤森卓巳・渡邊 実(静岡大)
[2015-04-17 16:00]
- ASICではFPGAと比べて最先端のプロセスを使えない。
- 並列処理させるときに同じコンフィギュレーションメモリを書くのは無駄。
- 1つのコンフィグメモリで4枚のFPGAを構成するようにしてみた。全て並列ではなく汎用部分も用意。
- 動かしながら書き換えて高速化(動的再構成)の場合にも書き換え時間の短縮メリットがある。
- 論理合成の時間も節約できる。
- Q: コンフィグの時間が間に合う? SRAM遅いよね。(中村)
- A: ターゲットアプリを決めてない..
- Q: 目標を決めないのは日本のわるいところ。
- Q: アプリケーションをマッピングするところまで検討しては?
- A: まだ検討してない。
- Q: ゲームアプリで10並列あるけど、どのあたりの並列度にするのがよさそうか?
[2015-04-17 16:25]
(13) 16:15 - 16:40 クラウドに基づくIoTデバイス試作に関する一考察 ○上原 稔(東洋大)
- IoT=M2M=ハードとソフトの融合
- CoT(Cloud of Things) デバイスとサービスの連携
- 効率的な開発手法が求められている
- 以前: ハードウェアは小さく
- IoT: (littleBits) クラウドに接続するためならlinuxマシンを1台つかうのもあり、という感覚。
- デバイスの階層化: Fog computing (by Cisco) みじかなクラウド Smart Gateway経由で接続
- Fog = 地上の雲 というイメージ (ほぼプライベートクラウド)
- NAT越え: たいていL2TPでデバイス間通信。
- サービス連携フレームワークとデバイス開発のフレームワーク。
- IFTTT
- Node-RED
- BlueMix
- ThingBox Project
- MQTT (高速大容量転送には不向きでコントロールのみにつかうのが吉)
- MQTTでデバイスとアプリがメッセージループを形成する必要がある→やってみたら簡単だった。
- Q: サービス間の接続は何かあるか?
- A: 家電を考えている。在庫がなくなったことをしらせてamazonに自動注文とか。(情報家電?)
- A: スマート家電は信頼性がネックになっているのではないか?
[2015-04-17 16:51]
(14) 16:40 - 17:05 クロック変動機構を持つLSIに対するアライメント周波数解析 ○野崎佑典・吉川雅弥(名城大)
- ICカード: サイドチャンネル攻撃の脅威 (電力解析攻撃、電磁波解析攻撃、故障利用攻撃(レーザーあてたりしてビット反転させて出力をみる))
- 二線相補回路とか検算ロジックで対応
- 時間軸をずらして電力・電磁波解析を困難に。レーザー照射によるエラー注入は内部クロックが予測できないため困難に。
- クロックを可変にしたり、ラッチへのクロック供給にスキューをいれたり。
- クロックアラインメントと周波数領域での解析。
- Q: いたちごっごでは?
- A: コストをどこまで認めるかの問題。
- 80%の鍵が特定されるとヤバいという基準がある。
[2015-04-17 17:14]
(15) 17:05 - 17:30 GPS付なくしもの探知機のプロトタイプ開発 ○金川宗一郎・TRAN Thi Hong・高前田伸也・中島康彦(奈良先端大)
- Chipolo, Pocket Finder: ものの場所を知らせるセンサーが海外では売られているが、日本ではあまり見ない。
- 安価であること、探索範囲できる広い、バッテリー寿命が長い
- GNSSありなら2週間くらいしか持たない、GNSSなしなら1年くらい。
- ChibiChipの開発: 屋外GPS,屋内WiFi,位置データはWiFiでサーバに送信。
- デジタル共有回路可、アナログ共有回路可、エナジーハーベスティング(発電機能?)
- Intel Edison + Adafruit Ultimate GPS (NMEA format)
- WiFiの消費電力が多い(43%)。
- Chipoloとプロトタイプの電力を比べると1/80くらいに減らさないといけない。。
- EdisonのCPUは探索デバイスには高性能すぎる。
- Q: GPSとWiFiは同時onか?
- A: yes. 一般生活を想定してWiFiはとどくと仮定している。
- Q: 端末を盗まれたときにデータ消去する機能は必要だろう。
- Q: 太陽電池があったらよい?
- A: WiFi電波で発電するようなのを考えている。
- Q: 回路共有化はかなり大変だとおもうが?
- A: 在学中にはむつかいけど
- Q: ubocksというところが3GとGPSのチップをつくっている。数10億単位のお金がかかるのでは?
- Q: 実験的手法ではなくて、文献をさがせばある程度はわかるのでは?
- A: はい。
- Q: AC側を測定したのか?
- A: DC側を測定した。
[2015-04-17 17:40]
発表後の質問をきいていると、JAXA・東芝・NEC・防衛庁からも人が来ているようだった。
おわったあとは、中野のフジヤカメラにはじめて行ってみる。特に買いたいものもないので一周しただけ。