- 2014-06-29 14:00〜17:45
- ドワンゴ セミナールーム (歌舞伎座タワー 14F)
- http://connpass.com/event/6535/
- #jubatus_casual
- まとめ: http://togetter.com/li/686492
- 公式レポート&資料: http://blog.jubat.us/2014/07/jubatus-casual-talks-3.html
前回のアンケートの結果、ビジネス応用がいちばん要望が多かったということで今回の開催となったそう。
[2014-06-29 14:04]
Jubatus 0.6.0機能紹介 / 比戸 @sla
- SIC,NTTと共同開発
- 0.6.0で破壊的API変更あり。要確認。
- アルゴリズムを書いたらMIXが勝手に分散サーバにしてくれたりはしない。
- 削除機能: テレビ番組予測で番組が終わったらクラスを消したい、とか。
- LRUタイムスタンプはupdateしないと更新されないのでreadしただけではダメ。
- delete_class: 自然言語classifierだと各単語ごとに重みがちょこっとづつついてしまって処理が重くなることがあった。APIはdeletE_label(class labelの意味)。
- Q: コアを分離したことでの今後の展望
- A: 1アルゴリズム=1サーバになっていて使いにくいが、マルチテナントにしていきたい。1サーバ=複数アルゴリズムとか1サーバ=複数ユーザとか。
- Q: 分散はzookeeperをつかっているが、Raftは?
- A: Raft自体はコーディネートにはつかえないしetcdもいまいちで、zookeeperに対するメリットがない。
[2014-06-29 14:22]
[2014-06-29 14:23]
標的型攻撃メール対策製品でのJubatus活用事例 / NTTソフトウェア(株) 前橋賢一
- NTTソフトウェア(株) メディア事業部
- first impression: 簡単につかえるけどバギーで商用にはつらい。 (version 0.2.2)
- CipherCraft/Mail: 受信前に自動検知。メーラーとか経由地がいつもとちがうとか、スペースがいっぱいはいっているとか。
- クライアントでproxyとして動く。(サーバ版もある)
- アイコン偽装(見積書.doc.exe)とか、よく似たアイコン。
- マルウェアの検体をしらべてみると偽装したアイコンに特徴がありそう。
- update_rawで学習、similar_row_from_datumで類似度をしらべる。
- Jubatus on Windows: コア部分はwindowdでもビルドできる。サーバはsocketをつかっているのでむづい。
- AUC: 0.962。アルゴリズムはinvaerted_index。
- マルウェアじゃないけど、アイコンが似ているフリーウェアがあるため。
- トライアンドエラーのための支援がない: 設定ファイル書いて→データ流して→ダンプして
- サポートサービスをはじめた: http://www.ntts.co.jp/products/jubatus/
[2014-06-29 14:38]
- Q: マルウェアがちょっとアイコンを変えてきてるのはなぜ?ルールベースのをすりぬけるため?
- A: たぶんそう。パッカーをつくるときにビットマップがこわれちゃうのかも。杜撰にスクリーンショットからの切り抜きかも。
- Q: アルゴリズムは?
- A: 画像なのでinverted_indexをつかった。アイコンは透明なのところがあるのでアルファブレンドしてから。ピクセルサイズの正規化とか。1ピクセルずれてるとか。カラーヒストグラムとか。
- Q: クライアントで動かして性能はどうか?
- A: 速度はopenCVの前処理・特徴抽出がボトルネック。社内基準の1通/sはok。メモリはモデルファイル数10MB、オンメモリで40MB。
[2014-06-29 14:43]
休憩
[2014-06-29 14:59]
Meteor: Jubatuswをベースにしたオーディエンスの分析エンジンの紹介 / 渡部創史 (株)Intimate Merger
- DSP: demand side platform。バナー広告をオークションで決めてる。ページに直接広告を貼るのではなく。
- 0.05秒。RTB realtime bidding。
- DMP: data management platform。
- Look-a-like: 自サイトに来てくれている人に似ている人たちを探す。彼等にメールやバナーを打つ。
- ペルソナ分析: 衝動買いしやすい人とか。
- 月間1200億impression
[2014-06-29 15:19]
- Q: BidのH/W構成は?
- A: よくしらないが、数十台規模でHive+memDBで組んでいるらしい。
- Q: 年収が高い人は何を検索してる?
- A: サンプル数が少ない。年収が2000万越えの人がアンケートサイトに登録するとは考えにくい。
- Q; redshiftはなににつかう?
- A: bid以外にあつまってくる大量ログ。位置情報とか買い物トランザクションとか。容量と耐障害性の目的。
- Q: jubatusをつかわないといけなかったところは?
- A: 数人のベンチャーなのでonlineでなげられるから。MIXはつかってない。
- Q: Bazil: 男女判別の精度は?
- A: 9割くらいの精度。ログだけだと65%。yahoo 7数%。
[2014-06-29 15:27]
[2014-06-29 15:28]
評Ban(R)におけるJubatusの活用事例紹介 / 山田俊哉 NTTアイティ(株) メディアアナリティクス事業部
- ソーシャルメディア分析サービス
- 炎上をいち早く検出したいとか、ネットでの反響を知りたいとか。
- リツイートを纏めるのも簡単ではない。
- jubatusのメリット: 入力順に処理してくれるので、古いのが幹になる。パクリではなくオリジナルがわかる。
- 幹: クラスタの中心 (recommenderだけど)
- 葉: 類似文書
- 幹・葉に分けるのは、ゆっくり変化する場合には向かない。SNSではあまりない。テンプレ化されているネタツイートくらい。
[2014-06-29 15:46]
- Q: インフルエンサー
- A: ユーザのウォチング機能はある。核となるインフルエンサーを探す機能はまだない。
- Q: 話題の解像度は調節できる?
- A: キーワードはユーザが設定できるので、「ワールドカップ」で検索するか「ワールドカップ 選手名」にするとか。
- Q: 性能は?
- A: キーワードの設定によるが、通常数秒で返答、大きくても数分で。
[2014-06-29 15:50]
休憩
[2014-06-29 16:00]
センサデータ解析におけるJubatus活用事例 / 宮本哲 住友精密工業(株)
- 住友精密工業: 住友金属の航空機部門。零戦とか。MEMSとかもつくっている。
- センサネットワーク
- 自律的にネットワーク形成(アドホック、マルチホップ)。電池駆動。
- SmartdDustプロジェクト:1.5m^3,5mg以下。
- MOTE: オープンなプラットホーム。研究用に。Arduinoみたいなもの。
- 地上偵察用: レーダ照射を検出してGPSの位置情報とあわせて通知。
- 山火事: FireBug。山火事で煙でみえなくなっても火の先頭がわかる。
- EcoWizard: スーパーマーケットでの冷えすぎを検出したり、高圧受電設備とか、トンネル建設現場で無駄づかいを調べたり。
- 計測・収集・みえる化
- 複数のセンサーから事象を予測。
- ビニルハウスモニタ(ハウスみかん)
- 10月から加温、4,5月に収穫。3,4月は換気扇で上がりすぎないようにしないといけない。40度以上が15分つづくと1塔だめになる。換気扇に鳥がはさまったり。
- 成長ステージによって設定温度がかわってくるのを人手でいまはやってる。
- Jubatus Anomalyをつかった。
- 1分間隔でデータ収集。
- 通年でならしてしまうと、3月ごろの成長段階で異常になってしまう。
- 月ごとに分けてみたら改善。
- ハウス毎に分けるのは現実的でない。
- 農協がハウスのオイルタンクを補充しにくるが、油量計は高価なので、予測したい。
[2014-06-29 16:25]
- Q: センサーのドリフト(右肩上がりにようにみえるが?)は補正してる?
- A: してない。考慮する必要はあるかもしれない。
- Q: 何次元?
- A: ビニルハウスは1次元(温度)だけ。1日の中でも最高・最低気温で分ける方がいいらしい。
- Q: ハウスごとにモデルつくったが、跨いだモデル(MIX)は実験した?
- A: Rではちょっとやってみたが、いい結果はでなかった。ハウスごとに温度を測る地点がちがってたりして温度がばらつく。
- Q: 15分で警告なので、1分間隔で1つも欠損は致命的だが、どうしてる?
- A: 1分ごとにデータがとどいてるかどうか監視はしてて、2分届かなかったらアラートを上げている。
- Q: jubatusをつかうことの社内説得はどうした?
- A: 特に説得の苦労はなかった。簡単に使えた。
- Q: ビニルハウスとセットで売るようなことも考えている?
- A: 以前、ビニルハウスメーカーは乗り気ではなかった。手軽なものとして売りたい。リサーチ中。
- kumagi実家はヒーター止めるのわすれて菊が炭化したそうな
[2014-06-29 16:34]
[2014-06-29 16:35]
Jubatusで始める機械学習 / 藤村武史 エヌ・ティ・ティ レゾナント(株)
- カスタマサポートへの適用
- メールの内容で分類: 対象外(スパム・営業)・怒り(オペレータにスキルが必要)・その他
- 形態素で分類してみたら、いまいち。 → データ量に対して次元数が大きすぎた
- 手動で特徴を抽出。
- でもいまいち。
n- 個人情報をとりのぞく手間があるのでデータをたくさん用意できない。
[2014-06-29 16:51]
- Q: データ数? ラベルの偏りは?
- A: 数百件くらい(Q:自然言語にしては少なすぎてover hit、次元をおとすのは正しいアプローチ。重みの偏り(想定の逆の重みががつく)のはよくある)
- Q: やりたいことがわかっていれば、重みを自分で設定してclassifierにくわせるとよいのでは? 相関が高いのはまとめるとよい。
- Q: 横展開は?
- A: うまくいけばコールセンターに展開していきたい。
[2014-06-29 16:56]
休憩
[2014-06-29 17:16]
Jubatus使ってみた 作ってみたJubatus / 渡邉卓也 ヱヂリウム(株)
- 近傍検索はrecommenderとちがって特徴ベクトルをためないのでメモリをくわない。
- 近傍探索はあんまりはやくない。マルチスレッドは効かない。
- ロックとりっぱなしの処理とかあって並列度があがらない。
- フレームワークとしてはモジュール間の関連がソースをみないとわからない。
[2014-06-29 17:41]
- うんの: ひとつずつ対応している。社内でも認識している問題もある。実データでどうなるとか知見を共有できるといいなぁ。
- Q: なんでjubatusをつかってみたか?
- A: つかうのが前提条件だったから、としか言えない。
[2014-06-29 17:46]
LT枠を聞くには懇親会申込が必要だったので、これにて退却。銀座ぶらぶらしてから返る。