sgykfjsm.github.com

ITフォーラムセッション 「ビッグデータ活用実務フォーラム」に行ってきた。

ITフォーラムセッション 「ビッグデータ活用実務フォーラム」に行ってきた。短い時間に対して、とても豪華なスピーカーだったので、これは行くしかないなーという感じで行ってきた。各セッション30分なので、とても密度が濃かった。

以下はメモ。聞きながらなので、乱文乱筆ご容赦。

「ビッグデータ活用実務フォーラムの概要紹介」、および「医療、農学、環境分野におけるビッグデータ分析の実際」

スピーカーは石井 一夫 (東京農工大学 農学府農学部 特任教授)さん。

  • だれか女子部つくって
  • ナンパじゃなくてガチで硬派なスタイル

  • ビッグデータはゲームや広告だけじゃない

  • ゲノム科学におけるビッグデータ分析
  • 次世代シーケンサーによりヒトゲノムが数日から数週間で読み取れるようになった
  • プログラムにはshellとかawkとかsedとかLLとか
  • Hadoopももちろん使ってるよ
  • インフラはAWSとかのクラウド
  • 解析のソフトウェアで言うと、Crossbowってのがある。

ここから事例

  • 次世代シーケンサーから出力されるデータのクォリティチェック
  • いっぺんに数億個のデータが出てくる
  • モンテカルロ法
  • Rでゴニョゴニョやってる
  • ヒストグラムとかヒートマップ、箱ひげ図での評価

2つ目の事例

  • 進化系統樹
  • データを比較的短い時間で捌けるようになった。それをどう使うか。
  • ほぼ無限の組み合わせをモンテカルロ法を用いて絞込?を行って組み合わせを試す
  • 447個の遺伝子から4つを取り出して組み合わせを試す
    • それでも16億パターンぐらいある
  • これらのパターンから進化系統樹を最適化する

3つ目の事例

  • 精神疾患に関する調査
  • 糖尿病よりも精神疾患の患者が多く、癌による死者の2倍以上
  • 精神神経疾患系の構築の試み
    • 経験的診断からの脱却を図る
  • 採取したDNA、RNAを採取して網羅的ゲノム解析を行う
  • 色々やってモデルを作る。
  • 感度と特異度を用いて完全な診断を行う。

「ビッグデータ活用実務フォーラムの概要紹介」、および「医療、農学、環境分野におけるビッグデータ分析の実際」

スピーカーは當仲寛哲(USP研究所 代表取締役所長)さん。

  • ユニケージ手法とはUNIXの基本的な機能だけで実現する開発手法
  • 枯れた技術をとことん使い倒す
  • とは言え、シェルだけではなくてCとかPythonで作った高速なライブラリを用いている
  • DLできるみたいなこと言ってた
  • 行儀の良い開発作法の研究
  • 数千万件ぐらいまでのデータ規模であれば、30-40個ぐらいのコマンドで1台の端末でさばくことができる。
  • どちらかというと、システム部門よりも業務部門向けに展開していることが多い。
  • テキストでデータがあればいいので、データ設計というか、何をキーとするかなどをあまり考えなくてよくなる。
  • COBOLやSQLバッチの置き換え
  • BIツールの置き換え
  • どのくらい早くなる?
    • COBOLで15時間だったのが2時間弱になった
    • 3645ステップから981ステップへ
    • 想定3ヶ月間ぐらいなのに対して13日の期間でここまで改善された。
  • 幅広く使うのではなく、道具を絞り込んでそれを使い倒すという思想
  • Java + SQLで90分ぐらいが90秒ぐらいになった。
  • OSネイティブに作りこむことでオーバヘッドを減らす
  • Firewallのログ解析に2400分かかってた処理を60分に短縮することができた。
  • usp BOAとかいうクラスタシステムを使うことで100億件のデータは数秒でできる
  • ゲノム解析でのクォリティチェック、バスの運行情報のリアルタイム集計
  • R言語の関数をC言語で書き換えて

ビッグデータ時代のOne to oneマーケティングの実際

スピーカーは山川義介(ALBERT 代表取締役会長)さん。

  • One to Oneって?
    • 販売機会 to 顧客→実務的には最小顧客セグメント
    • このセグメントを最適化するのが大事
  • 一番注目されているのは行動履歴データ
    • 特に購買履歴は精度データが高い
    • 属性データはほとんど使わない
    • 人口統計的データや心理的データはもう分析の現場では使われなくなりつつ有る。
  • アンケートデータは非常に密であるが、購買データはsparse(疎、まばら)
    • こうゆうデータは従来の秀峰では非常に難しい
    • 3次元的に分析する
  • sparse対策
    • POSデータをカテゴリ単位に分析する
    • SKU単位の相関よりカテゴリ単位の相関のほうがはるかにパワフルで精緻な購買予測が可能になる
    • 分析に適したカテゴリ付を行なうことが必要
  • CTB分析
    • Category, Taste, Brand
  • 従来のクラスター分析の手法の問題点
    • k-means法でとにかく似ているクラスターを作る。
    • ユークリッド距離
    • コサイン類似度
    • クラスター分析における距離に関する疑問がある
    • ALBERT距離という概念
      • 特許出願中らしい
  • cos距離だと原点から放射前条に広がる
  • ユークリッド距離だと比較的均一に広がる
  • ALBERT距離だと軸や平面付近とそれ以外に分割される
  • ALBERT距離を使って、ロイヤルカスタマー可への応用を図っている
    • 今までRFM分析におけるロイヤルカスタマーだと何を買ったかは考慮していない
    • 購入カテゴリを考慮したロイヤルカスタマー化

機械学習と検索の融合が実現するリアルタイムビッグデータ分析

スピーカーは西川徹(Preferred Infrastructure 代表取締役最高経営責任者)さん。

  • Hadoopの先のBigDataアプリケーション
    • Collection, Reporting, Analytics, Actionのうちデータサイエンティストがカバーしている後半2つがPFIの事業領域
  • 機械学習技術を活用することでデータに対する深い分析の実現を目指す
    • 人間の学習過程をコンピュータ上で実現する
  • Jubatus
    • 広告配信とかに使われているらしい
  • 集計から深い分析へ, 構造化から非構造化へ, バッチからリアルタイムへ
    • リアルタイムにログを収集して分析できる世界へ
  • Sedue for BigData
    • リアルタイムに動画を分析して自動的にタグ付けを行う, とか
  • ビッグデータの先を目指して
    • 今のでデータは人が生み出したものがほとんど
    • トランザクションとかSNSとか
    • 人のクロック数が上がらない限り、データの増加量は頭打ちになるよね
    • そこで監視カメラ、スマホのセンサーデータとかの機械由来のデータは今後爆発的に増えていくというか、増やすことはどうにでもできることに着目
    • こういったデータはすでにエッジ(縁)に存在している
  • データを集約するアプローチは近い将来うまくいかなくなる
    • 物理的、地理的な制約によるエッジデバイスの普及とのギャップ
    • エッジヘビーコンピューティング
      • データを貯めない、一箇所に集めないということを前提にしたアーキテクチャ
      • エッジ側がもっとintelligentになった階層型のアーキテクチャ
      • 中央に集めなくても良いデータとかあるしね
    • だからJubatusがアツい
      • ノード間で学習の差分を交換しあう
      • Loose Model Sharing
      • Jubatusはクラウド上だけじゃなくてネットワーク機器とかエッジデバイスにも埋め込んでそれおれが互いに強調してより深い分析や判断を行えるようにする.
  • Data in Motion API
    • 監視カメラの映像をData in Montion APIを通じて収集してそれをJubatusとかSedueでアレコレしていい感じにしている(聞き損ねた
  • 機械学習と検索技術のリアルタイム化は必須で、中央ではなくエッジで処理するアプローチ

ビッグデータ」の業務利用の夢と現実と絶望

スピーカーは神林飛志(ノーチラス・テクノロジーズ 代表取締役社長)さん。

  • ビッグデータとは
    • データ爆発の文脈から出てきた言葉
    • 大前提としてPetaByteクラス
    • ビッグデータって英語で言うと、large amount of data
  • なんで「ビッグデータ」が流行ったの?
    • モバイル以降のネタが欲しいVCとマスコミ
    • そこに評論家、政治家とかが乗っかってきた
    • 「ビッグデータ」という市場を作りたい思惑
  • 「ナノテク」というトレンド
    • 今は完全に下火
    • 「ビッグデータ」もそうなる?歴史は繰り返すのか?
  • ビジネスからみた「ビッグデータ」はビジネスになっていない
    • 大手SIerですら10数件あればいいほう
    • 実は非常に限られたデータ領域
  • M2Mはどうなの?
    • 実はすでにだいぶ昔からやってる話
    • プラントとか原発とか
    • 車の制御とか
  • 結局のところ、「ビッグデータ」市場は当初の予想よりずっと小さい
    • CRMとかは健全に成長している
  • ビッグデータで商売にするには
    • ビッグデータって言わない
    • バズワードは禁句
    • データの細粒度化に焦点を当てる
    • 虱潰し
    • 組み合わせの爆発にどう対応するか
    • これまでのトレンドとは違う技術
      • 並列処理とか
  • 技術から見たら?
    • 非常に有望な技術が生まれつつある
    • スケールアウト
    • 分散・並列クエリー
    • 分散トランザクション
    • 複数DC間の整合性確保
    • 主役はGoogleやAMazon
  • 研究から実業への落とし込み
    • 分散・並列
    • 既存技術
      • MapReduce
      • NoSQL
      • 現状では当たり前すぎて、もはやどうでもよいレベル
    • NWコストの低下によってこれまでとは違うアプローチができるようになった
  • で、日本は?
    • マスコミ、評論家がよって集まって「データが大きくなくても良い」という風潮をつくった
    • 大事なのはアプリケーションでしょ?
    • それはそうなんだけど、失われた基盤技術
  • 技術屋としては?
    • 最低限のNoSQLやHadoopの知識
    • Try & Errorができる環境
    • トレンドを追いかける
    • VCに踊らされない
    • データを絞るのではなくて、分散とか並列とかで潰していく
  • 人から見た
    • リアルタイムって処理が早いことじゃなくて、マイクロセカンドからナノセカンドへ
    • プレゼンテーションが「シリコンバレーのVC向け」
  • データサイエンスの矛盾
    • 統計手法はビッグデータのための手法じゃない。むしろ逆。
    • データサイエンスとビッグデータとの矛盾
    • そもそもデータ解析には普通の歴史がある。
      • 金融、バイオ、流通…
      • すでにプロが居るんだから、データサイエンスと名乗ることの苦悩
    • 本当にビッグデータに関わりたいのであれば、日本からでていくこと
      • 無いものを無理やりつくろうとした。
      • 正常な進化ができなくなった日本IT
      • ビジネスとしては旧来市場に参入するしかない
        • レッドオーシャン
    • 海外
      • 正面からビッグデータに取り組む
      • インフラを含めた基礎技術の改変に取り組む
      • よって進む技術革新
      • いままで出来なかったことができるようになる
        • ブルーオーシャン