sgykfjsm.github.com

ec2にcouchbaseをインストールする。ついでにPython SDKとtd-agentも。

目的

ec2にCouchbaseを入れるついでに、fluentdで集めたログをcouchbaseに貯めこむ。

couchbaseについて

  • 元々はLutus Notesを起源に持つCouchDBの開発者のひとりであるDamien Katz氏が商業展開している製品。
  • Memcachedもベースとなっているので、MemcachedをCouchbaseクラスタにリプレースした事例もある。
  • Enterprise Edition(EE)とCommunity Edition(CE)の2つがあり、前者は2nodeまで無料、後者は無制限に無料で使える。
  • EEとCEの違いは、EEではサポートが購入でき、CEに比べ先進的な機能が付属している。対してCEはEEの型落ちのような位置づけである。
  • MongoDBと同じドキュメント型NoSQLに位置づけられる。
  • 自動シャーディング、分散クエリ、独立したキャッシュ郡などの機能や特徴を持つ。

区切り文字がASCII 001なファイルを扱う

awsのhiveでS3に直接ファイルを出力すると区切り文字がASCII 001(Ctrl + A)になる。
ASCII文字なので、普通にcatしてもパッと見は区切りが無いように見えるがvimなどで開いてみると以下のように見える。

リーン・アナリティクス入門に行ってきた

URL: http://peatix.com/event/11791

Open NetWork Labにて行われた標記の勉強会に行ってきた。

講師の人はAlistair Crollという方で、今回の勉強会というかカンファレンスは以下の目的で行われた。

リーンアナリティクスでは、解決しようとしている課題が本当に実在するものなのかを検証し、そのプロダクトやサービスを必要とする正しいユーザーを見つけ出し、何を創るかを定義し、どのようにマネタイズするか、そしてどのように世界へ広めるかを定義することができます。スタートアップや新規事業開発においていちばんのリスクは”誰も望まないものを作ってしまうこと”です。

常に計測・分析をすることで、本当に望まれるサービスを最短の道筋で作る方法であるリーンアナリティクスについての概要のレクチャーを行います。

一応、データ部隊の一員として、今回のカンファレンスに参加した。

Saddleを試す

Saddleとは

http://saddle.github.io/

SaddleはハイパフォーマンスなScala向けデータ操作ライブラリで、Scala Data Libraryの各頭文字から名付けられている。

Saddleでは以下の様なデータ形式や性質をもたらす。

  • array-backed
  • Indexed
  • 1次元または2次元データ構造
  • ベクトル計算
  • 自動的データアライメント(?)
  • データ欠損への堅牢性
  • I/O周り
  • rangeとかshuffleとか、joda DataTime objectsのヘルパーといった便利機能いっぱい

SaddleはR言語やその統計環境、numpypandasPython、そしてScalaのコレクションライブラリなどから影響を受けている。
SaddleはJVM上での構造化されたデータへのプログラミングを簡便にし、より表現豊かにすることができる。

Hosebird Clientを試す

Hosebird ClientはTwitter社製のJava HTTPクライアント
Twitter社が作ってるぐらいだからTwitterとの連携が楽にできるんじゃないかと思って、Scalaでサンプルを試す。