# -*- coding: utf-8 -*-

= チュートリアル

このページでは簡単なアプリケーションの作成を通して
rroongaの操作方法を紹介します。

== インストール

Ruby/groongaはRubyGemsでインストールできます。

  % sudo gem install rroonga

== データベースの作成

簡単なブックマークアプリケーション用のデータベースを作ってみ
ます。以下のようにgroongaライブラリを読み込んでirbを起動しま
す。

  % irb --simple-prompt -rubygems -rgroonga
  >>

まず、エンコーディングを設定します。ここではUTF-8を利用します。

  >> $KCODE = "UTF-8"
  => "UTF-8"
  >> Groonga::Context.default_options = {:encoding => :utf8}
  => {:encoding=>:utf8}

それでは、ファイルを指定してデータベースを作成します。

  >> Groonga::Database.create(:path => "/tmp/bookmark.db")
  => #<Groonga::Database ...>

ここで作成したデータベースは、これ以降、暗黙のうちに利用され
ます。最初にデータベースを作成したら特に意識する必要はありま
せん。

== テーブルの定義

groongaには以下の3種類のテーブルがあります。

[Groonga::Hash]
  ハッシュテーブル。主キーでレコードを管理します。キーと完全
  一致するレコードを非常に高速に検索することができます。
[Groonga::PatriciaTrie]
  パトリシアトライ。ハッシュテーブルに比べて完全一致検索の速
  度がやや遅いですが、前方一致検索・共通接頭辞探索などの検索
  が行えます。またカーソルを用いてキーの昇降順にレコードを取
  り出すことができます。
[Groonga::Array]
  配列。主キーの存在しないテーブルです。レコードはIDによって
  識別します。

ここではハッシュテーブルを利用して、<tt>Items</tt>という名前のテー
ブルを作成します。キーは文字列とします。

  >> items = Groonga::Hash.create(:name => "Items", :key_type => "ShortText")
  => #<Groonga::Hash ...>


これで<tt>Items</tt>という名前のテーブルが作成できました。

テーブルはRubyのHashのように扱えます。

例えば、以下のように+size+でテーブルに登録されているレコード
の件数を取得できます。

  >> items.size
  0

== レコードを追加する

<tt>Items</tt>テーブルにレコードを追加します。

  >> items.add("http://ja.wikipedia.org/wiki/Ruby")
  => #<Groonga::Record ...>
  >> items.add("http://www.ruby-lang.org/")
  => #<Groonga::Record ...>

件数を確認すると確かに2件増えています。

  >> items.size
  => 2

主キーを指定してレコードを取り出す時には以下のようにします。

  >> items.find("http://ja.wikipedia.org/wiki/Ruby")
  => #<Groonga::Record ...>

== 全文検索を行う

各itemのタイトル文字列を登録して、全文検索できるようにしてみ
ましょう。

まず<tt>Items</tt>テーブルに+title+という名前のカラムを追加します。

  >> title_column = items.define_column("title", "Text")
  => #<Groonga::VarSizeColumn ...>

2番目の引数は、追加するカラムのデータ型を示しています。
<tt><int></tt>、<tt>Text</tt>、<tt><longtext></tt>等の型が基本型として用意されて
います。

全文検索するためには、文字列を分解して得られる各単語を格納す
るためのテーブルを別途しなければなりません。ここではTermsと
いう名前でテーブルを定義します。

  >> terms = Groonga::Hash.create(:name => "Terms",
                                  :key_type => "ShortText",
                                  :default_tokenizer => "TokenBigram")
  => #<Groonga::Hash ...>

ここでは、トークナイザとして<tt>:default_tokenzier =>
"TokenBigram"</tt> を指定しています。トークナイザとは文字
列を単語に分解するオブジェクトのことです。デフォルトではトー
クナイザは指定されていません。全文検索を利用するためにはトー
クナイザを指定する必要があるので、ここではN-gramの一種である
バイグラムを指定しています。

N-gramを利用した全文検索では、分解したN文字とその出現位置を利
用して全文検索を行います。N-gramのNは文字列を何文字毎に分解す
るかの文字数になります。groongaは1文字で分解するユニグラム、
2文字のバイグラム、3文字のトリグラムをサポートしています。

単語格納用テーブルの準備ができたので、<tt>Items</tt>テーブ
ルの+title+カラムに対するインデックスを定義します。

  >> title_index_column = terms.define_index_column("item_title", items,
						    :source => "Items.title")
  => #<Groonga::IndexColumn ...>

少し違和感を感じるかも知れませんが、<tt>Items</tt>テーブル
のカラムに対するインデックスは、<tt>Terms</tt>テーブルのカ
ラムとして定義します。

<tt>Items</tt>にレコードが登録されると、その中に含まれる単
語に該当するレコードが<tt>Terms</tt>に自動的に追加されるよ
うになります。

<tt>Terms</tt>は、文書に含まれる語彙に相当する、やや特殊な
テーブルだと言えます。しかし、他のテーブルと同様に語彙テーブ
ルには自由にカラムを追加し、単語毎の様々な属性を管理すること
ができます。これはある種の検索処理を行う際には非常に便利に機
能します。

これでテーブルの定義は完了です。

先ほど登録した各レコードの+title+カラムに値をセットします。

  >> items.find("http://ja.wikipedia.org/wiki/Ruby")["title"] = "Ruby"
  => "Ruby"
  >> items.find("http://www.ruby-lang.org/")["title"] = "オブジェクトスクリプト言語Ruby"
  "オブジェクトスクリプト言語Ruby"

以下のようにして検索することができます。

  >> title_index_column.search("Ruby").collect {|record| record.key.key}
  ["http://ja.wikipedia.org/wiki/Ruby", "http://www.ruby-lang.org/"]

検索結果はGroonga::Hashで返されます。ハッシュのキーに見つかっ
た<tt>Items</tt>のレコードが入っています。上の例では
+record.key+で<tt>Items</tt>のレコードを取得して、さらにそ
のキーを指定して（+record.key.key+）で<tt>Items</tt>のキー
を返しています。


== マルチユーザ向けのブックマークアプリケーション

ここまでで作った単機能のアプリケーションをもう少し拡張して、
複数のユーザが、それぞれにコメントを記入できるブックマークア
プリケーションにしてみましょう。

まず、ユーザ情報とコメント情報を格納するテーブルを追加して、
下図のようなテーブル構成にします。

http://qwik.jp/senna/senna2.files/rect4605.png

まず、<tt>Users</tt>テーブルを追加します。

  >> users = Groonga::Hash.create(:name => "Users",
                                  :key_type => "ShortText")
  => #<Groonga::Hash ...>
  >> users.define_column("name", "Text")
  => #<Groonga::VarSizeColumn ...>


次に、<tt>Comments</tt>テーブルを追加します。

  >> comments = Groonga::Array.create(:name => "Comments")
  => #<Groonga::Array ...>
  >> comments.define_column("item", items)
  => #<Groonga::FixSizeColumn ..>
  >> comments.define_column("author", users)
  => #<Groonga::FixSizeColumn ..>
  >> comments.define_column("content", "Text")
  => #<Groonga::VarSizeColumn ..>
  >> comments.define_column("issued", "Time")
  => #<Groonga::FixSizeColumn ..>

<tt>Comments</tt>テーブルの+content+カラムを全文検索できる
ようにインデックスを定義します。

  >> terms.define_index_column("comment_content", comments,
                               :source => "Comments.content")
  => #<Groonga::IndexColumn ...>

これでテーブルが定義できました。

続いてユーザを何人か追加します。

  >> users.add("moritan", :name => "モリタン")
  => #<Groonga::Record ...>
  >> users.add("taporobo", :name => "タポロボ")
  => #<Groonga::Record ...>

次に、実際にユーザがブックマークを貼る時の処理を実行してみま
しょう。

ユーザ+moritan+が、はてなダイアリーのとあるページをブックマーク
したと想定します。

まず対象のページが<tt>Items</tt>テーブルに登録済かどうか調
べます。

  >> items.find("http://d.hatena.ne.jp/brazil/20050829/1125321936")
  => nil

未登録なのでまず当該ページを<tt>Items</tt>に登録します。

  >> items.add("http://d.hatena.ne.jp/brazil/20050829/1125321936",
               :title => "[翻訳]JavaScript: 世界で最も誤解されたプログラミング言語")
  => #<Groonga::Record ...>

次に、登録したitemを+item+カラムの値に指定して
<tt>Comments</tt>にレコードを登録します。

  >> comments.add(:item => "http://d.hatena.ne.jp/brazil/20050829/1125321936",
                  :author => "moritan",
                  :content => "JavaScript LISP",
                  :issued => 1187430026)
  => #<Groonga::Record ...>

== メソッド化

上記の一連の手続きをメソッドにまとめてみます。

  >> @items = items
  >> @comments = comments
  >> def add_bookmark(url, title, author, content, issued)
  >>   item = @items.find(url) || @items.add(url, :title => title)
  >>   @comments.add(:item => item,
  >>                 :author => author,
  >>                 :content => content,
  >>                 :issued => issued)
  >> end

+itmes+と+comments+をインスタンス変数に代入しているのはメソッ
ド内からでも見えるようにするためです。

+add_bookmark+は以下のような手順を実行しています。

* <tt>Items</tt>テーブルに該当ページのレコードがあるかどうか調べる。
* レコードがなければ追加する。
* <tt>Comments</tt>テーブルにレコードを登録する。

作成したメソッドを呼び出していくつかブックマークを登録してみ
ましょう。

  >> add_bookmark("http://practical-scheme.net/docs/cont-j.html",
                  "なんでも継続", "moritan", "継続 LISP Scheme", 1187568692)
  => #<Groonga::Record ...>
  >> add_bookmark("http://d.hatena.ne.jp/higepon/20070815/1187192864",
                  "末尾再帰", "taporobo", "末尾再帰 Scheme LISP", 1187568793)
  => #<Groonga::Record ...>
  >> add_bookmark("http://practical-scheme.net/docs/cont-j.html",
                  "なんでも継続", "taporobo", "トランポリン LISP continuation",
                  1187568692)
  => #<Groonga::Record ...>

== 全文検索その2

登録したレコードに対して全文検索を実行してみます。

  >> records = comments.select do |record|
  >>   record["content"] =~ "LISP"
  >> end
  >> records.each do |record|
  >>   record = record.key
  >>   p [record.id,
  >>      record[".issued"],
  >>      record[".item.title"],
  >>      record[".author.name"],
  >>      record[".content"]]
  >> end
  [1, Sat Aug 18 18:40:26 +0900 2007, "[翻訳]JavaScript: 世界で最も誤解されたプログラミング言語", "モリタン", "JavaScript LISP"]
  [2, Mon Aug 20 09:11:32 +0900 2007, "なんでも継続", "モリタン", "継続 LISP Scheme"]
  [3, Mon Aug 20 09:13:13 +0900 2007, "末尾再帰", "タポロボ", "末尾再帰 Scheme LISP"]
  [4, Mon Aug 20 09:11:32 +0900 2007, "なんでも継続", "タポロボ", "トランポリン LISP continuation"]

カラムへのアクセスは、カラム名を+.+で繋いで複合データ型の要素
を再帰的に辿ることができます。（同様の出力を普通のRDBで実現す
るためには、<tt>Items</tt>テーブル、<tt>Comments</tt>テー
ブル、<tt>Users</tt>テーブルのJOIN操作が必要になります。）

上の式の中で、肝心の検索処理は、第一引数の式を評価する時点で
完了していて、レコードセットオブジェクトとしてメモリに蓄積さ
れています。

  >> records
  #<Groonga::Hash ..., size: <4>>

レコードセットは、出力する前に様々に加工することができます。

以下は、日付で降順にソートしてから出力した例です。

  >> records.sort([{:key => ".issued", :order => "descending"}]).each do |record|
  >>   record = record.key
  >>   p [record.id,
  >>      record[".issued"],
  >>      record[".item.title"],
  >>      record[".author.name"],
  >>      record[".content"]]
  >> end
  [3, Mon Aug 20 09:13:13 +0900 2007, "末尾再帰", "タポロボ", "末尾再帰 Scheme LISP"]
  [2, Mon Aug 20 09:11:32 +0900 2007, "なんでも継続", "モリタン", "継続 LISP Scheme"]
  [4, Mon Aug 20 09:11:32 +0900 2007, "なんでも継続", "タポロボ", "トランポリン LISP continuation"]
  [1, Sat Aug 18 18:40:26 +0900 2007, "[翻訳]JavaScript: 世界で最も誤解されたプログラミング言語", "モリタン", "JavaScript LISP"]

同じitemが何度も出てくると検索結果が見にくいので、item毎にグ
ループ化してみます。

  >> records.group("item").each do |record|
  >>   item = record.key
  >>   p [record.n_sub_records,
  >>      item.key,
  >>      item[".title"]]
  >> end
  [1, "http://d.hatena.ne.jp/brazil/20050829/1125321936", "[翻訳]JavaScript: 世界で最も誤解されたプログラミング言語"]
  [2, "http://practical-scheme.net/docs/cont-j.html", "なんでも継続"]
  [1, "http://d.hatena.ne.jp/higepon/20070815/1187192864", "末尾再帰"]

+n_sub_records+というのはグループ化した単位に含まれるレコード
の件数を示します。SQLで言えば、GROUP BY句を含むクエリのcount
関数のような働きです。

== 少し複雑な検索

↓はまだ動かない！！！

さらに実用的な検索について考えてみましょう。

ブックマークが大量に蓄積されるに従って、より的確に適合度を算
出する必要性に迫られます。

今のところ検索対象として利用できるのは<tt>Items.title</tt>
と<tt>Comments.content</tt>ですが、<tt>Items.title</tt>は
元ページから得られるやや信頼できる情報なのに対して、
<tt>Comments.content</tt>はブックマークユーザが任意に設定で
きる情報で、やや信憑性に乏しいと言えます。しかし、再現率を確
保するためにはユーザのコメントも是非対象に含めたいところです。

そこで、以下のようなポリシーで検索を行うことにします。

* <tt>Items.title</tt>か<tt>Comments.content</tt>のいずれ
  かにマッチするitemを検索する。
* ただし、<tt>Items.title</tt>にマッチしたレコードはスコア
  を10倍重み付けする。
* 同一のitemに対して、キーワードにマッチする<tt>comment</tt>
  が複数存在した場合は、それぞれの<tt>comment</tt>のスコアの
  和を、該当するitemのスコアとする。

以下のようにして、commentとitemとそれぞれに対する検索結果を求
めます。

  >> ruby_comments = @comments.select {|record| record["content"] =~ "Ruby"}
  #<Groonga::Hash ..., size: <2>>
  >> ruby_items = @items.select("*W1:50 title:@Ruby")
  #<Groonga::Hash ..., size: <2>>

_ruby_comments_の結果をitem毎にグループ化し、_ruby_items_と
unionして出力します。

  >> ruby_items = ruby_comments.group("item").union!(ruby_items)
  #<Groonga::Hash ..., size: <4>>
  >> ruby_items.sort([{:key => "._score", :order => "descendant"}]).each do |record|
  >>   p [record["._score"], record[".title"]]
  >> end
  [1, "るびま"]
  [1, "オブジェクトスクリプト言語Ruby"]
  [1, "Ruby"]
  [1, "ラングバ"]

これで目的の結果が得られました。（FIXME: 得られていない！）