# -*- coding: utf-8 -*- = チュートリアル このページでは簡単なアプリケーションの作成を通して rroongaの操作方法を紹介します。 == インストール Ruby/groongaはRubyGemsでインストールできます。 % sudo gem install rroonga == データベースの作成 簡単なブックマークアプリケーション用のデータベースを作ってみ ます。以下のようにgroongaライブラリを読み込んでirbを起動しま す。 % irb --simple-prompt -rubygems -rgroonga >> まず、エンコーディングを設定します。ここではUTF-8を利用します。 >> $KCODE = "UTF-8" => "UTF-8" >> Groonga::Context.default_options = {:encoding => :utf8} => {:encoding=>:utf8} それでは、ファイルを指定してデータベースを作成します。 >> Groonga::Database.create(:path => "/tmp/bookmark.db") => # ここで作成したデータベースは、これ以降、暗黙のうちに利用され ます。最初にデータベースを作成したら特に意識する必要はありま せん。 == テーブルの定義 groongaには以下の3種類のテーブルがあります。 [Groonga::Hash] ハッシュテーブル。主キーでレコードを管理します。キーと完全 一致するレコードを非常に高速に検索することができます。 [Groonga::PatriciaTrie] パトリシアトライ。ハッシュテーブルに比べて完全一致検索の速 度がやや遅いですが、前方一致検索・共通接頭辞探索などの検索 が行えます。またカーソルを用いてキーの昇降順にレコードを取 り出すことができます。 [Groonga::Array] 配列。主キーの存在しないテーブルです。レコードはIDによって 識別します。 ここではハッシュテーブルを利用して、Itemsという名前のテー ブルを作成します。キーは文字列とします。 >> items = Groonga::Hash.create(:name => "Items", :key_type => "ShortText") => # これでItemsという名前のテーブルが作成できました。 テーブルはRubyのHashのように扱えます。 例えば、以下のように+size+でテーブルに登録されているレコード の件数を取得できます。 >> items.size 0 == レコードを追加する Itemsテーブルにレコードを追加します。 >> items.add("http://ja.wikipedia.org/wiki/Ruby") => # >> items.add("http://www.ruby-lang.org/") => # 件数を確認すると確かに2件増えています。 >> items.size => 2 主キーを指定してレコードを取り出す時には以下のようにします。 >> items.find("http://ja.wikipedia.org/wiki/Ruby") => # == 全文検索を行う 各itemのタイトル文字列を登録して、全文検索できるようにしてみ ましょう。 まずItemsテーブルに+title+という名前のカラムを追加します。 >> title_column = items.define_column("title", "Text") => # 2番目の引数は、追加するカラムのデータ型を示しています。 Text等の型が基本型として用意されて います。 全文検索するためには、文字列を分解して得られる各単語を格納す るためのテーブルを別途しなければなりません。ここではTermsと いう名前でテーブルを定義します。 >> terms = Groonga::Hash.create(:name => "Terms", :key_type => "ShortText", :default_tokenizer => "TokenBigram") => # ここでは、トークナイザとして:default_tokenzier => "TokenBigram" を指定しています。トークナイザとは文字 列を単語に分解するオブジェクトのことです。デフォルトではトー クナイザは指定されていません。全文検索を利用するためにはトー クナイザを指定する必要があるので、ここではN-gramの一種である バイグラムを指定しています。 N-gramを利用した全文検索では、分解したN文字とその出現位置を利 用して全文検索を行います。N-gramのNは文字列を何文字毎に分解す るかの文字数になります。groongaは1文字で分解するユニグラム、 2文字のバイグラム、3文字のトリグラムをサポートしています。 単語格納用テーブルの準備ができたので、Itemsテーブ ルの+title+カラムに対するインデックスを定義します。 >> title_index_column = terms.define_index_column("item_title", items, :source => "Items.title") => # 少し違和感を感じるかも知れませんが、Itemsテーブル のカラムに対するインデックスは、Termsテーブルのカ ラムとして定義します。 Itemsにレコードが登録されると、その中に含まれる単 語に該当するレコードがTermsに自動的に追加されるよ うになります。 Termsは、文書に含まれる語彙に相当する、やや特殊な テーブルだと言えます。しかし、他のテーブルと同様に語彙テーブ ルには自由にカラムを追加し、単語毎の様々な属性を管理すること ができます。これはある種の検索処理を行う際には非常に便利に機 能します。 これでテーブルの定義は完了です。 先ほど登録した各レコードの+title+カラムに値をセットします。 >> items.find("http://ja.wikipedia.org/wiki/Ruby")["title"] = "Ruby" => "Ruby" >> items.find("http://www.ruby-lang.org/")["title"] = "オブジェクトスクリプト言語Ruby" "オブジェクトスクリプト言語Ruby" 以下のようにして検索することができます。 >> title_index_column.search("Ruby").collect {|record| record.key.key} ["http://ja.wikipedia.org/wiki/Ruby", "http://www.ruby-lang.org/"] 検索結果はGroonga::Hashで返されます。ハッシュのキーに見つかっ たItemsのレコードが入っています。上の例では +record.key+でItemsのレコードを取得して、さらにそ のキーを指定して(+record.key.key+)でItemsのキー を返しています。 == マルチユーザ向けのブックマークアプリケーション ここまでで作った単機能のアプリケーションをもう少し拡張して、 複数のユーザが、それぞれにコメントを記入できるブックマークア プリケーションにしてみましょう。 まず、ユーザ情報とコメント情報を格納するテーブルを追加して、 下図のようなテーブル構成にします。 http://qwik.jp/senna/senna2.files/rect4605.png まず、Usersテーブルを追加します。 >> users = Groonga::Hash.create(:name => "Users", :key_type => "ShortText") => # >> users.define_column("name", "Text") => # 次に、Commentsテーブルを追加します。 >> comments = Groonga::Array.create(:name => "Comments") => # >> comments.define_column("item", items) => # >> comments.define_column("author", users) => # >> comments.define_column("content", "Text") => # >> comments.define_column("issued", "Time") => # Commentsテーブルの+content+カラムを全文検索できる ようにインデックスを定義します。 >> terms.define_index_column("comment_content", comments, :source => "Comments.content") => # これでテーブルが定義できました。 続いてユーザを何人か追加します。 >> users.add("moritan", :name => "モリタン") => # >> users.add("taporobo", :name => "タポロボ") => # 次に、実際にユーザがブックマークを貼る時の処理を実行してみま しょう。 ユーザ+moritan+が、はてなダイアリーのとあるページをブックマーク したと想定します。 まず対象のページがItemsテーブルに登録済かどうか調 べます。 >> items.find("http://d.hatena.ne.jp/brazil/20050829/1125321936") => nil 未登録なのでまず当該ページをItemsに登録します。 >> items.add("http://d.hatena.ne.jp/brazil/20050829/1125321936", :title => "[翻訳]JavaScript: 世界で最も誤解されたプログラミング言語") => # 次に、登録したitemを+item+カラムの値に指定して Commentsにレコードを登録します。 >> comments.add(:item => "http://d.hatena.ne.jp/brazil/20050829/1125321936", :author => "moritan", :content => "JavaScript LISP", :issued => 1187430026) => # == メソッド化 上記の一連の手続きをメソッドにまとめてみます。 >> @items = items >> @comments = comments >> def add_bookmark(url, title, author, content, issued) >> item = @items.find(url) || @items.add(url, :title => title) >> @comments.add(:item => item, >> :author => author, >> :content => content, >> :issued => issued) >> end +itmes+と+comments+をインスタンス変数に代入しているのはメソッ ド内からでも見えるようにするためです。 +add_bookmark+は以下のような手順を実行しています。 * Itemsテーブルに該当ページのレコードがあるかどうか調べる。 * レコードがなければ追加する。 * Commentsテーブルにレコードを登録する。 作成したメソッドを呼び出していくつかブックマークを登録してみ ましょう。 >> add_bookmark("http://practical-scheme.net/docs/cont-j.html", "なんでも継続", "moritan", "継続 LISP Scheme", 1187568692) => # >> add_bookmark("http://d.hatena.ne.jp/higepon/20070815/1187192864", "末尾再帰", "taporobo", "末尾再帰 Scheme LISP", 1187568793) => # >> add_bookmark("http://practical-scheme.net/docs/cont-j.html", "なんでも継続", "taporobo", "トランポリン LISP continuation", 1187568692) => # == 全文検索その2 登録したレコードに対して全文検索を実行してみます。 >> records = comments.select do |record| >> record["content"] =~ "LISP" >> end >> records.each do |record| >> record = record.key >> p [record.id, >> record[".issued"], >> record[".item.title"], >> record[".author.name"], >> record[".content"]] >> end [1, Sat Aug 18 18:40:26 +0900 2007, "[翻訳]JavaScript: 世界で最も誤解されたプログラミング言語", "モリタン", "JavaScript LISP"] [2, Mon Aug 20 09:11:32 +0900 2007, "なんでも継続", "モリタン", "継続 LISP Scheme"] [3, Mon Aug 20 09:13:13 +0900 2007, "末尾再帰", "タポロボ", "末尾再帰 Scheme LISP"] [4, Mon Aug 20 09:11:32 +0900 2007, "なんでも継続", "タポロボ", "トランポリン LISP continuation"] カラムへのアクセスは、カラム名を+.+で繋いで複合データ型の要素 を再帰的に辿ることができます。(同様の出力を普通のRDBで実現す るためには、Itemsテーブル、Commentsテー ブル、UsersテーブルのJOIN操作が必要になります。) 上の式の中で、肝心の検索処理は、第一引数の式を評価する時点で 完了していて、レコードセットオブジェクトとしてメモリに蓄積さ れています。 >> records #> レコードセットは、出力する前に様々に加工することができます。 以下は、日付で降順にソートしてから出力した例です。 >> records.sort([{:key => ".issued", :order => "descending"}]).each do |record| >> record = record.key >> p [record.id, >> record[".issued"], >> record[".item.title"], >> record[".author.name"], >> record[".content"]] >> end [3, Mon Aug 20 09:13:13 +0900 2007, "末尾再帰", "タポロボ", "末尾再帰 Scheme LISP"] [2, Mon Aug 20 09:11:32 +0900 2007, "なんでも継続", "モリタン", "継続 LISP Scheme"] [4, Mon Aug 20 09:11:32 +0900 2007, "なんでも継続", "タポロボ", "トランポリン LISP continuation"] [1, Sat Aug 18 18:40:26 +0900 2007, "[翻訳]JavaScript: 世界で最も誤解されたプログラミング言語", "モリタン", "JavaScript LISP"] 同じitemが何度も出てくると検索結果が見にくいので、item毎にグ ループ化してみます。 >> records.group("item").each do |record| >> item = record.key >> p [record.n_sub_records, >> item.key, >> item[".title"]] >> end [1, "http://d.hatena.ne.jp/brazil/20050829/1125321936", "[翻訳]JavaScript: 世界で最も誤解されたプログラミング言語"] [2, "http://practical-scheme.net/docs/cont-j.html", "なんでも継続"] [1, "http://d.hatena.ne.jp/higepon/20070815/1187192864", "末尾再帰"] +n_sub_records+というのはグループ化した単位に含まれるレコード の件数を示します。SQLで言えば、GROUP BY句を含むクエリのcount 関数のような働きです。 == 少し複雑な検索 ↓はまだ動かない!!! さらに実用的な検索について考えてみましょう。 ブックマークが大量に蓄積されるに従って、より的確に適合度を算 出する必要性に迫られます。 今のところ検索対象として利用できるのはItems.titleComments.contentですが、Items.titleは 元ページから得られるやや信頼できる情報なのに対して、 Comments.contentはブックマークユーザが任意に設定で きる情報で、やや信憑性に乏しいと言えます。しかし、再現率を確 保するためにはユーザのコメントも是非対象に含めたいところです。 そこで、以下のようなポリシーで検索を行うことにします。 * Items.titleComments.contentのいずれ かにマッチするitemを検索する。 * ただし、Items.titleにマッチしたレコードはスコア を10倍重み付けする。 * 同一のitemに対して、キーワードにマッチするcomment が複数存在した場合は、それぞれのcommentのスコアの 和を、該当するitemのスコアとする。 以下のようにして、commentとitemとそれぞれに対する検索結果を求 めます。 >> ruby_comments = @comments.select {|record| record["content"] =~ "Ruby"} #> >> ruby_items = @items.select("*W1:50 title:@Ruby") #> _ruby_comments_の結果をitem毎にグループ化し、_ruby_items_と unionして出力します。 >> ruby_items = ruby_comments.group("item").union!(ruby_items) #> >> ruby_items.sort([{:key => "._score", :order => "descendant"}]).each do |record| >> p [record["._score"], record[".title"]] >> end [1, "るびま"] [1, "オブジェクトスクリプト言語Ruby"] [1, "Ruby"] [1, "ラングバ"] これで目的の結果が得られました。(FIXME: 得られていない!)