groonga - An open-source fulltext search engine and column store.

4.7. match_columnsパラメータ

4.7.1. 複数のカラムを対象とした全文検索

groongaでは、複数のカラムを対象とした全文検索を行うことができます。例えば、ブログのテーブルで、タイトルと内容とがそれぞれ別のカラムに入ったものがあるとしましょう。「タイトルもしくは内容に特定の単語を含む」検索を行いたいとします。

この場合、2つのインデックス作成方式があります。1つは、それぞれのカラムに1つずつインデックスを付与する方式です。もう1つは、複数のカラムに対して1つのインデックスを付与する方式です。groongaでは、どちらの形式のインデックスが存在している場合でも、同一の記法で全文検索を行うことができます。

4.7.1.1. カラムごとにインデックスを付与する場合

Blog1テーブルを作り、タイトル文字列のtitleカラム、本文のmessageカラムを追加しています。 インデックス用のIndexBlog1テーブルも作り、titleカラムのインデックス用にindex_titleカラム、messageカラムのインデック用にindex_messageカラムと、それぞれ1カラムごとに1つずつ追加しています。

Execution example:

> table_create --name Blog1 --flags TABLE_HASH_KEY --key_type ShortText
[[0,1335519613.90326,0.00016021728515625],true]
> column_create --table Blog1 --name title --flags COLUMN_SCALAR --type ShortText
[[0,1335519614.10411,0.00106573104858398],true]
> column_create --table Blog1 --name message --flags COLUMN_SCALAR --type ShortText
[[0,1335519614.30595,0.00101113319396973],true]
> table_create --name IndexBlog1 --flags TABLE_PAT_KEY|KEY_NORMALIZE --key_type ShortText --default_tokenizer TokenBigram
[[0,1335519614.50779,0.000327587127685547],true]
> column_create --table IndexBlog1 --name index_title --flags COLUMN_INDEX|WITH_POSITION --type Blog1 --source title
[[0,1335519614.70891,0.00641822814941406],true]
> column_create --table IndexBlog1 --name index_message --flags COLUMN_INDEX|WITH_POSITION --type Blog1 --source message
[[0,1335519614.91621,0.00670051574707031],true]
> load --table Blog1
> [
> {"_key":"grn1","title":"groonga test","message":"groonga message"},
> {"_key":"grn2","title":"baseball result","message":"rakutan eggs 4 - 4 groonga moritars"},
> {"_key":"grn3","title":"groonga message","message":"none"}
> ]
[[0,1335519615.1238,1.00167393684387],3]

match_columnsオプションで、検索対象のカラムを複数指定することが出来ます。検索する文字列はqueryオプションで指定します。これを使うことで、タイトルと本文を全文検索することができます。

実際に検索してみましょう。

Execution example:

> select --table Blog1 --match_columns title||message --query groonga
[
  [
    0,
    1335519616.32664,
    0.00108003616333008
  ],
  [
    [
      [
        3
      ],
      [
        [
          "_id",
          "UInt32"
        ],
        [
          "_key",
          "ShortText"
        ],
        [
          "message",
          "ShortText"
        ],
        [
          "title",
          "ShortText"
        ]
      ],
      [
        1,
        "grn1",
        "groonga message",
        "groonga test"
      ],
      [
        3,
        "grn3",
        "none",
        "groonga message"
      ],
      [
        2,
        "grn2",
        "rakutan eggs 4 - 4 groonga moritars",
        "baseball result"
      ]
    ]
  ]
]
> select --table Blog1 --match_columns title||message --query message
[
  [
    0,
    1335519616.5306,
    0.000397920608520508
  ],
  [
    [
      [
        2
      ],
      [
        [
          "_id",
          "UInt32"
        ],
        [
          "_key",
          "ShortText"
        ],
        [
          "message",
          "ShortText"
        ],
        [
          "title",
          "ShortText"
        ]
      ],
      [
        3,
        "grn3",
        "none",
        "groonga message"
      ],
      [
        1,
        "grn1",
        "groonga message",
        "groonga test"
      ]
    ]
  ]
]
> select --table Blog1 --match_columns title --query message
[
  [
    0,
    1335519616.73219,
    0.000369548797607422
  ],
  [
    [
      [
        1
      ],
      [
        [
          "_id",
          "UInt32"
        ],
        [
          "_key",
          "ShortText"
        ],
        [
          "message",
          "ShortText"
        ],
        [
          "title",
          "ShortText"
        ]
      ],
      [
        3,
        "grn3",
        "none",
        "groonga message"
      ]
    ]
  ]
]

4.7.1.2. 複数のカラムにまたがったインデックスを付与する場合

内容は上の例とほぼ同じですが、titleとmessageの2つのカラムに対するインデックスが共通になっており、インデックスカラムが1つしかありません。

共通のインデックスを用いても、titleカラムのみでの検索、messageカラムのみでの検索、titleもしくはmessageカラムでの検索、全ての検索を行うことができます。

Execution example:

> table_create --name Blog2 --flags TABLE_HASH_KEY --key_type ShortText
[[0,1335519616.93386,0.000204801559448242],true]
> column_create --table Blog2 --name title --flags COLUMN_SCALAR --type ShortText
[[0,1335519617.13462,0.000517606735229492],true]
> column_create --table Blog2 --name message --flags COLUMN_SCALAR --type ShortText
[[0,1335519617.33589,0.000973939895629883],true]
> table_create --name IndexBlog2 --flags TABLE_PAT_KEY|KEY_NORMALIZE --key_type ShortText --default_tokenizer TokenBigram
[[0,1335519617.53761,0.000263690948486328],true]
> column_create --table IndexBlog2 --name index_blog --flags COLUMN_INDEX|WITH_POSITION|WITH_SECTION --type Blog2 --source title,message
[[0,1335519617.73843,0.00370573997497559],true]
> load --table Blog2
> [
> {"_key":"grn1","title":"groonga test","message":"groonga message"},
> {"_key":"grn2","title":"baseball result","message":"rakutan eggs 4 - 4 groonga moritars"},
> {"_key":"grn3","title":"groonga message","message":"none"}
> ]
[[0,1335519617.94267,1.00162434577942],3]

実際に検索してみましょう。結果は上の例と同じになります。

Execution example:

> select --table Blog2 --match_columns title||message --query groonga
[
  [
    0,
    1335519619.14503,
    0.000397443771362305
  ],
  [
    [
      [
        3
      ],
      [
        [
          "_id",
          "UInt32"
        ],
        [
          "_key",
          "ShortText"
        ],
        [
          "message",
          "ShortText"
        ],
        [
          "title",
          "ShortText"
        ]
      ],
      [
        1,
        "grn1",
        "groonga message",
        "groonga test"
      ],
      [
        2,
        "grn2",
        "rakutan eggs 4 - 4 groonga moritars",
        "baseball result"
      ],
      [
        3,
        "grn3",
        "none",
        "groonga message"
      ]
    ]
  ]
]
> select --table Blog2 --match_columns title||message --query message
[
  [
    0,
    1335519619.34666,
    0.000356435775756836
  ],
  [
    [
      [
        2
      ],
      [
        [
          "_id",
          "UInt32"
        ],
        [
          "_key",
          "ShortText"
        ],
        [
          "message",
          "ShortText"
        ],
        [
          "title",
          "ShortText"
        ]
      ],
      [
        1,
        "grn1",
        "groonga message",
        "groonga test"
      ],
      [
        3,
        "grn3",
        "none",
        "groonga message"
      ]
    ]
  ]
]
> select --table Blog2 --match_columns title --query message
[
  [
    0,
    1335519619.54817,
    0.000360250473022461
  ],
  [
    [
      [
        1
      ],
      [
        [
          "_id",
          "UInt32"
        ],
        [
          "_key",
          "ShortText"
        ],
        [
          "message",
          "ShortText"
        ],
        [
          "title",
          "ShortText"
        ]
      ],
      [
        3,
        "grn3",
        "none",
        "groonga message"
      ]
    ]
  ]
]

4.7.2. インデックス名を指定した全文検索

執筆中です。

4.7.3. インデックスの重み

執筆中です。