8.3.30. `tokenize`¶

8.3.30.1. 概要¶

tokenize コマンドは指定したトークナイザーでテキストをトークナイズします。これはトークナイズ処理のデバッグに便利です。

8.3.30.2. 構文¶

tokenize コマンドには必須の引数と省略可能な引数があります。 tokenizer と string が必須の引数で、他の引数はすべて省略可能です。

tokenize tokenizer
         string
         [normalizer=null]
         [flags=NONE]

8.3.30.3. 使い方¶

以下は簡単な使用例です。

実行例:

tokenize TokenBigram "Fulltext Search"
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     {
#       "position": 0,
#       "value": "Fu"
#     },
#     {
#       "position": 1,
#       "value": "ul"
#     },
#     {
#       "position": 2,
#       "value": "ll"
#     },
#     {
#       "position": 3,
#       "value": "lt"
#     },
#     {
#       "position": 4,
#       "value": "te"
#     },
#     {
#       "position": 5,
#       "value": "ex"
#     },
#     {
#       "position": 6,
#       "value": "xt"
#     },
#     {
#       "position": 7,
#       "value": "t "
#     },
#     {
#       "position": 8,
#       "value": " S"
#     },
#     {
#       "position": 9,
#       "value": "Se"
#     },
#     {
#       "position": 10,
#       "value": "ea"
#     },
#     {
#       "position": 11,
#       "value": "ar"
#     },
#     {
#       "position": 12,
#       "value": "rc"
#     },
#     {
#       "position": 13,
#       "value": "ch"
#     },
#     {
#       "position": 14,
#       "value": "h"
#     }
#   ]
# ]

この例では必須のパラメーターだけ使っています。 tokenizer には TokenBigram を、 string には "Fulltext Search" を指定しています。この例は TokenBigram トークナイザーで "Fulltext Search" をトークナイズしたトークンを返します。この例では "Fulltext Search" を正規化していません。

8.3.30.4. 引数¶

このセクションではすべての引数について説明します。引数はカテゴリわけしています。

8.3.30.4.1. 必須引数¶

必須引数は二つあります。 tokenizer と string です。

8.3.30.4.1.1. `tokenizer`¶

トークナイザー名を指定します。 tokenize コマンドは tokenizer で指定された名前のトークナイザーを使います。

組み込みのトークナイザーについては Tokenizers を参照してください。

以下は TokenTrigram トークナイザーを使う例です。

実行例:

tokenize TokenTrigram "Fulltext Search"
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     {
#       "position": 0,
#       "value": "Ful"
#     },
#     {
#       "position": 1,
#       "value": "ull"
#     },
#     {
#       "position": 2,
#       "value": "llt"
#     },
#     {
#       "position": 3,
#       "value": "lte"
#     },
#     {
#       "position": 4,
#       "value": "tex"
#     },
#     {
#       "position": 5,
#       "value": "ext"
#     },
#     {
#       "position": 6,
#       "value": "xt "
#     },
#     {
#       "position": 7,
#       "value": "t S"
#     },
#     {
#       "position": 8,
#       "value": " Se"
#     },
#     {
#       "position": 9,
#       "value": "Sea"
#     },
#     {
#       "position": 10,
#       "value": "ear"
#     },
#     {
#       "position": 11,
#       "value": "arc"
#     },
#     {
#       "position": 12,
#       "value": "rch"
#     },
#     {
#       "position": 13,
#       "value": "ch"
#     },
#     {
#       "position": 14,
#       "value": "h"
#     }
#   ]
# ]

他のトークナイザーを使いたい場合は、 register コマンドでトークナイザープラグインを登録する必要があります。例えば、 groonga-normalizer-mysql を登録することでMySQL互換の正規化方法を使うことができます。

8.3.30.4.1.2. `string`¶

トークナイズしたい文字列を指定します。 string の中に文字列を含める場合は、シングルクォート（ ' ）またはダブルクォート（ " ）で string をクォートする必要があります。

string の中で空白を使う例です。

実行例:

tokenize TokenBigram "Groonga is a fast fulltext earch engine!"
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     {
#       "position": 0,
#       "value": "Gr"
#     },
#     {
#       "position": 1,
#       "value": "ro"
#     },
#     {
#       "position": 2,
#       "value": "oo"
#     },
#     {
#       "position": 3,
#       "value": "on"
#     },
#     {
#       "position": 4,
#       "value": "ng"
#     },
#     {
#       "position": 5,
#       "value": "ga"
#     },
#     {
#       "position": 6,
#       "value": "a "
#     },
#     {
#       "position": 7,
#       "value": " i"
#     },
#     {
#       "position": 8,
#       "value": "is"
#     },
#     {
#       "position": 9,
#       "value": "s "
#     },
#     {
#       "position": 10,
#       "value": " a"
#     },
#     {
#       "position": 11,
#       "value": "a "
#     },
#     {
#       "position": 12,
#       "value": " f"
#     },
#     {
#       "position": 13,
#       "value": "fa"
#     },
#     {
#       "position": 14,
#       "value": "as"
#     },
#     {
#       "position": 15,
#       "value": "st"
#     },
#     {
#       "position": 16,
#       "value": "t "
#     },
#     {
#       "position": 17,
#       "value": " f"
#     },
#     {
#       "position": 18,
#       "value": "fu"
#     },
#     {
#       "position": 19,
#       "value": "ul"
#     },
#     {
#       "position": 20,
#       "value": "ll"
#     },
#     {
#       "position": 21,
#       "value": "lt"
#     },
#     {
#       "position": 22,
#       "value": "te"
#     },
#     {
#       "position": 23,
#       "value": "ex"
#     },
#     {
#       "position": 24,
#       "value": "xt"
#     },
#     {
#       "position": 25,
#       "value": "t "
#     },
#     {
#       "position": 26,
#       "value": " e"
#     },
#     {
#       "position": 27,
#       "value": "ea"
#     },
#     {
#       "position": 28,
#       "value": "ar"
#     },
#     {
#       "position": 29,
#       "value": "rc"
#     },
#     {
#       "position": 30,
#       "value": "ch"
#     },
#     {
#       "position": 31,
#       "value": "h "
#     },
#     {
#       "position": 32,
#       "value": " e"
#     },
#     {
#       "position": 33,
#       "value": "en"
#     },
#     {
#       "position": 34,
#       "value": "ng"
#     },
#     {
#       "position": 35,
#       "value": "gi"
#     },
#     {
#       "position": 36,
#       "value": "in"
#     },
#     {
#       "position": 37,
#       "value": "ne"
#     },
#     {
#       "position": 38,
#       "value": "e!"
#     },
#     {
#       "position": 39,
#       "value": "!"
#     }
#   ]
# ]

8.3.30.4.2. 省略可能引数¶

いくつか省略可能な引数があります。

8.3.30.4.2.1. `normalizer`¶

ノーマライザー名を指定します。 tokenize コマンドは normalizer という名前のノーまライザーを使います。ノーまライザーは TokenBigrma など、N-gram関連のトークナイザーにとってとても重要です。

ノーマライザーはノーマライズ中にそれぞれの文字の種類を検出します。N-gram系のトークナイザーはトークナイズ中に文字の種類を利用します。

以下はノーマライザーを使わない例です。

実行例:

tokenize TokenBigram "Fulltext Search"
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     {
#       "position": 0,
#       "value": "Fu"
#     },
#     {
#       "position": 1,
#       "value": "ul"
#     },
#     {
#       "position": 2,
#       "value": "ll"
#     },
#     {
#       "position": 3,
#       "value": "lt"
#     },
#     {
#       "position": 4,
#       "value": "te"
#     },
#     {
#       "position": 5,
#       "value": "ex"
#     },
#     {
#       "position": 6,
#       "value": "xt"
#     },
#     {
#       "position": 7,
#       "value": "t "
#     },
#     {
#       "position": 8,
#       "value": " S"
#     },
#     {
#       "position": 9,
#       "value": "Se"
#     },
#     {
#       "position": 10,
#       "value": "ea"
#     },
#     {
#       "position": 11,
#       "value": "ar"
#     },
#     {
#       "position": 12,
#       "value": "rc"
#     },
#     {
#       "position": 13,
#       "value": "ch"
#     },
#     {
#       "position": 14,
#       "value": "h"
#     }
#   ]
# ]

すべてのアルファベットが2文字ごとトークナイズされています。例えば、 Fu で1つのトークンになっています。

以下はノーマライザーを使う例です。

実行例:

tokenize TokenBigram "Fulltext Search" NormalizerAuto
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     {
#       "position": 0,
#       "value": "fulltext"
#     },
#     {
#       "position": 1,
#       "value": "search"
#     }
#   ]
# ]

連続するアルファベットが1つのトークンにトークナイズされています。例えば、 fulltext で1つのトークンになっています。

ノーマライザーを使いながら2文字でトークナイズしたい場合は TokenBigramSplitSymbolAlpha を使って下さい。

実行例:

tokenize TokenBigramSplitSymbolAlpha "Fulltext Search" NormalizerAuto
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     {
#       "position": 0,
#       "value": "fu"
#     },
#     {
#       "position": 1,
#       "value": "ul"
#     },
#     {
#       "position": 2,
#       "value": "ll"
#     },
#     {
#       "position": 3,
#       "value": "lt"
#     },
#     {
#       "position": 4,
#       "value": "te"
#     },
#     {
#       "position": 5,
#       "value": "ex"
#     },
#     {
#       "position": 6,
#       "value": "xt"
#     },
#     {
#       "position": 7,
#       "value": "t"
#     },
#     {
#       "position": 8,
#       "value": "se"
#     },
#     {
#       "position": 9,
#       "value": "ea"
#     },
#     {
#       "position": 10,
#       "value": "ar"
#     },
#     {
#       "position": 11,
#       "value": "rc"
#     },
#     {
#       "position": 12,
#       "value": "ch"
#     },
#     {
#       "position": 13,
#       "value": "h"
#     }
#   ]
# ]

すべてのアルファベットが2文字ごとにトークナイズされています。そして、すべての文字が小文字にノーマライズされています。例えば、 fu で1つのトークンになっています。

8.3.30.4.2.2. `flags`¶

トークナイズ処理をカスタマイズするオプションを指定します。「 | 」で区切って複数のオプションを指定することができます。例えば、 NONE|ENABLE_TOKENIZED_DELIMITER というように指定できます。

指定可能なフラグは以下の通りです。

フラグ	説明
`NONE`	無視されます。
`ENABLE_TOKENIZED_DELIMITER`	トークナイズ済み区切り文字を有効にします。トークナイズ済み区切り文字の詳細は Tokenizers を参照してください。

以下は ENABLE_TOKENIZED_DELIMITER を使った例です。

実行例:

tokenize TokenDelimit "Full￾text Sea￾crch" NormalizerAuto ENABLE_TOKENIZED_DELIMITER
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     {
#       "position": 0,
#       "value": "full"
#     },
#     {
#       "position": 1,
#       "value": "text sea"
#     },
#     {
#       "position": 2,
#       "value": "crch"
#     }
#   ]
# ]

TokenDelimit トークナイザーはトークナイズ済み区切り文字をサポートしているトークナイザーの1つです。 ENABLE_TOKENIZED_DELIMITER でトークナイズ済み区切り文字を有効に出来ます。トークナイズ済み区切り文字はトークンの区切りを表す特別な文字です。この文字は U+FFFE です。この文字コードはどの文字にも割り当てられていません。つまり、通常の文字列にはこの文字は現れません。よって、トークンの区切りを表すという目的には適切な文字です。 ENABLE_TOKENIZED_DELIMITER が有効のときは、対象文字列はすでにトークナイズ済みであると扱われます。トークナイザーは単にトークナイズ済み区切り文字で区切ってトークナイズします。

8.3.30.5. 戻り値¶

tokenize コマンドはトークナイズしたトークンをすべて返します。各トークンはトークン自身の文字列情報以外にいくつかの属性を持ちます。属性は今後増えていく可能性があります:

[HEADER, tokens]

HEADER

HEADER については 出力形式 を参照してください。

tokens

tokens はトークンの配列です。トークンは以下の属性を持ったオブジェクトです。

名前

説明

value
トークン自身

position
N番目のトークン。

8.3.30.6. 参考¶

Tokenizers

groonga - オープンソースのカラムストア機能付き全文検索エンジン

8.3.30. `tokenize`¶

8.3.30.1. 概要¶

8.3.30.2. 構文¶

8.3.30.3. 使い方¶

8.3.30.4. 引数¶

8.3.30.4.1. 必須引数¶

8.3.30.4.1.1. `tokenizer`¶

8.3.30.4.1.2. `string`¶

8.3.30.4.2. 省略可能引数¶

8.3.30.4.2.1. `normalizer`¶

8.3.30.4.2.2. `flags`¶

8.3.30.5. 戻り値¶

8.3.30.6. 参考¶

目次

前のトピックへ

次のトピックへ

このページ

名前	説明
`value`	トークン自身
`position`	N番目のトークン。

groonga - オープンソースのカラムストア機能付き全文検索エンジン

ナビゲーション

8.3.30. tokenize¶

8.3.30.1. 概要¶

8.3.30.2. 構文¶

8.3.30.3. 使い方¶

8.3.30.4. 引数¶

8.3.30.4.1. 必須引数¶

8.3.30.4.1.1. tokenizer¶

8.3.30.4.1.2. string¶

8.3.30.4.2. 省略可能引数¶

8.3.30.4.2.1. normalizer¶

8.3.30.4.2.2. flags¶

8.3.30.5. 戻り値¶

8.3.30.6. 参考¶

目次

前のトピックへ

次のトピックへ

このページ

クイック検索

ナビゲーション

8.3.30. `tokenize`¶

8.3.30.4.1.1. `tokenizer`¶

8.3.30.4.1.2. `string`¶

8.3.30.4.2.1. `normalizer`¶

8.3.30.4.2.2. `flags`¶