tokenize コマンドは指定したトークナイザーでテキストをトークナイズします。これはトークナイズ処理のデバッグに便利です。
tokenize コマンドには必須の引数と省略可能な引数があります。 tokenizer と string が必須の引数で、他の引数はすべて省略可能です。
tokenize tokenizer
string
[normalizer=null]
[flags=NONE]
以下は簡単な使用例です。
実行例:
tokenize TokenBigram "Fulltext Search"
# [
# [
# 0,
# 1337566253.89858,
# 0.000355720520019531
# ],
# [
# {
# "position": 0,
# "value": "Fu"
# },
# {
# "position": 1,
# "value": "ul"
# },
# {
# "position": 2,
# "value": "ll"
# },
# {
# "position": 3,
# "value": "lt"
# },
# {
# "position": 4,
# "value": "te"
# },
# {
# "position": 5,
# "value": "ex"
# },
# {
# "position": 6,
# "value": "xt"
# },
# {
# "position": 7,
# "value": "t "
# },
# {
# "position": 8,
# "value": " S"
# },
# {
# "position": 9,
# "value": "Se"
# },
# {
# "position": 10,
# "value": "ea"
# },
# {
# "position": 11,
# "value": "ar"
# },
# {
# "position": 12,
# "value": "rc"
# },
# {
# "position": 13,
# "value": "ch"
# },
# {
# "position": 14,
# "value": "h"
# }
# ]
# ]
この例では必須のパラメーターだけ使っています。 tokenizer には TokenBigram を、 string には "Fulltext Search" を指定しています。この例は TokenBigram トークナイザーで "Fulltext Search" をトークナイズしたトークンを返します。この例では "Fulltext Search" を正規化していません。
このセクションではすべての引数について説明します。引数はカテゴリわけしています。
必須引数は二つあります。 tokenizer と string です。
トークナイザー名を指定します。 tokenize コマンドは tokenizer で指定された名前のトークナイザーを使います。
組み込みのトークナイザーについては Tokenizers を参照してください。
以下は TokenTrigram トークナイザーを使う例です。
実行例:
tokenize TokenTrigram "Fulltext Search"
# [
# [
# 0,
# 1337566253.89858,
# 0.000355720520019531
# ],
# [
# {
# "position": 0,
# "value": "Ful"
# },
# {
# "position": 1,
# "value": "ull"
# },
# {
# "position": 2,
# "value": "llt"
# },
# {
# "position": 3,
# "value": "lte"
# },
# {
# "position": 4,
# "value": "tex"
# },
# {
# "position": 5,
# "value": "ext"
# },
# {
# "position": 6,
# "value": "xt "
# },
# {
# "position": 7,
# "value": "t S"
# },
# {
# "position": 8,
# "value": " Se"
# },
# {
# "position": 9,
# "value": "Sea"
# },
# {
# "position": 10,
# "value": "ear"
# },
# {
# "position": 11,
# "value": "arc"
# },
# {
# "position": 12,
# "value": "rch"
# },
# {
# "position": 13,
# "value": "ch"
# },
# {
# "position": 14,
# "value": "h"
# }
# ]
# ]
他のトークナイザーを使いたい場合は、 register コマンドでトークナイザープラグインを登録する必要があります。例えば、 groonga-normalizer-mysql を登録することでMySQL互換の正規化方法を使うことができます。
トークナイズしたい文字列を指定します。 string の中に文字列を含める場合は、シングルクォート( ' )またはダブルクォート( " )で string をクォートする必要があります。
string の中で空白を使う例です。
実行例:
tokenize TokenBigram "Groonga is a fast fulltext earch engine!"
# [
# [
# 0,
# 1337566253.89858,
# 0.000355720520019531
# ],
# [
# {
# "position": 0,
# "value": "Gr"
# },
# {
# "position": 1,
# "value": "ro"
# },
# {
# "position": 2,
# "value": "oo"
# },
# {
# "position": 3,
# "value": "on"
# },
# {
# "position": 4,
# "value": "ng"
# },
# {
# "position": 5,
# "value": "ga"
# },
# {
# "position": 6,
# "value": "a "
# },
# {
# "position": 7,
# "value": " i"
# },
# {
# "position": 8,
# "value": "is"
# },
# {
# "position": 9,
# "value": "s "
# },
# {
# "position": 10,
# "value": " a"
# },
# {
# "position": 11,
# "value": "a "
# },
# {
# "position": 12,
# "value": " f"
# },
# {
# "position": 13,
# "value": "fa"
# },
# {
# "position": 14,
# "value": "as"
# },
# {
# "position": 15,
# "value": "st"
# },
# {
# "position": 16,
# "value": "t "
# },
# {
# "position": 17,
# "value": " f"
# },
# {
# "position": 18,
# "value": "fu"
# },
# {
# "position": 19,
# "value": "ul"
# },
# {
# "position": 20,
# "value": "ll"
# },
# {
# "position": 21,
# "value": "lt"
# },
# {
# "position": 22,
# "value": "te"
# },
# {
# "position": 23,
# "value": "ex"
# },
# {
# "position": 24,
# "value": "xt"
# },
# {
# "position": 25,
# "value": "t "
# },
# {
# "position": 26,
# "value": " e"
# },
# {
# "position": 27,
# "value": "ea"
# },
# {
# "position": 28,
# "value": "ar"
# },
# {
# "position": 29,
# "value": "rc"
# },
# {
# "position": 30,
# "value": "ch"
# },
# {
# "position": 31,
# "value": "h "
# },
# {
# "position": 32,
# "value": " e"
# },
# {
# "position": 33,
# "value": "en"
# },
# {
# "position": 34,
# "value": "ng"
# },
# {
# "position": 35,
# "value": "gi"
# },
# {
# "position": 36,
# "value": "in"
# },
# {
# "position": 37,
# "value": "ne"
# },
# {
# "position": 38,
# "value": "e!"
# },
# {
# "position": 39,
# "value": "!"
# }
# ]
# ]
いくつか省略可能な引数があります。
ノーマライザー名を指定します。 tokenize コマンドは normalizer という名前のノーまライザーを使います。ノーまライザーは TokenBigrma など、N-gram関連のトークナイザーにとってとても重要です。
ノーマライザーはノーマライズ中にそれぞれの文字の種類を検出します。N-gram系のトークナイザーはトークナイズ中に文字の種類を利用します。
以下はノーマライザーを使わない例です。
実行例:
tokenize TokenBigram "Fulltext Search"
# [
# [
# 0,
# 1337566253.89858,
# 0.000355720520019531
# ],
# [
# {
# "position": 0,
# "value": "Fu"
# },
# {
# "position": 1,
# "value": "ul"
# },
# {
# "position": 2,
# "value": "ll"
# },
# {
# "position": 3,
# "value": "lt"
# },
# {
# "position": 4,
# "value": "te"
# },
# {
# "position": 5,
# "value": "ex"
# },
# {
# "position": 6,
# "value": "xt"
# },
# {
# "position": 7,
# "value": "t "
# },
# {
# "position": 8,
# "value": " S"
# },
# {
# "position": 9,
# "value": "Se"
# },
# {
# "position": 10,
# "value": "ea"
# },
# {
# "position": 11,
# "value": "ar"
# },
# {
# "position": 12,
# "value": "rc"
# },
# {
# "position": 13,
# "value": "ch"
# },
# {
# "position": 14,
# "value": "h"
# }
# ]
# ]
すべてのアルファベットが2文字ごとトークナイズされています。例えば、 Fu で1つのトークンになっています。
以下はノーマライザーを使う例です。
実行例:
tokenize TokenBigram "Fulltext Search" NormalizerAuto
# [
# [
# 0,
# 1337566253.89858,
# 0.000355720520019531
# ],
# [
# {
# "position": 0,
# "value": "fulltext"
# },
# {
# "position": 1,
# "value": "search"
# }
# ]
# ]
連続するアルファベットが1つのトークンにトークナイズされています。例えば、 fulltext で1つのトークンになっています。
ノーマライザーを使いながら2文字でトークナイズしたい場合は TokenBigramSplitSymbolAlpha を使って下さい。
実行例:
tokenize TokenBigramSplitSymbolAlpha "Fulltext Search" NormalizerAuto
# [
# [
# 0,
# 1337566253.89858,
# 0.000355720520019531
# ],
# [
# {
# "position": 0,
# "value": "fu"
# },
# {
# "position": 1,
# "value": "ul"
# },
# {
# "position": 2,
# "value": "ll"
# },
# {
# "position": 3,
# "value": "lt"
# },
# {
# "position": 4,
# "value": "te"
# },
# {
# "position": 5,
# "value": "ex"
# },
# {
# "position": 6,
# "value": "xt"
# },
# {
# "position": 7,
# "value": "t"
# },
# {
# "position": 8,
# "value": "se"
# },
# {
# "position": 9,
# "value": "ea"
# },
# {
# "position": 10,
# "value": "ar"
# },
# {
# "position": 11,
# "value": "rc"
# },
# {
# "position": 12,
# "value": "ch"
# },
# {
# "position": 13,
# "value": "h"
# }
# ]
# ]
すべてのアルファベットが2文字ごとにトークナイズされています。そして、すべての文字が小文字にノーマライズされています。例えば、 fu で1つのトークンになっています。
トークナイズ処理をカスタマイズするオプションを指定します。「 | 」で区切って複数のオプションを指定することができます。例えば、 NONE|ENABLE_TOKENIZED_DELIMITER というように指定できます。
指定可能なフラグは以下の通りです。
フラグ |
説明 |
---|---|
NONE | 無視されます。 |
ENABLE_TOKENIZED_DELIMITER | トークナイズ済み区切り文字を有効にします。トークナイズ済み区切り文字の詳細は Tokenizers を参照してください。 |
以下は ENABLE_TOKENIZED_DELIMITER を使った例です。
実行例:
tokenize TokenDelimit "Fulltext Seacrch" NormalizerAuto ENABLE_TOKENIZED_DELIMITER
# [
# [
# 0,
# 1337566253.89858,
# 0.000355720520019531
# ],
# [
# {
# "position": 0,
# "value": "full"
# },
# {
# "position": 1,
# "value": "text sea"
# },
# {
# "position": 2,
# "value": "crch"
# }
# ]
# ]
TokenDelimit トークナイザーはトークナイズ済み区切り文字をサポートしているトークナイザーの1つです。 ENABLE_TOKENIZED_DELIMITER でトークナイズ済み区切り文字を有効に出来ます。トークナイズ済み区切り文字はトークンの区切りを表す特別な文字です。この文字は U+FFFE です。この文字コードはどの文字にも割り当てられていません。つまり、通常の文字列にはこの文字は現れません。よって、トークンの区切りを表すという目的には適切な文字です。 ENABLE_TOKENIZED_DELIMITER が有効のときは、対象文字列はすでにトークナイズ済みであると扱われます。トークナイザーは単にトークナイズ済み区切り文字で区切ってトークナイズします。
tokenize コマンドはトークナイズしたトークンをすべて返します。各トークンはトークン自身の文字列情報以外にいくつかの属性を持ちます。属性は今後増えていく可能性があります:
[HEADER, tokens]
HEADER
HEADER については 出力形式 を参照してください。
tokens
tokens はトークンの配列です。トークンは以下の属性を持ったオブジェクトです。
名前
説明
value トークン自身
position N番目のトークン。