ご用心
normalize コマンドは実験的な機能です。このコマンドは将来的に変更されるかも知れません。
normalize コマンドは指定したノーマライザーでテキストを正規化します。
normalize コマンドを使うのにテーブルを作成する必要はありません。このコマンドは、ノーマライザーの結果を確認するのに便利です。
normalize コマンドは normalizer と string という二つの引数をとります。これらの引数はどちらも必須です。
normalize normalizer
string
[flags=NONE]
以下は normalize コマンドの簡単な使用例です。
実行例:
normalize NormalizerAuto "aBcDe 123"
# [
# [
# 0,
# 1337566253.89858,
# 0.000355720520019531
# ],
# {
# "normalized": "abcde 123",
# "types": []
# }
# ]
このセクションでは normalizer の引数について説明します。
必須引数は二つあります。 normalizer と string です。
ノーマライザー名を指定します。 normalize コマンドは normalizer で指定された名前のノーマライザーを使います。
組み込みのノーマライザーの一覧は ノーマライザー にあります。
以下は NormalizerAuto ノーマライザーを使う例です。
TODO
他のノーマライザーを使いたい場合は、 register コマンドでノーマライザープラグインを登録する必要があります。例えば、 groonga-normalizer-mysql を登録することでMySQL互換の正規化方法を使うことができます。
正規化したい文字列を指定します。
string の中に文字列を含める場合は、シングルクォート( ' )またはダブルクォート( " )で string をクォートする必要があります。
string の中で空白を使う例です。
TODO
いくつか省略可能な引数があります。
ノーマライズ処理をカスタマイズするオプションを指定します。「 | 」で区切って複数のオプションを指定することができます。例えば、 REMOVE_BLANK|WITH_TYPES というように指定できます。
指定可能なフラグは以下の通りです。
フラグ |
説明 |
---|---|
NONE | 無視されます。 |
REMOVE_BLANK | TODO |
WITH_TYPES | TODO |
WITH_CHECKS | TODO |
REMOVE_TOKENIZED_DELIMITER | TODO |
以下は REMOVE_BLANK を使った例です。
TODO
以下は WITH_TYPES を使った例です。
TODO
以下は REMOVE_TOKENIZED_DELIMITER を使った例です。
TODO
[HEADER, normalized_text]
HEADER
HEADERのフォーマットは [0, UNIX_TIME_WHEN_COMMAND_IS_STARTED, ELAPSED_TIME] です。HEADERについては 出力形式 を参照してください。
normalized_text
normalized_text はオブジェクトです。このオブジェクトは以下の属性を持っています。
名前
説明
normalized 正規化されたテキスト。
types An array of types of the normalized text. The N-th types shows the type of the N-th character in normalized.