table_create は現在のデータベースに新しいテーブルを作成します。データを保存したり検索したりするために、1つ以上のテーブルを作成する必要があります。
table_create には多くの引数があります。必須の引数は name だけで、残りは省略できます。:
table_create name
[flags=TABLE_HASH_KEY]
[key_type=null]
[value_type=null]
[default_tokenizer=null]
[normalizer=null]
[token_filters=null]
table_create コマンドは新しく永続テーブルを作成します。テーブルの詳細については テーブル を参照してください。
データ保存用のテーブルにはどの種類のテーブルでも使えます。テーブルの種類については テーブル を参照してください。
テーブルの型は TABLE_${TYPE} を flags 引数に指定します。
以下は TABLE_NO_KEY テーブルを使う例です。
実行例:
table_create Logs TABLE_NO_KEY
# [[0, 1337566253.89858, 0.000355720520019531], true]
この table_create コマンドは Logs という名前で TABLE_NO_KEY 型のテーブルを作成します。
キーでレコードを検索しないのであれば、 TABLE_NO_KEY 型のテーブルが適切です。なぜなら、 TABLE_NO_KEY はキーをサポートしていませんが、速くて小さいサイズのテーブルだからです。ログをGroongaのデータベースに保存するという使い方はこのケースです。
キーでレコードを検索したり、カラムからレコードを参照したりする場合は、 TABLE_NO_KEY 型は適していません。全文検索用の語彙表として使うケースはこのケースです。
語彙表テーブル用のテーブルには TABLE_NO_KEY 以外の型のテーブルを使います。語彙表テーブルはキーをサポートしていないといけませんが、 TABLE_NO_KEY はキーをサポートしていません。
以下は TABLE_PAT_KEY テーブルを作る例です。
実行例:
table_create Lexicon TABLE_PAT_KEY ShortText --default_tokenizer TokenBigram --normalizer NormalizerAuto
# [[0, 1337566253.89858, 0.000355720520019531], true]
この table_create コマンドは以下のテーブルを作成します。
このテーブルは Lexicon という名前です。
このテーブルは TABLE_PAT_KEY 型のテーブルです。
このテーブルのキーは ShortText 型です。
このテーブルは正規化されたテキストからトークンを抽出するために TokenBigram トークナイザーを使います。
このテーブルはテキストを正規化するために NormalizerAuto ノーマライザーを使います。
語彙表テーブルには TABLE_PAT_KEY が適切なテーブルの型です。語彙表テーブルは全文検索に使われます。
全文検索では、あいまい検索をするために前方一致検索を使っています。前方一致検索は TABLE_PAT_KEY と TABLE_DAT_KEY がサポートしています。
全文検索対象のテキストには大量のトークンが含まれるので、語彙表テーブルのキーも大量になります。大量のキーを格納するテーブルの場合はテーブルのサイズを意識する必要があります。これは、大きなテーブルはそれだけ多くのメモリーを必要とするからです。多くのメモリーが必要になると、ディスクI/Oが発生することもあります。ディスクI/Oが発生すると高速に検索できなくなります。そのため、大量のキーがあるテーブルの場合はテーブルのサイズが重要になります。 TABLE_PAT_KEY は TABLE_DAT_KEY よりもテーブルのサイズが小さいです。
上記の理由から、 TABLE_PAT_KEY が語彙表テーブルに適したテーブルの型です。
タグインデックス用のテーブルには TABLE_NO_KEY 以外の型のテーブルを使えます。タグインデックス用のテーブルはキーのサポートが必要ですが、 TABLE_NO_KEY はキーをサポートしていません。
以下は TABLE_HASH_KEY 型のテーブルを作る例です。
実行例:
table_create Tags TABLE_HASH_KEY ShortText
# [[0, 1337566253.89858, 0.000355720520019531], true]
この table_create コマンドは Tags という名前で TABLE_HASH_KEY 型のテーブルを作ります。このテーブルのキーは ShortText 型です。
タグインデックス用のテーブルには TABLE_HASH_KEY あるいは TABLE_DAT_KEY が適切なテーブルの型です。
完全一致でタグを検索する機能だけが必要なら、 TABLE_HASH_KEY が適切です。多くの場合はこのケースです。
もし、前方一致検索機能も必要な場合(例えば、 "gr" というキーワードで "groonga" を検索する場合)は、 TABLE_DAT_KEY が適切です。 TABLE_DAT_KEY はサイズの大きなテーブルですが、タグの数はそれほど多くならないので、サイズは重要ではありません。
範囲検索用のインデックステーブルには TABLE_PAT_KEY 型と TABLE_DAT_KEY 型を使えます。範囲検索用のインデックステーブルは範囲検索をサポートしている必要がありますが、 TABLE_NO_KEY 型と TABLE_HASH_KEY 型はサポートしていません。
以下は TABLE_DAT_KEY テーブルを作成する例です。
実行例:
table_create Ages TABLE_DAT_KEY UInt32
# [[0, 1337566253.89858, 0.000355720520019531], true]
この table_create コマンドは Ages という名前で TABLE_DAT_KEY 型のテーブルを作成します。このテーブルのキーの型は UInt32 です。
範囲検索用のインデックステーブルには TABLE_PAT_KEY 型と TABLE_DAT_KEY 型が適切なテーブルの型です。
インデックス対象の項目が少なければ、 TABLE_DAT_KEY 型が適切です。前述の例では、年齢(age)用のインデックスがこのケースになります。年齢のインデックスはせいぜい0から100項目くらいにしかなりません。これは、人はそんなに長生きできないからです。
インデックス対象が大量にある場合は、 TABLE_PAT_KEY 型が適切です。なぜなら、 TABLE_PAT_KEY 型は TABLE_DAT_KEY 型よりもサイズが小さいからです。
このセクションではすべての引数について説明します。
作成するテーブル名を指定します。 name は必ず指定しなければいけません。
利用可能な文字は以下の通りです。
0 .. 9 (数字)
a .. z (アルファベット。小文字)
A .. Z (アルファベット。大文字)
# (シャープ)
@ (アットマーク)
- (ハイフン)
_ (アンダースコア)(注: 最初の文字としてアンダースコアを使うことはできません。)
上記の文字を1つ以上使って名前を決めます。 _name というように、最初の文字に _ を使えないことに注意してください。
テーブルの型とテーブルをカスタマイズするオプションを指定します。
指定可能なフラグは以下の通りです。
フラグ |
説明 |
TABLE_NO_KEY | 配列テーブル。 |
TABLE_HASH_KEY | ハッシュテーブル。 |
TABLE_PAT_KEY | パトリシアトライ。 |
TABLE_DAT_KEY | ダブル配列トライ。 |
KEY_WITH_SIS | 半無限文字列を有効にします。 TABLE_PAT_KEY を使う必要があります。 |
ノート
Groonga 2.1.0から KEY_NORMALIZE フラグは非推奨になりました。代わりに、 normalizer オプションに NormalizerAuto を指定してください。
TABLE_${TYPE} フラグのどれか1つを指定します。 TABLE_${TYPE} フラグを2つ以上指定することはできません。例えば、 TABLE_NO_KEY|TABLE_HASH_KEY は不正な指定方法です。
TABLE_PAT_KEY|KEY_WITH_SIS というように、 | (縦棒)で複数のフラグを組み合わせることができます。
それぞれのテーブルの型の違いは テーブル を参照してください。
デフォルトのフラグは TABLE_HASH_KEY です。
キーの型を指定します。
flags パラメーターに TABLE_HASH_KEY 、 TABLE_PAT_KEY または TABLE_DAT_KEY を指定した場合は、 key_type オプションを指定する必要があります。
型の一覧は データ型 にあります。
デフォルト値はありません。
値の型を指定します。
flags パラメーターに TABLE_NO_KEY 、 TABLE_HASH_KEY または TABLE_PAT_KEY を指定した場合は「値」を使うことができます。「値」の型は固定長でなければいけません。例えば、 UInt32 は使えますが、 ShortText は使えません。この場合は値ではなく、カラムを使ってください。
デフォルト値はありません。
デフォルトトークナイザーを指定します。これは、検索時とデータロード時に使われます。
TABLE_NO_KEY と一緒に default_tokenizer を使うことはできません。これは、 TABLE_NO_KEY をインデックスに使うことができないからです。
全文検索用のインデックスとして使う場合には default_tokenizer を必ず指定しなければいけません。
トークナイザーの一覧は Tokenizers にあります。
デフォルト値はありません。
table_create が成功したときは以下のようにボディは true になります:
[HEADER, true]
table_create が失敗すると、エラーの詳細は HEADER に含まれます。
HEADER については 出力形式 を参照してください。