RubygemsResearch

Sha256: 2a335cb4a3cbf3a0b84e9e504d3c7656f4bb53f034dc1f1f27fc92645ce71a45

Contents?: true

Size: 1.64 KB

Versions: 5

Compression:

Stored size: 1.64 KB

README.txt
==========

This file describes how to build and run an example tokenizer in various modes.

1.  Build example program

    javac -cp lib/kuromoji-0.7.7.jar \
              src/main/java/org/atilika/kuromoji/example/TokenizerExample.java
            
2a. Run example program with UTF-8 file encoding

    java -Dfile.encoding=UTF-8 \
         -cp lib/kuromoji-0.7.7.jar:src/main/java \
             org.atilika.kuromoji.example.TokenizerExample

  Sample input 1: お寿司が美味しいです。
  Sample input 2: かにみそがおいしいです。
  Sample input 3: 毎日日本経済新聞を読みます。  

2b. Run example program with segmentation useful for search
  
    java -Dfile.encoding=UTF-8 \
       -cp lib/kuromoji-0.7.7.jar:src/main/java \
           org.atilika.kuromoji.example.TokenizerExample search

  Sample input 1: 毎日日本経済新聞を読みます。
  - You will see that 日本経済新聞 gets segmented as 日本 経済 新聞
  
  Sample input 2: 関西国際空港 (Kansai International Airport)
  - You will see that 関西国際空港 gets segmented as 関西 国際 空港

2c. Run example tokenizer with user dictionary (non search mode)

    java -Dfile.encoding=UTF-8 \
       -cp lib/kuromoji-0.7.7.jar:src/main/java \
           org.atilika.kuromoji.example.TokenizerExample normal \
              src/main/resources/userdict.txt

    Sample input 1: 毎日日本経済新聞を読みます。
    - Segmentation is identical to 2b because of a user dictionary entry
    
    Sample input 2: 時々銀座に朝青龍と飲みに行きます。
    - You should see custom reading アサショウリュウ for 朝青龍

Version data entries

5 entries across 5 versions & 2 rubygems

Version	Path
kuromoji-ruby-0.0.4	vendor/kuromoji-0.7.7/README.txt
kuromoji-ruby-0.0.3	vendor/kuromoji-0.7.7/README.txt
kuromoji-ruby-0.0.2	vendor/kuromoji-0.7.7/README.txt
kuromoji-ruby-0.0.1	vendor/kuromoji-0.7.7/README.txt
kuromoji-0.0.1	vendor/kuromoji-0.7.7/README.txt