`

庖丁解牛paoding-analysis分词器 环境配置和使用

阅读更多
首先从http://code.google.com/p/paoding
下载paoding-analysis-2.0.4-beta.zip,然后解压到一个目录下
辞典路径配置:
paoding 比较麻烦的是要设置字典的环境变量,一般做法是新建环境变量
PAODING_DIC_HOME
再加入字典路径(如 F:\paoding-analysis\dic)
这种方法在项目移位后还得配置字典环境,麻烦
可以直接把paoding源文件夹下的paoding-dic-home.properties拷贝的你自己的项目src文件夹下,然后将paoding-dic-home.properties文件中的
#paoding.dic.home=dic修改成
paoding.dic.home=F:/paoding-analysis/dic即可
当然你可以自己建一个名为paoding-dic-home.properties的文件
在里面加入一条语句paoding.dic.home=F:/paoding-analysis/dic(字典路径,自己换)
别忘记拷贝lib文件夹下的jar文件到项目中,
commons-logging.jar一定不能少

自己添加辞典:


在辞典目录下,有很多目录,比如local/division等,可以改动并添加自己的词;

自己可以添加文件夹和文件,文件命名为xxx.dic;xxx.dic里可以添加自己应用的辞典;

辞典不起作用?

Paoding会预编译辞典,生成.compiled文件夹;

自己添加的辞典,如果想立即生效,需要删除此文件夹;[其实这还不是本质,但先说到这里;可以去看源码]



另外注意:
   1.每次词典修改后,要删掉dic下面的“.compiled ”文件夹,重起solr所在服务器
   2.字典必须是UTF-8编码
   3.win7下不要用记事本打开,因为默认的编码不是utf-8

   4.自己添加的字典中的词语不要太长(我忘记多少长度了),否则会报错:ArrayOutOfBounds

       paoding 报错 Array Out Of Bounds
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics