首先从
http://code.google.com/p/paoding
下载paoding-analysis-2.0.4-beta.zip,然后解压到一个目录下
辞典路径配置:
paoding 比较麻烦的是要设置字典的环境变量,一般做法是新建环境变量
PAODING_DIC_HOME
再加入字典路径(如 F:\paoding-analysis\dic)
这种方法在项目移位后还得配置字典环境,麻烦
可以直接把paoding源文件夹下的paoding-dic-home.properties拷贝的你自己的项目src文件夹下,然后将paoding-dic-home.properties文件中的
#paoding.dic.home=dic修改成
paoding.dic.home=F:/paoding-analysis/dic即可
当然你可以自己建一个名为paoding-dic-home.properties的文件
在里面加入一条语句paoding.dic.home=F:/paoding-analysis/dic(字典路径,自己换)
别忘记拷贝lib文件夹下的jar文件到项目中,
commons-logging.jar一定不能少
自己添加辞典:
在辞典目录下,有很多目录,比如local/division等,可以改动并添加自己的词;
自己可以添加文件夹和文件,文件命名为xxx.dic;xxx.dic里可以添加自己应用的辞典;
辞典不起作用?
Paoding会预编译辞典,生成.compiled文件夹;
自己添加的辞典,如果想立即生效,需要删除此文件夹;[其实这还不是本质,但先说到这里;可以去看源码]
另外注意:
1.每次词典修改后,要删掉dic下面的“.compiled ”文件夹,重起solr所在服务器
2.字典必须是UTF-8编码
3.win7下不要用记事本打开,因为默认的编码不是utf-8
4.自己添加的字典中的词语不要太长(我忘记多少长度了),否则会报错:ArrayOutOfBounds
paoding 报错 Array Out Of Bounds
分享到:
相关推荐
paoding-analysis.jarpaoding-analysis.jarpaoding-analysis.jarpaoding-analysis.jarpaoding-analysis.jar
修改了paoding-analysis6的部分源码,使之支持lucene6.2.1
paoding-analysis-4.3.0.jar
庖丁解牛中文分词器,只要配置好字典的路径,就可以使用庖丁解牛,可以有效针对中文进行分词,而且可以自定义词典。适用于lucene-core-3.3.0.jar,包内已经包含lucene-core-3.3.0.jar,已测试,包好用!
paoding-analysis-4.4.0.jar 庖丁分词jar,支持lucene4.4.0及solr4.4.0版本。
由于庖丁官方目前提供可下载尚不...先下载2.0.4的版本(h t t p : / /code.google.com/p/paoding/),配置好环境后,引用paoding analysis 3.0.1 jar 代替paoding analysis 2.0.4 jar 即可,其他配置如词典等都不变。
paoding-analysis-4.1.0.jar,自己修改了一下源码,支持lucene4.1和solr4.1版本。
从http://paoding.googlecode.com/svn/trunk/paoding-analysis下载源码并编译的paoding-analysis3.0.jar 目前(2012年5月7日)是最新源码
适合lucene3.0用的paoding-analysis的jar包 并且有和spring不冲突的spring jar包
Paoding中文分词参考手册.htm paoding-analysis.jar
paoding-analysis4.3.0.jar,可以配合目前最新的lucene-4.3.0,sort-4.3.0使用,本人亲自测试过,一切正常的奥!
paoding分词jar ,支持lucence3以上的版本。本人使用的lucence是3.5的,没有问题。
Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为...
paoding-analysis-6.2.1.jar;paoding-analysis-6.2.1.jar;