ITKeyword,专注技术干货聚合推荐

注册 | 登录

solr4.7中文分词器(ik-analyzer)配置

xiaoyu411502 分享于 2015-04-01

推荐:solr 中文分词器IK分词器的配置

Solr加入中文分词器 solrconfig.xml这个配置文件可以在你下载solr包的安装解压目录的例如: /opt/solr/example/solr/collection1/conf 首先在solrconfig.xml中加

2019阿里云全部产品优惠券(新购或升级都可以使用,强烈推荐)
领取地址https://promotion.aliyun.com/ntms/yunparter/invite.html

solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。


一、版本信息

solr版本:4.7.0

需要ik-analyzer版本:IK Analyzer 2012FF_hf1

ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list


二、配置步骤

下载压缩解压后得到如下目录结构的文件夹:

推荐:solr配置中文分词器,Solr与tomcat整合

可能需要连接上篇《Solr与tomcat整合》 1.从http://code.google.com/p/mmseg4j/    下载mmseg4j 2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.

我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。

我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。

修改core的schema.xml,在<types></types>配置项间加一段如下配置:

[html]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. <fieldType name="text_ik" class="solr.TextField">   
  2.      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
  3. </fieldType>  
我们就多了一种text_ik的field类型了,该类型使用的分词器就是 ik-analyzer

我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。

[html]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. <field name="name"      type="text_ik"   indexed="true"  stored="true"  multiValued="false" />   

三、中文分词测试

                      [html]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. IKT  
  2.       
  3. text  
  4. raw_bytes  
  5. start  
  6. end  
  7. type  
  8. position  
  9.       
  10. 中华人民共和国  
  11. [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]  
  12. 0  
  13. 7  
  14. CN_WORD  
  15. 1  
  16.       
  17. 中华人民  
  18. [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91]  
  19. 0  
  20. 4  
  21. CN_WORD  
  22. 2  
  23.       
  24. 中华  
  25. [e4 b8 ad e5 8d 8e]  
  26. 0  
  27. 2  
  28. CN_WORD  
  29. 3  
  30.       
  31. 华人  
  32. [e5 8d 8e e4 ba ba]  
  33. 1  
  34. 3  
  35. CN_WORD  
  36. 4  
  37.       
  38. 人民共和国  
  39. [e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd]  
  40. 2  
  41. 7  
  42. CN_WORD  
  43. 5  
  44.       
  45. 人民  
  46. [e4 ba ba e6 b0 91]  
  47. 2  
  48. 4  
  49. CN_WORD  
  50. 6  
  51.       
  52. 共和国  
  53. [e5 85 b1 e5 92 8c e5 9b bd]  
  54. 4  
  55. 7  
  56. CN_WORD  
  57. 7  
  58.       
  59. 共和  
  60. [e5 85 b1 e5 92 8c]  
  61. 4  
  62. 6  
  63. CN_WORD  
  64. 8  
  65.       
  66. 国  
  67. [e5 9b bd]  
  68. 6  
  69. 7  
  70. CN_CHAR  
  71. 9  

推荐:Solr4.10.2的IK Analyzer分词器配置

Solr4.10.2的IK Analyzer分词器配置 1. 准备工作 Solr4.10.2已经在Tomcat中配置好,具体见上一篇博文   2. 下载IK分词器 地址:http://code.google.com/p/ik-ana

solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。 一、版本信息 solr版本:4.7.0 需要ik-an

相关阅读排行


用户评论

游客

相关内容推荐

最新文章

×

×

请激活账号

为了能正常使用评论、编辑功能及以后陆续为用户提供的其他产品,请激活账号。

您的注册邮箱: 修改

重新发送激活邮件 进入我的邮箱

如果您没有收到激活邮件,请注意检查垃圾箱。