#Elasticsearch中文分词器 #IK分词器 @FDDLC
发布日期:2021-06-30 20:58:35 浏览次数:3 分类:技术文章

本文共 459 字,大约阅读时间需要 1 分钟。

一、标准的英文分词器对中文的分词效果

从上图可知,标准的英文分词器会把英文拆分成单字。但标准的英文分词器却能把英文拆分成单词:

上面一对比就知道:标准分词器对中文不够友好!

 

二、中文分词器IK的下载安装

1、IK中文分词器下载链接:

自己选择版本:

2、下载完成后解压,放到Elasticsearch根目录下的plugins文件夹下:

3、重启Elasticsearch,ik分词器就会被加载。

 

 

三、ik分词器的简单使用(使用Kibana、Postman或head)

有关Kibana的介绍,可参考:【不好意思,待续~】

1、ik_smart:单个词语的长度最长,即得到的词语数量最少

用Postman或head也行:

 

2、ik_max_word:找出所有可能的词语,即得到的词语数量最多

从上图可知,冰箱、电冰箱均有出现。

 

四、在创建type类型表时指定分词器,再进行查询

1、创建索引库(注意:ES7.x无type类型表的概念!)

2、往表中添加记录

逐条添加:

添加完后是这样的:

 

3、查询

1)不拆分

 

2)拆分

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

转载地址:https://liuxingchang.blog.csdn.net/article/details/109544721 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:#LeetCode237. 删除链表中的节点 #在所有 Java 提交中击败了 100.00% 的用户 @FDDLC
下一篇:#LeetCode234. 回文链表 #在所有 Java 提交中击败了 99.94% 的用户 @FDDLC

发表评论

最新留言

路过,博主的博客真漂亮。。
[***.116.15.85]2024年04月22日 19时51分51秒