Elasticsearch自定义分析器analyzer分词实践-白红宇的个人博客

发布日期：2021-07-01 06:13:43 浏览次数：3 分类：技术文章

本文共 1948 字，大约阅读时间需要 6 分钟。

基础知识回顾

分析器的组成结构：

分析器（analyzer）	- Character filters （字符过滤器）0个或多个	- Tokenizer （分词器）有且只有一个	- Token filters （token过滤器）0个或多个

在这里插入图片描述

内置分析器

1、whitespace 空白符分词

POST _analyze{
     "analyzer": "whitespace",   "text": "你好 世界"}{
     "tokens": [    {
         "token": "你好",      "start_offset": 0,      "end_offset": 2,      "type": "word",      "position": 0    },    {
         "token": "世界",      "start_offset": 3,      "end_offset": 5,      "type": "word",      "position": 1    }  ]}

2、pattern正则表达式分词，默认表达式是\w+(非单词字符)

配置参数

pattern  ：  一个Java正则表达式，默认 \W+flags  ：  Java正则表达式flags。比如：CASE_INSENSITIVE 、COMMENTSlowercase  ：  是否将terms全部转成小写。默认truestopwords  ：  一个预定义的停止词列表，或者包含停止词的一个列表。默认是 _none_stopwords_path  ：  停止词文件路径

// 拆分中文不正常POST _analyze{
     "analyzer": "pattern",   "text": "你好世界"}{
     "tokens": []}// 拆分英文正常POST _analyze{
     "analyzer": "pattern",   "text": "hello world"}{
     "tokens": [    {
         "token": "hello",      "start_offset": 0,      "end_offset": 5,      "type": "word",      "position": 0    },    {
         "token": "world",      "start_offset": 6,      "end_offset": 11,      "type": "word",      "position": 1    }  ]}// 在索引上自定义分析器-竖线分隔PUT my-blog{
     "settings": {
       "analysis": {
         "analyzer": {
           "vertical_line": {
             "type": "pattern",          "pattern": "\\|"        }      }    }  },  "mappings": {
       "doc": {
         "properties": {
           "content": {
             "type": "text",          "analyzer": "vertical_line"        }      }    }  }} // 测试索引分析器 POST /blog-v4/_analyze{
     "analyzer": "vertical_line",  "text": "你好|世界"}POST /blog-v4/_analyze{
     "field": "content",  "text": "你好|世界"}// 两者结果都是{
     "tokens": [    {
         "token": "你好",      "start_offset": 0,      "end_offset": 2,      "type": "word",      "position": 0    },    {
         "token": "世界",      "start_offset": 3,      "end_offset": 5,      "type": "word",      "position": 1    }  ]}

参考

转载地址：https://pengshiyu.blog.csdn.net/article/details/108854769 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：阿里云体验实验室-6：Linux指令入门-文件与权限

下一篇：Mac通过Brew安装Nginx的Echo模块

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

基础知识回顾

内置分析器

发表评论

最新留言

关于作者

推荐文章