Elasticsearch自定义分析器analyzer分词实践
发布日期:2021-07-01 06:13:43 浏览次数:3 分类:技术文章

本文共 1948 字,大约阅读时间需要 6 分钟。

基础知识回顾

分析器的组成结构:

分析器(analyzer)	- Character filters (字符过滤器)0个或多个	- Tokenizer (分词器)有且只有一个	- Token filters (token过滤器)0个或多个

在这里插入图片描述

内置分析器

1、whitespace 空白符分词

POST _analyze{
"analyzer": "whitespace", "text": "你好 世界"}{
"tokens": [ {
"token": "你好", "start_offset": 0, "end_offset": 2, "type": "word", "position": 0 }, {
"token": "世界", "start_offset": 3, "end_offset": 5, "type": "word", "position": 1 } ]}

2、pattern正则表达式分词,默认表达式是\w+(非单词字符)

配置参数

pattern  :  一个Java正则表达式,默认 \W+flags  :  Java正则表达式flags。比如:CASE_INSENSITIVE 、COMMENTSlowercase  :  是否将terms全部转成小写。默认truestopwords  :  一个预定义的停止词列表,或者包含停止词的一个列表。默认是 _none_stopwords_path  :  停止词文件路径
// 拆分中文不正常POST _analyze{
"analyzer": "pattern", "text": "你好世界"}{
"tokens": []}// 拆分英文正常POST _analyze{
"analyzer": "pattern", "text": "hello world"}{
"tokens": [ {
"token": "hello", "start_offset": 0, "end_offset": 5, "type": "word", "position": 0 }, {
"token": "world", "start_offset": 6, "end_offset": 11, "type": "word", "position": 1 } ]}// 在索引上自定义分析器-竖线分隔PUT my-blog{
"settings": {
"analysis": {
"analyzer": {
"vertical_line": {
"type": "pattern", "pattern": "\\|" } } } }, "mappings": {
"doc": {
"properties": {
"content": {
"type": "text", "analyzer": "vertical_line" } } } }} // 测试索引分析器 POST /blog-v4/_analyze{
"analyzer": "vertical_line", "text": "你好|世界"}POST /blog-v4/_analyze{
"field": "content", "text": "你好|世界"}// 两者结果都是{
"tokens": [ {
"token": "你好", "start_offset": 0, "end_offset": 2, "type": "word", "position": 0 }, {
"token": "世界", "start_offset": 3, "end_offset": 5, "type": "word", "position": 1 } ]}

参考

转载地址:https://pengshiyu.blog.csdn.net/article/details/108854769 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:阿里云体验实验室-6:Linux指令入门-文件与权限
下一篇:Mac通过Brew安装Nginx的Echo模块

发表评论

最新留言

表示我来过!
[***.240.166.169]2024年05月08日 13时51分42秒