linux用分词系统,Linux编译安装SCWS中文分词系统
发布日期:2021-06-24 16:52:53 浏览次数:2 分类:技术文章

本文共 2186 字,大约阅读时间需要 7 分钟。

简介

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。

这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。

SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模块, 可在 PHP 中快速而方便地使用分词功能。

分词算法上并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名, 数字年代等规则识别来达到基本分词,经小范围测试准确率在 90% ~ 95% 之间, 基本上能满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。

安装说明# wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2  //下载scws

# tar xvjf scws-1.2.3.tar.bz2  //解压

# cd scws-1.2.3  //进入目录

# ./configure --prefix=/usr/local/scws12  //configure操作

# make

# make install

注:这里和通用的 GNU 软件安装方式一样,具体选项参数执行 ./configure --help 查看。

常用选项为:--prefix=

顺利的话已经编译并安装成功到 /usr/local/scws 中了,执行下面命令看看文件是否存在# ls -al /usr/local/scws/lib/libscws.la

试试执行 scws-cli 文件# /usr/local/scws/bin/scws -h

scws (scws-cli/1.2.3)

Simple Chinese Word Segmentation - Command line usage.

Copyright (C)2007 by hightman.

Usage: scws [options] [input] [output]

-i  input string or filepath

(default: try to read from  everyline)

-o         output filepath (default to )

-c      set the charset (default: gbk)

charset must been same with dictionary & ruleset

-r         set the ruleset file (default: none)

-d         set the dictionary file[s] (default: none)

if there are multi files, split filepath use ':'

if the file suffix is .txt, it will be treated as plain text dict.

-M <1~15>        use multi child words mode(中国人->中国+人+中国人)

1|2|4|8: short|duality|zmain|zall

-I               ignore the all mark symbol such as ,:

-A               show the word attribute

-E               import the xdb dict into xtree(memory)

-N               don't show time usage and warnings

-D               debug segment, see the segment detail

-U               use duality algorithm for single chinese

-t          fetch the top words instead of segment

-a [~]   prefix by ~ means exclude them.

For topwords, exclude or include some word attrs

-v        Show the version.

-h        Show this page for help.

Report bugs to 

下载并解压词典,或从主页下载然后自行解压再将 *.xdb 放入 /usr/local/scws/etc 目录中# cd /usr/local/scws/etc

# wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2

# wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2

# tar xvjf scws-dict-chs-gbk.tar.bz2

# tar xvjf scws-dict-chs-utf8.tar.bz2

这样就好顺利安装完毕可以使用 libscws 这套 C-API 了

转载地址:https://blog.csdn.net/weixin_33960567/article/details/116580520 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:linux启动项命令大全,Linux CentOS开机启动项设置命令:chkconfig(示例代码)
下一篇:oracle817安装完报错,oracle817在AIX5L安装过程中碰到的几个问题

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年04月11日 21时07分00秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章