博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Coreseek-带中文分词的Sphinx
阅读量:4570 次
发布时间:2019-06-08

本文共 1287 字,大约阅读时间需要 4 分钟。

Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法)

1.下载

  1).到官网

  2).解压后有三个文件夹

    csft-3.2.14: Sphinx

    mmseg-3.2.14: 中文分词组件

    testpack: 接口开发包

2.安装

  1).先安装mmseg, 因为Coreseek会用到

cd mmseg-3.2.14./configure --prefix=/usr/local/mmseg

  此时如果Makefile文件创建成功, 但是出现了一个config.status: error: cannot find input file: src/Makefile.in错误信息, 使用以下命令重新编译

aclocallibtoolize --forceautomake --add-missingautoconfautoheadermake clean./configure --prefix=/usr/local/mmseg

  执行安装

make && make install

  2).安装csft(即Coreseek)

./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/libmake && make install

3.中文分词算法分类

  1).基于字符串匹配的分词方法

    基于字典, 进行挨个的词条匹配

    三个要素: 分词词典, 文本扫描顺序, 匹配原则

    扫描顺序: 正向, 逆向, 双向

    匹配原则: 最大, 最小, 逐词,最佳

  2).基于理解的分词方法, 正在测试阶段

  3).基于统计的分词方法, 可以根据相邻的字出现的次数和频率等自动识别生词, 自动消除歧义

 4.配置Coreseek

cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #与Sphinx不同的是配置文件名不同#接下来按照Sphinx配置即可, 注意索引中的此两处配置#charset_type        = zh_cn.utf-8#charset_dictpath    = /usr/local/mmseg/etc/

5.生成索引

cd /usr/local/coreseek/bin./indexer --all

6.查找内容

cd /usr/local/coreseek/bin./search 随永杰

 

转载于:https://www.cnblogs.com/JohnABC/p/4733682.html

你可能感兴趣的文章
百词斩-斩家秘籍
查看>>
Mysql主从配置,实现读写分离
查看>>
ES6中的Symbol
查看>>
1.8小结
查看>>
浅谈C#关于AOP编程的学习总结
查看>>
无障碍阅读
查看>>
bzoj1494 生成树计数 (dp+矩阵快速幂)
查看>>
python canvas画移动物体_tkinter – 用于画布对象python的动画移动的方法
查看>>
java 连接 rac_JAVA 连接 ORACLE RAC 字符串
查看>>
java面试题 网络编程_java面试题《三、网络编程》
查看>>
java布尔矩阵程序_Java编程学习摘要(2)语法基础
查看>>
java no wait_即使队列在activemq中不为空,JMS实现中的receiveNoWait也返回null
查看>>
java定义player类_简易扑克牌游戏 定义了Constants、Main、Player、Poker四个类
查看>>
java方法重载例题_Java方法重载实现原理及代码实例
查看>>
java 字符串 包含 次数_用JAVA写查询一个字符串中是否包含另外一个字符串以及出现的次数...
查看>>
java jvm arg_java – Ant,jvmarg,系统属性和引号
查看>>
karp算法Java_Java – 具有Held和Karp算法的旅行推销员
查看>>
Session共享问题---理论
查看>>
Redis键的基本操作
查看>>
redis的安装---Linux
查看>>