Tag Archives: 分词

试用开源分词系统SCWS

在前一段时间,使用了贵所的ICTCLAS分词系统,总体下来有两点不太满意:

1、分词速度奇慢,分词速度勉强能达到600KB/s

2、词库拓展麻烦,不加词库则分词效果欠佳。

3、无可用的授权

其实ICTCLAS本身,在贵所内部就存在诸多争议,譬如版权之争……具体细节不方便描述了。

国内有很多人,特别是学术界很推崇ICTCLAS,大家都觉得隐马是高级算法,效果自然会很好,譬如这篇很偏激的争论帖子:

http://www.oschina.net/question/9[......]

继续阅读

试用ICTCLAS分词系统

贵所的ICTCLAS号称是目前最好的中文分词系统。今天使用了一下,记录下心得。

我的需求主要是分词,无需词性标注,而这一点可能恰恰是ICTCLAS的亮点。
主要流程:
ICTCLAS_Init(cfg_path)
ICTCLAS_ParagraphProcess(input, input_len, buffer, ENCODING, 0)
buffer是缓冲区,建议为6 * input_len
0是我不需要词性标注

对这个类包装了一下,方便今后使用。
PS:ICTCLAS[......]

继续阅读

《Lucene In Action》第四章.Analysis(分词)

简单来说,Analysis就是把field Text转化成基本的Term的形式。

通过分词,将Text转化为Token,Token+对应的Field即为Term。

分词的处理包括:萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形(去掉过去时等)等。

本章将介绍如何使用内置的分词器,以及如何根据语言、环境等特点创建自己的分词器。
4.1  使用Analysis
分词用于所有需要将Text转化成Term的场合,在Lucene中主要有两个:

1、Index(索引)[......]

继续阅读