在前一段时间,使用了贵所的ICTCLAS分词系统,总体下来有两点不太满意:
1、分词速度奇慢,分词速度勉强能达到600KB/s
2、词库拓展麻烦,不加词库则分词效果欠佳。
3、无可用的授权
其实ICTCLAS本身,在贵所内部就存在诸多争议,譬如版权之争……具体细节不方便描述了。
国内有很多人,特别是学术界很推崇ICTCLAS,大家都觉得隐马是高级算法,效果自然会很好,譬如这篇很偏激的争论帖子:
http://www.oschina.net/question/9[......]
在前一段时间,使用了贵所的ICTCLAS分词系统,总体下来有两点不太满意:
1、分词速度奇慢,分词速度勉强能达到600KB/s
2、词库拓展麻烦,不加词库则分词效果欠佳。
3、无可用的授权
其实ICTCLAS本身,在贵所内部就存在诸多争议,譬如版权之争……具体细节不方便描述了。
国内有很多人,特别是学术界很推崇ICTCLAS,大家都觉得隐马是高级算法,效果自然会很好,譬如这篇很偏激的争论帖子:
http://www.oschina.net/question/9[......]
简单来说,Analysis就是把field Text转化成基本的Term的形式。
通过分词,将Text转化为Token,Token+对应的Field即为Term。
分词的处理包括:萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形(去掉过去时等)等。
本章将介绍如何使用内置的分词器,以及如何根据语言、环境等特点创建自己的分词器。
4.1 使用Analysis
分词用于所有需要将Text转化成Term的场合,在Lucene中主要有两个:
1、Index(索引)[......]