贵所的ICTCLAS号称是目前最好的中文分词系统。今天使用了一下,记录下心得。
我的需求主要是分词,无需词性标注,而这一点可能恰恰是ICTCLAS的亮点。
主要流程:
ICTCLAS_Init(cfg_path)
ICTCLAS_ParagraphProcess(input, input_len, buffer, ENCODING, 0)
buffer是缓冲区,建议为6 * input_len
0是我不需要词性标注
对这个类包装了一下,方便今后使用。
PS:ICTCLAS[......]