SCWS是国内PHP大牛hightman开发的基于PHP的简易中文分词系统,因为PHP的搭档Mysql不支持中文分词全文索引,这个SCWS方案可算当前PHP圈中初级分词需求的最佳解决方案。用它来实现简单的中文全文搜索,或者自动生成文章关键词,足可胜任。

SCWS提供了词库XDB导出导入词库的工具,下载后解压至任意文件夹。

在命令行下进入您PHP的安装目录,我的目录是”E:/xampp/php“,执行命令行:  

命令格式为:php dump_xdb_file.php <要导出的.xdb文件> [要存入的文本文件]

几秒后在E:/scws目录下我就获得了导出的纯文本文件dict.txt。

用文本编辑器打开dict.txt文件,我建议用EditPlus,用windows的记事薄的话不能正常显示换行符。

dict.txt中文本格式为: # WORD    TF    IDF    ATTR 当机立断    14.01    8.10    i #开头的行是注释。

每行是一个词。每个词分为四部分,WORD列是词本身,TF和IDF列是词权重,ATTR列是词性。

在这里要解释下TF和IDF的意思,它们合起来称作TF-IDF(term frequency–inverse document frequency),词频 (term frequency, TF),逆向文件频率 (inverse document frequency, IDF),是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用分类。说起来很不好理解,其实也不需要理解,SCWS也提供了新词生词的TF/IDF计算器,可以自动获得词语的权重值。 ATTR是词性,也就是标示词语是名字、动词、形容词等等词性的。

详细的词性标示方法请看SCWS的说明:词典词性标注详解

在dict.txt结尾我追加了如下一行: 我的词典    13.82    7.48    n 再执行如下命令,将修改好的dict.txt重新生成xdb文件。

命令格式为:php make_xdb_file.php <要生成的.xdb> [导入的文本文件]

生成xdb文件的过程需要比较长的时间,请耐心等待,如下图:

就这么简单,补充了新词的词库制作完成。