构建中文分词器 - 双向最大匹配法

结合 正向最大匹配法反向最大匹配法 的优点,按照一定的规则选择其中表现最优秀的结果作为 双向最大匹配法 的结果。

解释

正向最大匹配法反向最大匹配法 的结果中选择最满足中文分词原则的一个分词结果。

中文分词原则

分词粒度以大为最佳(最大化平均词语长度)

分词的结果颗粒度(单个词所包含的字符长度)越大越好。

同样是 北京大学 可以分成 北京 / 大学 或者 北京大学,则后者更优,后者包含的信息更加特定和明确。

非词典词越少越佳,单字字典词数越少越佳

非词典词的出现说明出现了 OOV (Out Of Vocabulary) 问题,字典足够大的情况下出现 OOV, 说明分词结果不佳。类似的,分词结果大量出现单个字,也是暗示分词效果不佳。

比如 技术和服务 可以被分成 技术 / / 服务 或者 技术 / 和服 / ,后者中的 就是一个 OOV,因为中文中 不能单独成词

最小化词语长度的变化率

同样是 研究生命起源 可以被分成 研究生 / / 起源研究 / 生命 / 起源,后者 词语长度的变化率 最小,因此是更好的分词结果。

实现

通过分别实现 正向最大匹配法反向最大匹配法 按照上述原则实现一个判别器,判别最优结果,返回即可。

参考文献