结合 正向最大匹配法
和 反向最大匹配法
的优点,按照一定的规则选择其中表现最优秀的结果作为 双向最大匹配法
的结果。
解释
从 正向最大匹配法
和 反向最大匹配法
的结果中选择最满足中文分词原则的一个分词结果。
中文分词原则
分词粒度以大为最佳(最大化平均词语长度)
分词的结果颗粒度(单个词所包含的字符长度)越大越好。
同样是 北京大学
可以分成 北京
/ 大学
或者 北京大学
,则后者更优,后者包含的信息更加特定和明确。
非词典词越少越佳,单字字典词数越少越佳
非词典词的出现说明出现了 OOV (Out Of Vocabulary) 问题,字典足够大的情况下出现 OOV, 说明分词结果不佳。类似的,分词结果大量出现单个字,也是暗示分词效果不佳。
比如 技术和服务
可以被分成 技术
/ 和
/ 服务
或者 技术
/ 和服
/ 务
,后者中的 务
就是一个 OOV,因为中文中 务
不能单独成词
最小化词语长度的变化率
同样是 研究生命起源
可以被分成 研究生
/ 命
/ 起源
和 研究
/ 生命
/ 起源
,后者 词语长度的变化率 最小,因此是更好的分词结果。
实现
通过分别实现 正向最大匹配法
和 反向最大匹配法
按照上述原则实现一个判别器,判别最优结果,返回即可。