微软公司中国: 汉语分词在中文软件中的广泛应用
微软公司中国研究开发中心 has a brief intro to the word segmentation problem in Chinese. It is meant for the general audience but it does a good job in laying out the basic issue, general solutions, and examples of applications.
摘要 中文软件需要具有对中文文本的输入、显示、编辑、输出等基本功能,而且随着计算机技术的发展,对于计算机的文本处理 能力提出了更高的要求,诸如智能拼音语句输入、手写和语音自动识别输入;文章的校对;简体和繁体中文的自动转换;信息检索和信息摘录;文本分类和自动文 摘;语音合成;自然语言的理解和自动翻译;自然语言接口等。 而所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前 景。
One thing I didn’t know is the functions in the Chinese version of Office 2000:
Office2000 中有诸多功能运用到分词系统,这里只挑选几个典型的应用例子加以说明。
- 文本自动校对
分词是文本校对中的一个基本模块,校对系统运用分词模块对文本进行分词,运用词语之间搭配的合理性来识别可能的错误。
例1:
![]()
- 简体/繁体自动转换
我们知道,简体/繁体之间的转换,在单字一级,会有一个简体汉字对应多个繁体汉字的情况,如:“发”对应繁体的“發”和“髮”。那么,简体/繁体转 换应该将“发”转为“發”还是“髮”哪?这就引入了如何解决简/繁歧义的问题。此外,简体中文和繁体中文在一些技术术语的运用上也有不同。例如,简体中文 计算机术语“物理地址”和“逻辑地址”在繁体中文中写作“邏輯位址”和“物理位址”。简体/繁体转换系统也需要解决这种术语的不同用法问题。 我们的简体/繁体转换系统运用分词模块切分词语,根据词语以及上下文来决定最可能的转换结果。
例2:
- 迅速发展的计算机技术。
迅速發展的電腦技術。- 她有一头黑亮的头发。
她有一頭黑亮的頭髮。- 聪明选词
MSWord2000中,当用户双击鼠标左键是,如果是英文文本,英文单词会被高亮选中,如果是中文文本,中文词语则也会高亮选中,用户可以对选中的词语做进一步的编辑行为。这一功能同样是运用分词系统来实现的。
例3:当用户在“计算机”文本段内任意位置双击鼠标左键时,“计算机”将作为词被选中。
- 拼音指南
MSWord2000中提供了对于文本自动标音的功能,我们知道,汉语存在一字多音的问题,如何决定多音字的正确拼音哪?这里,我们仍然利用分词系统作为基础模块根据上下文来判别其正确的拼音。
例4:
![]()
这里,我们看到多音字:“重”被正确标注为“zhong4”和“chong2”.
Some of these are really useful in our future research.
