海量_分词_智能计算
海量 provides a limited version of their Chinese segmentation system 海量智能分词研究版(点击下载). Haven’t tried but it is based on the idea of granularity of words:
我们认为各种应用对分词要求的颗粒度是不同的. 比如自动分类、关键词抽取比搜索需要的分词颗粒度要大, 因为这样表示文本语义特征时效果会更好, 而检索有一个查全率的要求, 就需要把分词单位做的更为细致, 不然就会造成漏查.
海量系统现在提供了两种颗粒的规则, 其中, 默认的为大颗粒接口, 主要用于自动分类、信息挖潜、机器翻译、语音合成、人工智能等领域, 用于提升信息分析的有效性和准确性; 另外一种应用为小颗粒度分词也叫检索优化分词接口, 用于信息检索领域, 用于提升查全率.
例如:
对"中华人民共和国"进行分词:
大颗粒度分词(默认方式)结果为: 中华人民共和国
小颗粒度分词(检索优化)结果为: 中华 人民 共和 国
In other words, it doesn’t makes the all-important (to some purists) distinction of phrases and words in processing.

February 26th, 2007 at 1:06 am e
想看看这篇文
February 26th, 2007 at 1:17 am e
为什么我看不到这篇文章呀,难道有什么限制?
March 4th, 2007 at 3:02 pm e
It should work, but as you can tell, this is not on my server.