基于垂直搜索引擎的Lucene蒙文分词技术研究
摘要(Abstract):
机器翻译中的分词部分对于语料预处理过程有着至关重要的作用.而在蒙文分词中传统方法对于特征提取、构型特点的计算分析能力有限,基于Lucene的蒙文分词技术结合垂直搜索引擎技术,面向专业领域构建个性化专业词典,采用逐字二分的分词词典机制,并在此基础上采用正向最大匹配分词算法来改进Lucene的蒙文分词模块.文章提出了根据领域知识、领域概念、领域术语,在分词预处理前降低搜索噪音、信息过载、信息冗余等现象,从而改进了词典机制.文章的另一个工作是在现有Lucene蒙文分词技术上结合垂直搜索引擎技术提高Lucene在蒙文应用程序开发上的应用广泛度.基于开放的蒙汉语料的实验结果表明,改进的Lucene分词技术能有效地改善对齐效果,相比原始的分词模型,译文质量有了显著的提高.
关键词(KeyWords): 机器翻译;分词;Lucene;垂直搜索引擎
基金项目(Foundation):
作者(Author): 卢凤;