首页 > 最新目录 > 正文

13基于垂直搜索引擎的Lucene蒙文分词技术研究

日期:2018-11-26 15:55:55 点击:

基于垂直搜索引擎的Lucene蒙文分词技术研究

摘要(Abstract):  

机器翻译中的分词部分对于语料预处理过程有着至关重要的作用.而在蒙文分词中传统方法对于特征提取、构型特点的计算分析能力有限,基于Lucene的蒙文分词技术结合垂直搜索引擎技术,面向专业领域构建个性化专业词典,采用逐字二分的分词词典机制,并在此基础上采用正向最大匹配分词算法来改进Lucene的蒙文分词模块.文章提出了根据领域知识、领域概念、领域术语,在分词预处理前降低搜索噪音、信息过载、信息冗余等现象,从而改进了词典机制.文章的另一个工作是在现有Lucene蒙文分词技术上结合垂直搜索引擎技术提高Lucene在蒙文应用程序开发上的应用广泛度.基于开放的蒙汉语料的实验结果表明,改进的Lucene分词技术能有效地改善对齐效果,相比原始的分词模型,译文质量有了显著的提高.

关键词(KeyWords): 机器翻译;分词;Lucene;垂直搜索引擎  

基金项目(Foundation):

作者(Author): 卢凤;


地址:内蒙古包头市昆都仑区阿尔丁大街7号 邮编:014010 电话:0472-5951610或0472-5953910 Email:cky@imust.edu.cn nkdxb@imust.edu.cn

版权所有:内蒙古科技大学学报编辑部(©2013)