高永兵,郑伟业,李春灿,姜春光
1:内蒙古科技大学信息工程学院
2:中冶西北工程技术有限公司市政设计研究院
摘要(Abstract):
采用一种基于分级掩码策略的文本纠正方法来提高语音识别后的文本质量.以风电相关的语音为数据集,将其通过公开的语音识别SDK转为文本数据,利用BERT中的MLM机制实现文本纠正,并采用分级掩码策略,针对不同的内容采用不同的掩码方法,改进后的模型称为HM-BERT.实验证明:HM-BERT在提升纠正效果的同时还加强了纠正模型的鲁棒性,该方法对其他领域的文本纠正也提供了解决思路.
关键词(KeyWords): BERT;MLM;分级掩码;语音文本纠正
基金项目(Foundation): 内蒙古自治区自然科学基金资助项目(2021LHMS06004)
作者(Author): 高永兵,郑伟业,李春灿,姜春光
DOI: 10.16559/j.cnki.2095-2295.2023.04.012