基于BERT的中文电子病历命名实体识别
Named entity recognition of Chinese electronic medical record based on BERT
李灵芳;杨佳琦;李宝山;杜永兴;胡伟健;
1:内蒙古科技大学信息工程学院
摘要(Abstract):
电子病历中蕴含着丰富的医学信息,这些医学信息对疾病的诊疗具有十分重要的意义.利用命名实体识别技术对电子病历进行信息抽取已成为研究的热点之一,为了更加高效准确的抽取中文电子病历中的实体,提出了BERT-BiLSTM-CRF命名实体识别模型.模型在传统BiLSTM-CRF模型基础上,融合了BERT字嵌入模型,更好的结合文章上下文,充分考虑了一词多义等问题.实验结果证明,该模型在中文电子病历命名实体识别任务中取得了良好的效果,较现有命名实体识别方法,从准确率、召回率、F_1值3方面都有着明显的提升.电子病历命名实体识别任务准确度的提高,对进一步构建医学知识图谱、医学知识库等任务有着重大帮助.
关键词(KeyWords): 中文命名实体识别;BERT模型;中文电子病历;预训练语言模型
基金项目(Foundation): 国家自然科学基金资助项目(61661044,61961033);; 内蒙古自治区高等学校青年科技英才计划(NJYT-19-A15);; 优秀青年科学基金项目(2017YQL10);; 内蒙古自治区自然科学基金资助项目(2019MS06021)
作者(Author): 李灵芳;杨佳琦;李宝山;杜永兴;胡伟健;
Email:
参考文献(References):
[1] 杨锦锋,于秋滨,关毅,等.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(08):1537-1562.
[2] 杨红梅,李琳,杨日东,等.基于双向LSTM神经网络电子病历命名实体的识别模型[J].中国组织工程研究,2018,22(20):3237-3242.
[7] 杨锦锋,关毅,何彬,等.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746.
[9] 曹春萍,关鹏举.基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J].计算机应用研究,2019,36(12):3748-3751.
[13] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.