信息学院青年教师在《IEEE Transactions on Industrial Informatics》发表研究成果

来源:暂无 发表时间:2022-03-11

近期,信息学院青年教师刘宁在计算机领域顶刊《IEEE Transactions on Industrial Informatics》(该期刊简称“TII”,中科院期刊分区表大类一区,参照中国科学院文献情报中心期刊分区表,2019年期刊影响因子为9.122)发表学术论文,北京林业大学为第一完成单位。

随着互联网医疗的蓬勃发展,医学材料实体识别技术在互联网医院的患者远程管理、医生临床科研的真实世界研究、医药CRO(Clinical Research Organization)公司的临床试验和新药研发、医疗保险公司智能理赔等场景中,均发挥着日益重要的作用。包含有效诊疗信息的医学实体常由多个词语构成,其长度较长,且医学专业性强,这些特点导致现有的实体识别技术在医学实体识别任务中准确率不高。

(图1:本文提出的Med-BERT结构示意图)

针对上述问题,信息学院刘宁老师发表在TII上题为“Med-BERT: A Pre-Training Framework for Medical Records Named Entity Recognition”的论文,提出基于医学词典增强的预训练模型Med-BERT(图1),该模型结合全词掩码(Whole Word Mask, WWM)、全实体掩码(Whole Entity Mask, WEM)和Span Boundary Objective(SBO)机制,提出一种对实体长度敏感的动态损失函数,可以有效表示医学材料中的长实体信息。这种非监督预训练的方式,使得下游实体识别任务在有限的标注训练集上达到更高的识别准确率。

在下游实体识别任务中,本文提出span-FLAT(Flat-LAttice Transformer)模型(图2),利用span机制和实体首部、尾部字符双指针的方式,将实体识别序列标注问题转换为分类问题,以解决由医学长实体引出的实体嵌套问题和新词发现问题,进一步提升了医学实体识别的准确率。

 

(图2:本文提出的基于Med-BERT的Span-FLAT医学实体识别模型)

该论文以智慧医疗应用为背景,针对医学实体识别的难点问题进行了创新研究,研究结果为医学材料结构化、医学知识图谱构建及辅助诊断等问题提供了重要理论保障和基础技术支撑。

 

论文链接:https://ieeexplore.ieee.org/document/9628032

 

                                

                                   撰稿人:刘宁、徐智颖

                                                                                   审稿人:许福