精选文章
发布时间:叶辉 曹东
  |  
字数:3790
  |  
阅读量:

摘 要:本文主要研究是基于医院导医业务限定领域知识的问答系统,首先通过中文分词技术、中文信息抽取技术对用户提出的问题进行分词和词性分析,并对其问题文本进行句法依存分析,定出其疑问词和关键字,最后定出句子焦点词。本文采取了关键字和焦点词匹配的方法检索出答案,并按照医院业务流程和特点,设计了一个医院导医知识规则库,通过疑问词和关键字定位出相关问题类别,再通过关键字模糊匹配的方法选择触发相关的HIS数据检索,再返回用户该问题的检索结果。

关键词:医院导医信息;问答系统;句法分析;问题分类

基金项目:2014广东省中医药局建设中医药强省科研课题(20141073),广东财政专项“重大疾病中医药防治临床科研信息一体化平台建设”

1 引言

随着医疗和信息技术的发展,医院面临着导医医疗信息服务人手不够,用户对医院服务不满意等问题。而在网络上的医疗信息呈现几何式增长,病人难于通过搜索引擎从纷繁复杂的信息当中高效准确的获取需要的医疗信息。因此本文研究一种能针对医院导医信息的智能问答系统,运用自然语言处理技术对用户的问题进行处理,并结合医疗规则库的方式回复用户的问题。,因此研究一种针对医院诊疗信息的自动问答系统具有很强的实际意义。近年来,自然语言处理的研究取得了长足的进步,为问答系统的实现提供了理论基础。自然语言的研究在词性标注、语义分析、句法分析、信息抽取等方面都取得了不错的成绩,各种信息检索的方法也层出不穷,从而促进了自动问答系统的研究。

本文研究的是限定医院医疗诊疗信息领域的自动问答系统。原理采用自然语言技术对用户提问文本进行中文分词、词性分析、中文信息抽取、关键字排序、句法依存分析提取等处理,然后按照提取的关键字匹配已有医疗信息知识库的关键字,然后配合问题句法设计一个问题分类表,按照提取的关键字进行问题分类匹配问题类型,从而从知识库中确定出一条最合适用户提问的答案。

2 系统总体设计

系统主要采用用户层、业务层、数据层三层架构,见图1,这样做的优势在于如果将来自然语言处理的发展更完善,能设计出更高效的算法,也不必改动用户层和数据层,只需要改动业务层即可。在数据层方面,近年来,各大医院都有自己一套成熟的医院信息管理系统,为了能最高效率地使用原有的HIS数据,问答系统的数据知识库以原有的HIS数据库为基础实现数据共享,通过HL7标准或XML进行接口数据的处理,免去将HIS数据导入到问答系统时带来数据同步的问题。

3 用户问题的理解

用户问题理解是本系统一个核心的处理某块,基本思路如下:

首先系统针对用户提问,有两个要求,一是一句话提问一个信息,二是提问文字个数不超过30个字,在输入端对用户提问先有一个预设框架,以免由于用户的随意性增加文本分析难度。

对句子进行中文分词处理。在英语当中,有类似空格之类的符号作为词语的分界线,,而汉语是表意文字,词是最小的能够独立活动的有意义的语言成分,词语之间是没有明显的分界标记的,所以分词是中文问答系统中问题分析的基础。系统采用中科院ICTCLAS分词系统结合我们的医疗信息词汇词典进行加强分词,增加ICTCLAS对医院内部未登陆词汇的分词准确性。

其次对文本进行词性分析,然后进行过滤停用词的处理,所谓停用词是指那些对那些文本主题不具备表达能力的,或者表达能力可以忽略的词[1],如助词、标点符号、连词、语气词、拟声词等,这些我们都进行去除处理。如”请问内科在几楼呢?”这句话进行分词和词性分析后的结果是 “请问/v内科/n在/p几/m楼/n呢/y?/ww”,此时去掉无用词”呢”和”?”

3.1 句法分析抽取关键字

关键字代表了语句的主题含义,抽取关键字对理解语句的语义是至关重要的,它将会影响到后面答案的检索。关键字主要由名词、动词、形容词等组成,实际的应用中我们主要把过滤无关词后剩下的大部分词作为关键字。本文主要采用交叉信息熵计算每个候选词的上下文条件熵来获取关键字及其权重,但由于诊疗信息的特殊性,我们把代词和介词的权重提高一些。按照上述的关键字计算规则,如提问为“请问妇科在哪里?”这句话提取的关键字按权重Top2大小输出分别为:“妇科”/“请问”

问句的依存句法分析能更直观清楚地获取语言单位内成分之间的依存关系并揭示其句法结构,像针对医院导医系统的问题来说,主要关注是SBV和POB主谓关系和介宾关系,本文通过哈工大LTP的依存句法分析器分析出问题文本的依存句法,结合之前的提取的关键字“妇科”,联系SBV和POB提取出“在”和“哪里”这些谓词和宾语,,而“哪里”根据词性标注结果被提取成为句子疑问词关键字,然后抽取出谓语,通常距离疑问词最近的原则来抽取谓语[2]。

相关文档:
简述一种新型的机械自动泡茶杯
发电机同期并网调试经验谈
本土文化认同与回归的价值思考
由纸媒到网媒:英国《独立报》的转型之路
基于云服务的图书馆信息检索服务探微
浅谈高中排列与组合的有效教学
浅析文书档案管理工作的创新