[发明专利]一种中医针灸领域事件触发词的自动抽取方法及系统在审
申请号: | 201710245442.6 | 申请日: | 2017-04-14 |
公开(公告)号: | CN107092674A | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 孙水华 | 申请(专利权)人: | 福建工程学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙)35212 | 代理人: | 林晓琴 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中医 针灸 领域 事件 触发 自动 抽取 方法 系统 | ||
1.一种中医针灸领域事件触发词的自动抽取方法,其特征在于:包括:
步骤S1、由人工预定义中医针灸事件模板;
步骤S2、由人工根据预定义的中医针灸事件模板构建中医针灸事件的标注语料库;
步骤S3、设计初始触发词表构建法,用于根据所述标注语料库构建中医针灸事件的初始触发词表;
步骤S4、设计触发词扩展算法,用以对所述初始触发词表进行扩展,得到中医针灸事件的触发词扩展表;
步骤S5、设计候选触发词抽取算法,用以基于所述中医针灸事件触发词扩展表对候选针灸事件的触发词进行抽取;
步骤S6、设计触发词过滤规则集,用以对候选针灸事件的触发词进行过滤;
步骤S7、将所述初始触发词表构建法、触发词扩展算法、候选触发词抽取算法以及触发词过滤规则构建为触发词自动抽取模型,从而实现中医针灸领域事件触发词的自动抽取。
2.根据权利要求1所述的一种中医针灸领域事件触发词的自动抽取方法,其特征在于:所述标注语料库包括训练集和测试集,其中,训练集用于构建所述初始触发词表,测试集用于测试评估所述触发词自动抽取模型;所述自动抽取方法还包括:
步骤S8、在所述测试集上对所述触发词自动抽取模型采用准确率P、召回率R和F-值三个通用的测评指标进行评价,该三个通用的测评指标的具体定义如下公式所示:
3.根据权利要求2所述的一种中医针灸领域事件触发词的自动抽取方法,其特征在于:所述步骤S1是通过对中医针灸领域文本的分析,同时借鉴ACE语料库中文通用领域事件的定义以及中文事件的标注方法,预定义了治疗事件模板和保健事件模板,所述治疗事件模板和保健事件模板即构成所述中医针灸事件模板。
4.根据权利要求2所述的一种中医针灸领域事件触发词的自动抽取方法,其特征在于:所述步骤S2中医针灸领域事件的标注语料库的构建步骤:
(1)从网站上爬取一定时期发表的中医针灸领域文献的摘要信息;
(2)从爬取的摘要信息中随机选取多篇文献;
(3)按照预定义的中医针灸事件模板及其标注格式逐篇逐句进行人工标注,分别构建训练集和测试集,形成所述标注语料库。
5.根据权利要求2所述的一种中医针灸领域事件触发词的自动抽取方法,其特征在于:所述步骤S3的初始触发词表构建法是:分析所述训练集,逐篇逐句收集人工标注的中医针灸事件触发词及其类别,在训练语料范围内统计每个触发词触发事件的个数、触发词出现在句子中的个数、各种事件类型出现的个数以及句子总数的信息,并利用这些统计量计算各个事件触发词的权重,从而构建初始中医针灸事件触发词表;
所述事件触发词的权重的计算公式为:Scorei=TF(wi)*IDF(wi) (1);
其中,TF为词频,表示某个触发词wi对该触发词所属事件类别的贡献程度,IDF为逆向文件频率,表示触发词wi在训练语料中出现的频度;
TF的计算公式为:TF(wi)=ni/mi (2);其中,ni为触发词wi在所有训练语料中触发的某类事件的个数,mi为训练语料中该类事件的总个数;
IDF的计算公式为:其中,Ni为训练语料中句子总数,Mi为训练语料中含有触发词wi的句子数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建工程学院,未经福建工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710245442.6/1.html,转载请声明来源钻瓜专利网。