[发明专利]一种针对海量新闻的疾病名词自动识别方法有效
| 申请号: | 201510756485.1 | 申请日: | 2015-11-09 |
| 公开(公告)号: | CN105426358B | 公开(公告)日: | 2018-08-31 |
| 发明(设计)人: | 陈瑛;裴蓓;程碧霄;高万林;赵明;彭珺;杜亚茹 | 申请(专利权)人: | 中国农业大学;公安部第三研究所 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100193 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 疾病 名词 自动识别 方法 | ||
本发明提供一种针对海量新闻的疾病名词自动识别方法,所述方法包括,获取第一预设新闻材料中的语料数据;构建疾病领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。本发明所述方法实现了对新闻报道等语言通俗的文献中的疾病名词或其别名的自动识别。
技术领域
本发明涉及自然语言处理领域,特别是涉及一种针对海量新闻的疾病名词自动识别方法。
背景技术
伴随着信息全球基础设施和各国信息基础设施的形成和完善,现代社会已进入网络化、信息化时代。网络时代的信息安全是涉及我国经济发展、社会发展、国家安全的重大问题,因此,加强信息安全监管尤为重要。作为一种敏感性内容,疾病相关报道是新闻审核部门的一项重要审查内容。传统新闻审核主要依赖人力,费时耗力;现有的敏感词自动识别系统往往基于特定的词表,对未收录词无法做到自动判别。疾病本身种类多,别名丰富,且随着时间发展往往会出现新的疾病名称。因此,研究疾病名词自动识别,尤其是对于新出现词的自动识别,有利于更为全面的识别目标信息,从而可以辅助审核人员和决策人员进行相关审查工作,减少敏感信息的不必要曝光,保障国家信息安全。
疾病名词是一种类型的专有名词,而专有名词抽取一直是信息抽取领域的研究重点。目前流行的专有名词识别方法主要采用机器学习方式,其利用人工标注语料作为训练语料,结合各种全监督式机器学习方法和特征提取方法,得到专有名词识别模型。由于,人工标注语料费时费力,并且面临覆盖率差等各种问题,因此需要研究高质量的训练语料自动标注方法。近年来,利用本体知识库实现训练语料的自动标注,从而得到半监督式专有名词识别模型。作为一种能够在语义和知识层面上描述事物的概念模型,本体可以提供某一领域的概念及其关系,可以用于语料的自动标注。
但是,现有的疾病领域本体,大多采用较为规范的学术用语。而现有文献很多是面向人民大众的,比如新闻报道,语言相对通俗,两者之间存在较大的表达方式差异。因此,利用现有的疾病领域本体对新闻报道进行标注得到的训练语料的覆盖率不高,进一步地,基于这种自动标注训练语料的疾病名词识别模型也不能对新闻报道等运用通俗语言的文献进行自动识别。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何解决现有的疾病领域本体,大多采用较为规范的学术用语,不能对新闻报道等运用通俗语言的文献很好地进行自动识别的问题。
(二)技术方案
为了解决上述技术问题,第一方面,本发明提供了一种针对海量新闻的疾病名词自动识别方法,包括:
获取第一预设新闻材料中的语料数据;
构建疾病领域本体;
对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;
根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;
根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。
优选的,所述获取第一预设新闻材料中的语料数据,具体包括:
通过网络终端设备收集新闻材料数据;
对所述新闻材料数据进行预处理,包括:提取新闻材料的名称、日期、作者、标题和/或文章数据,并进行保存。
优选的,所述构建疾病领域本体,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学;公安部第三研究所,未经中国农业大学;公安部第三研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510756485.1/2.html,转载请声明来源钻瓜专利网。





