[发明专利]基于统计与模板匹配的领域概念自动抽取精化方法及系统有效
申请号: | 201610307269.3 | 申请日: | 2016-05-11 |
公开(公告)号: | CN105930509B | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 吕钊;谢雨飞 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙) 31257 | 代理人: | 董红曼 |
地址: | 200062 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于统计与模板匹配的领域概念自动抽取与精化方法,该方法包括:对领域文档中的内容进行分类;针对分类的标题和摘要,通过匹配得到符合“是一个”模式的匹配内容;对匹配内容进行预处理,并提取文档内容中的术语抽取规则和术语词性构成规则;根据术语抽取规则,抽取匹配内容中的知识点,并根据术语词性构成规则对知识点进行初步过滤,加入领域知识点;计算领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。本发明在保证一定准确率的前提下最大程度的实现了此过程的自动化,很大程度上提高了知识点抽取的效率,能最大限度的节约人力成本。本发明公开了领域概念自动抽取与精化系统。 | ||
搜索关键词: | 基于 统计 模板 匹配 领域 概念 自动 抽取 方法 系统 | ||
【主权项】:
1.一种基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,包括以下具体步骤:数据分类步骤:对领域文档中的内容进行分类,分类结果包括:关键词、标题和摘要;将关键词加入领域知识点中;模式匹配步骤:针对标题和摘要,通过匹配得到符合“是一个”模式的匹配内容;所述“是一个”模式具体形式如下:Defineconstant{(量词)={种|个|款|家|件|项|台|套|组|块|系|条|位|次|部|本|门|片|名|段|场|张|间|群|体|类|只|根|层|颗|两|对|支|笔|}(前缀搭配)!={不,近似,貌似,好像,曾经,也许,不再,几乎就,并不,可以算,将不再,看起来,传说中,以前}}Define Pattern{模式构成:<*C1><*!前缀搭配><是>一<!量词><*C2>}其中,“!”表示定义一个常量,“*”表示定义中可以出现任意次数,“|”表示或关系,“<*C1>”、“<*C2>”为任意字符串;规则提取步骤:对所述匹配内容进行预处理,并提取所述文档内容中的术语抽取规则和术语词性构成规则;所述预处理包括对所述匹配内容进行分词、词性标注和依存句法树分析;知识点抽取步骤:根据所述术语抽取规则,抽取所述匹配内容中的知识点,并根据所述术语词性构成规则对所述知识点进行初步过滤,加入所述领域知识点;相关度获取步骤:计算所述领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610307269.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种图像检索系统和方法
- 下一篇:一种获得用户的Web浏览兴趣的方法及装置