[发明专利]一种基于中文语法规则的事件提取方法和系统有效
申请号: | 201710078221.4 | 申请日: | 2017-02-14 |
公开(公告)号: | CN106959944A | 公开(公告)日: | 2017-07-18 |
发明(设计)人: | 徐琳;王犇;贺成龙;葛唯益;宗士强;姜晓夏;王羽 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 柏尚春 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于中文语法规则的事件提取方法和系统,包括存储模块、用于通过http请求获取网页内容,并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库,提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。本发明能将非结构化的文本事件转化成结构化的事件信息,能用于新闻网页事件提取分析,事件提取结果能直接应用于事件舆情分析、事件热度分析等。 | ||
搜索关键词: | 一种 基于 中文 语法 规则 事件 提取 方法 系统 | ||
【主权项】:
一种基于中文语法规则的事件提取方法,其特征在于,包括如下步骤:(1)获取网页内容,得到半结构化的网页文本数据;(2)对半结构化文本数据进行文本预处理,得到噪声相对较小的半结构化网页文本;(3)对预处理之后的文本进行词法解析,对分词结果进行词性标注;(4)进行中文语法分析,得到中文语法树;(5)标注中文语法,输出中文语法正则表达式;(6)对步骤(4)得到的中文语法树进行主从句解析,得到事件五要素;(7)对照事件类型定义,对事件类型进行识别;(8)输出事件五要素,将结构化信息存入数据库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710078221.4/,转载请声明来源钻瓜专利网。
- 上一篇:语种识别更新方法及装置
- 下一篇:基于人工智能的为新闻生成短标题的方法和装置