[发明专利]一种基于语义分析的文本关键信息提取方法及装置有效

专利信息
申请号: 201711332910.X 申请日: 2017-12-13
公开(公告)号: CN108052500B 公开(公告)日: 2021-06-22
发明(设计)人: 任东英;朱瑾鹏 申请(专利权)人: 北京数洋智慧科技有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/289;G06F40/284
代理公司: 北京正鼎专利代理事务所(普通合伙) 11495 代理人: 岳亚
地址: 100000 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于语义分析的文本关键信息提取方法及装置,不限制搭配成词的原词语数目,用以发现文本中可表征明确含义的候选字符串,解决了词典依赖及只能提取词语的问题。相对于传统的权重计算方法,通过分析文本特点,发现上下文语义信息丰富度可以反映出字符串表达意图能力的强弱,因此,在字符串权重计算公式中加入外部丰富度影响因子,不仅考虑了字符串本身特点,也考虑了字符串外部上下文的环境,有效地补充了指标体系,提高了结果准确性。
搜索关键词: 一种 基于 语义 分析 文本 关键 信息 提取 方法 装置
【主权项】:
1.一种基于语义分析的文本关键信息提取方法,其特征在于,包括:将待处理文本以汉字为单位进行分割,形成字串c1,c2,…,ci,ci+1,…,cn,其中,ci表征一个汉字,n为所述文本中汉字总数;计算相邻的任意两个所述汉字ci,ci+1的点间互信息、左邻信息熵和右邻信息熵;若所述点间互信息、左邻信息熵和右邻信息熵均满足预设阈值1,则合并两个汉字为一个字符串;直到无法对所述文本中相邻汉字进行合并为止,所述文本的划分结果为T:t1,t2,…,tk,…,tm,其中,tk为字、词、短语或短句的字符串,m为所述文本中字、词、短语或短句的字符串的总数;取所述tk中长度大于1且不属于停止词的字、词、短语或短句的字符串,作为候选字符串,计算各个候选字符串的权重;将所述权重大于预设阈值2的若干个所述候选字符串作为所述文本的关键信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数洋智慧科技有限公司,未经北京数洋智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711332910.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top