[发明专利]一种核心信息提取的方法和系统有效
| 申请号: | 201910699583.4 | 申请日: | 2019-07-31 |
| 公开(公告)号: | CN110414004B | 公开(公告)日: | 2022-11-18 |
| 发明(设计)人: | 杨明晖 | 申请(专利权)人: | 创新先进技术有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33 |
| 代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
| 地址: | 开曼群岛大开曼岛乔治镇医院路*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 核心 信息 提取 方法 系统 | ||
本说明书实施例公开了一种核心信息提取的方法及系统。所述核心信息提取的方法包括:获取文本信息;基于对文本信息的分词处理,获取与文本信息对应的一个或多个分词信息;确定一个或者多个分词信息在文本信息中的一个或者多个权重;权重能够反映一个或多个分词信息在文本信息中的重要度;至少基于一个或者多个权重确定文本信息的核心信息。
技术领域
本说明书涉及人工智能领域,特别涉及一种核心信息提取的方法和系统。
背景技术
随着信息社会的发展,各领域的信息数据迅速增多。通过人工智能自动地从大量文本中准确提取核心信息对于互联网时代的信息检索、数据挖掘、数据处理等诸多领域十分重要,因此,提取文本的核心信息成为自然语言处理领域的一项重要技术。
在核心信息提取的技术中,常用的核心信息提取方法包括无监督和有监督两种方案。无监督的核心信息提取基于统计的方法在文档、篇章文本、大数据上应用良好,但难以准确计算小数据量文本的关键词。有监督算法在短文本小数据上效果优于无监督算法,但随着互联网的快速发展以及用户使用场景的日益复杂,不同企业用户的文本场景不同、文本篇幅不同,同样的词语在不同场景下权重差异较大,常见的有监督算法难以获取优质标注数据。
因此希望有一种可靠的改进方法,能够不依赖于文本篇幅以及标注样本,适应各种场景下的文本核心信息提取。
发明内容
本说明书的一个方面提供一种核心信息提取方法。所述方法包括:获取文本信息;基于对所述文本信息的分词处理,获取与所述文本信息对应的一个或多个分词信息;确定所述一个或者多个分词信息在所述文本信息中的一个或者多个权重;所述权重能够反映所述一个或多个分词信息在所述文本信息中的重要度;至少基于所述一个或者多个权重确定所述文本信息的核心信息。
在一些实施例中,所述确定所述一个或者多个分词信息在所述文本信息中的权重包括:基于所述一个或多个分词信息和所述文本信息,确定一个或者多个遮罩文本;所述一个或多个遮罩文本中分别至少有一个分词信息被遮住;基于第一预设算法和所述文本信息确定所述文本信息的原始向量表示;基于第一预设算法和所述一个或多个遮罩文本确定一个或者多个遮罩向量表示;根据所述原始向量表示以及所述一个或者多个遮罩向量表示确定所述一个或者多个权重。
在一些实施例中,所述根据所述原始向量表示以及所述一个或者多个遮罩向量表示确定所述一个或者多个权重包括:确定所述一个或者多个遮罩向量表示与所述原始向量表示之间的一个或者多个距离;根据所述一个或者多个距离确定所述一个或者多个权重。
在一些实施例中,所述权重与其对应的距离正相关。
在一些实施例中,所述距离包括以下至少一种:cosine距离、欧拉距离或曼哈顿距离。
在一些实施例中,根据所述一个或者多个距离确定所述一个或者多个权重包括:对所述一个或者多个距离进行归一化,以确定所述一个或多个权重。
在一些实施例中,所述第一预设算法包括BERT模型。
在一些实施例中,所述至少基于所述一个或者多个权重确定所述文本信息的核心信息包括:根据所述一个或者多个权重及预设阈值确定所述文本信息的核心信息。
在一些实施例中,所述文本信息包括短文本信息。
在一些实施例中,所述方法还包括:获取限制词汇信息;基于限制词汇信息对所述一个或多个分词信息进行筛选,如果一个或多个分词信息包含在所述限制词汇信息中,则将该分词信息排除在核心信息之外。
在一些实施例中,所述文本信息包括短文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910699583.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





