[发明专利]文本主题的确定方法、装置、计算机设备及存储介质在审

专利信息
申请号: 202111197318.X 申请日: 2021-10-14
公开(公告)号: CN113868424A 公开(公告)日: 2021-12-31
发明(设计)人: 于连涛 申请(专利权)人: 平安银行股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/211;G06F40/30;G06N3/04;G06N3/08
代理公司: 深圳市精英专利事务所 44242 代理人: 李翔宇
地址: 518000 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 主题 确定 方法 装置 计算机 设备 存储 介质
【权利要求书】:

1.一种文本主题的确定方法,其特征在于,包括:

根据预设的分句规则将目标文本分成多个文本句子;

将各所述文本句子输入预设的Bert模型,得到由各所述文本句子的向量组成的句子向量集合;

根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度,得到摘要句子相似度集合;

根据所述摘要句子相似度集合确定各摘要句子的句子重要值;

根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。

2.根据权利要求1所述的方法,其特征在于,所述根据所述摘要句子相似度集合确定各摘要句子的句子重要值,包括:

将所述摘要句子相似度集合中大于或等于预设相似度阈值的余弦相似度化为1,将根据所述摘要句子相似度集合中小于所述预设相似度阈值的余弦相似度化为0,得到第一摘要相似度集合;

根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值。

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值,包括:

获取各摘要句子的句子长度,以及获取各摘要句子的第一摘要相似度中元素值为1的元素个数;

针对各摘要句子的第一摘要相似度中的每个第一元素,将所述第一元素乘以对应的句子长度并除以对应的元素个数,得到由各摘要句子的第二摘要相似度组成的第二摘要相似度集合;

根据所述第二摘要相似度集合确定各摘要句子的句子重要值。

4.根据权利要求3所述的方法,其特征在于,所述根据所述第二摘要相似度集合确定各摘要句子的句子重要值,包括:

根据所述句子向量集合确定各文本句子间的余弦相似度,得到文本句子相似度集合;

将所述文本句子相似度集合中各文本句子对应的余弦相似度之和确定为各文本句子的文本重要值,得到包含所述各文本句子的文本重要值的文本重要值集合;

针对各摘要句子的第二摘要相似度中的每个第二元素,将所述第二元素乘以所述文本重要值集合中与所述第二元素对应的文本重要值,得到多个元素重要值;

针对各摘要句子,将对应的元素重要值进行累加处理,得到各摘要句子的句子重要值。

5.根据权利要求4所述的方法,其特征在于,所述根据所述句子向量集合确定各文本句子间的余弦相似度,得到文本句子相似度集合之后,所述方法还包括:

根据聚类算法对所述文本句子相似度集合进行聚类处理,得到多个簇的文本句子相似度子集合;

所述将所述文本句子相似度集合中各文本句子对应的余弦相似度之和确定为各文本句子的文本重要值,得到包含所述各文本句子的文本重要值的文本重要值集合,包括:

针对各簇,根据所述文本句子相似度子集合中各子文本句子对应的余弦相似度之和,确定各子文本句子的文本重要值,得到各簇分别对应的子文本句子重要值集合,所述子文本句子为对应簇的文本句子,所述子文本句子重要值集合包含对应簇中各子文本句子的文本重要值。

6.根据权利要求5所述的方法,其特征在于,所述根据所述第二摘要相似度集合确定各摘要句子的句子重要值,包括:

根据各簇的子文本句子从所述第二摘要相似度集合中查找各簇的子文本句子的第二摘要相似度,得到第二摘要相似度子集合;

根据各簇对应的子文本句子重要值集合以及各簇对应的第二摘要相似度子集合,确定各簇分别对应的各摘要句子的句子重要值。

7.根据权利要求6所述的方法,其特征在于,所述根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题,包括:

获取所述簇的簇个数;

根据预设的主题个数确定规则以及所述簇个数确定主题个数;

针对各簇分别对应的各摘要句子的句子重要值,从多个所述摘要句子中选取句子重要值最大的所述主题个数的摘要句子作为对应簇的文本主题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111197318.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top