[发明专利]一种同主题文本集合中多文本摘要获取方法有效
| 申请号: | 201810223876.0 | 申请日: | 2018-03-19 |
| 公开(公告)号: | CN108595411B | 公开(公告)日: | 2022-02-01 |
| 发明(设计)人: | 徐小龙;杨春春;段卫华;张洁;朱洁;刘茜萍 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 田凌涛 |
| 地址: | 210023 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 主题 文本 集合 摘要 获取 方法 | ||
1.一种同主题文本集合中多文本摘要获取方法,其特征在于:初始化针对文本集合中所有文本进行任意排序,并结合各文本中各句子的顺序,获得文本集合中所有句子的排序;以及结合各句子中各特征项的顺序,获得文本集合对应所有句子中所有特征项的顺序,然后执行如下步骤:
步骤A.根据如下公式:
获得文本集合中各句子的权重Wi;其中,fi表示文本集合对应所有句子中第i个句子在其所在文本中的频数;N表示文本集合中文本的数量;以及获得文本集合对应所有句子中各特征项的权重Qj,然后进入步骤B;其中,i∈{1、…、I},I表示文本集合中所有句子的总数,j∈{1、…、J},J表示文本集合对应所有句子中所有特征项的总数;
步骤B.根据文本集合中各句子权重Wi,以及文本集合对应所有句子中各特征项权重Qj,获得各句子分别与各特征项之间的相似度Sij,并按如下公式:
构建文本向量矩阵S(i,j),然后进入步骤C;
步骤C.根据文本向量矩阵中各句子分别与各特征项之间的相似度Sij,分别获得文本集合中两两句子之间的距离,构建文本集合中所有句子对应的距离矩阵R(i,i'),并进一步获得文本集合中各个句子的空间坐标,然后进入步骤D;其中,i'∈{1、…、I};
步骤D.根据距离矩阵R(i,i'),引入句子密度排序方法,获得文本集合中所有句子所对应聚类中心的数量P,然后进入步骤E;
步骤E.根据文本集合中所有句子所对应聚类中心的数量P,针对文本集合中的所有句子进行聚类,获得P个子主题文档集合,然后进入步骤F;
步骤F.根据预设摘要句子总数,针对P个子主题文档集合,采用卷积神经网络进行处理,获得文本集合中多文本所对应的摘要。
2.根据权利要求1所述一种同主题文本集合中多文本摘要获取方法,其特征在于,所述步骤A中,根据如下公式:
Qj=log10(1+f(tj))×log10(I/Ij)
获得文本集合对应所有句子中各特征项的权重Qj;其中,f(tj)表示文本集合对应所有句子所有特征项中第j个特征项在其所在句子中的频数,Ij表示文本集合对应所有句子中包含第j个特征项的句子的数量。
3.根据权利要求1所述一种同主题文本集合中多文本摘要获取方法,其特征在于,所述步骤C中,根据文本向量矩阵中各句子分别与各特征项之间的相似度Sij,分别获得文本集合中两两句子之间的距离,并根据如下公式:
构建文本集合中所有句子对应的距离矩阵R(i,i')。
4.根据权利要求1所述一种同主题文本集合中多文本摘要获取方法,其特征在于,所述步骤D包括如下步骤:
步骤D1.获得距离矩阵R(i,i')中所有两两句子之间距离的平均值k1,然后进入步骤D2;
步骤D2.分别针对文本集合中的各个句子,以句子的空间坐标为圆心,k1为半径,构建该句子所对应的圆形,并获得位于该圆形范围内句子的数量,作为该句子所对应的文本密度,进而获得文本集合中各个句子分别所对应的文本密度,然后进入步骤D3;
步骤D3.针对文本集合中的所有句子、按所对应文本密度由大至小的顺序进行排序,并基于排序,将对应相同文本密度的各个句子划分为一个集合,即获得按文本密度由大至小顺序所排序的各个句子集合,然后初始化l=1,并进入步骤D4;
步骤D4.按文本密度由大至小顺序,由第l个句子集合中任选一个句子,作为一个凝聚点,并针对l的值进行加1更新,然后进入步骤D5;
步骤D5.判断l是否大于L,是则进入步骤D7;否则进入步骤D6;L表示基于相同文本密度各个句子划分为一个集合操作后所获句子集合的数量;
步骤D6.按文本密度由大至小顺序,由第l个句子集合中任选一个句子,并判断该句子分别与已获得各凝聚点的之间的距离是否均大于2k1,是则将该句子作为一个凝聚点,否则针对l的值进行加1更新,并返回步骤D5;
步骤D7.统计所获凝聚点的数量,即获得文本集合中所有句子所对应聚类中心的数量P。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810223876.0/1.html,转载请声明来源钻瓜专利网。





