[发明专利]一种同主题文本集合中多文本摘要获取方法有效
| 申请号: | 201810223876.0 | 申请日: | 2018-03-19 |
| 公开(公告)号: | CN108595411B | 公开(公告)日: | 2022-02-01 |
| 发明(设计)人: | 徐小龙;杨春春;段卫华;张洁;朱洁;刘茜萍 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 田凌涛 |
| 地址: | 210023 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种同主题文本集合中多文本摘要获取方法,首先通过对文本进行预处理,包括分词,停用词处理,特征选择,降维等;下一步,利用处理之后的特征词构造空间向量模型,生成距离矩阵;然后在聚类方法中加入样本密度排序的方法,以中心向量为圆心,用向量空间中特征值距离的平均值为半径构造圆,根据圆内排序好的文本内容相似度生成的样本密度来自动确定初始聚类中心,从而自动发现文档集合中的潜在对应的子主题集合的数量;生成对应的子主题集之后,方法对已聚类的子主题文本进行有监督的训练,对句子进行评分,标记,从不同的子主题中抽取中心句作为多文本的摘要,最后,方法输出摘要的内容;提高了多文本摘要的质量。 | ||
| 搜索关键词: | 一种 主题 文本 集合 摘要 获取 方法 | ||
【主权项】:
1.一种同主题文本集合中多文本摘要获取方法,其特征在于:初始化针对文本集合中所有文本进行任意排序,并结合各文本中各句子的顺序,获得文本集合中所有句子的排序;以及结合各句子中各特征项的顺序,获得文本集合对应所有句子中所有特征项的顺序,然后执行如下步骤:步骤A.获得文本集合中各句子的权重Wi,以及获得文本集合对应所有句子中各特征项的权重Qj,然后进入步骤B;其中,i∈{1、…、I},I表示文本集合中所有句子的总数,j∈{1、…、J},J表示文本集合对应所有句子中所有特征项的总数;步骤B.根据文本集合中各句子权重Wi,以及文本集合对应所有句子中各特征项权重Qj,获得各句子分别与各特征项之间的相似度Sij,并构建文本向量矩阵S(i,j),然后进入步骤C;步骤C.根据文本向量矩阵中各句子分别与各特征项之间的相似度Sij,分别获得文本集合中两两句子之间的距离,构建文本集合中所有句子对应的距离矩阵R(i,i'),并进一步获得文本集合中各个句子的空间坐标,然后进入步骤D;其中,i'∈{1、…、I};步骤D.根据距离矩阵R(i,i'),引入句子密度排序方法,获得文本集合中所有句子所对应聚类中心的数量P,然后进入步骤E;步骤E.根据文本集合中所有句子所对应聚类中心的数量P,针对文本集合中的所有句子进行聚类,获得P个子主题文档集合,然后进入步骤F;步骤F.根据预设摘要句子总数,针对P个子主题文档集合,采用卷积神经网络进行处理,获得文本集合中多文本所对应的摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810223876.0/,转载请声明来源钻瓜专利网。





