[发明专利]一种采用多策略自动生成摘要的网络新闻概要系统有效
| 申请号: | 201910868998.X | 申请日: | 2019-09-16 |
| 公开(公告)号: | CN110597981B | 公开(公告)日: | 2021-07-20 |
| 发明(设计)人: | 曾太;吴越 | 申请(专利权)人: | 西华大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/951 |
| 代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 刘红阳 |
| 地址: | 610039 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 采用 策略 自动 生成 摘要 网络新闻 概要 系统 | ||
1.一种采用多策略自动生成摘要的网络新闻概要方法,其特征在于,所述采用多策略自动生成摘要的网络新闻概要方法包括:
步骤一,多新闻网站多领域的数据采集;包括:
1)新闻领域分类归一化:对多新闻网站,统一不同网站的新闻文章的分类标准;
2)新闻数据的结构归一化:对多新闻网站,统一不同网站新闻数据的数据结构;进行网络爬虫进行统一解析与存储;
3)多网站多领域爬虫设计:使用模板并借用Jsoup、selenium底层网络请求工具,将网络爬虫需要针对不同新闻网站时所需要完成的新闻文章、新闻作者、新闻评论数据的解析、存储任务进行程序逻辑设计;在采集新闻文章时,提前预配置当前网站当前爬行方法的所属领域;
所述网络爬虫的方法包括:定时采集文章链接任务、定时采集文章数据;
所述定时采集文章链接任务的方法包括:
a)任务读取网站网址;
b)下载领域网站网址;
c)解析网页为一份文章链接集合;
d)设置文章链接为待解析状态;
e)存储文章链接集合;存储前,向数据库查询是否已存在该文章链接,若无,则存储;
所述定时采集文章数据的方法包括:
i)任务启动,并查询一条数据库中待解析状态的文章链接;查询得到该链接以后,设置状态为解析中,启用数据库事务,对多线程的采集任务读取到脏数据进行处理;
ii)下载并解析文章链接对应的一篇文章;
iii)待解析文章网页完成时,设置当前文章链接的状态为解析完成;
步骤二,采用多种摘要生成策略,自动生成指定策略的文章摘要;具体包括:
待数据采集模块解析一篇网络新闻后,便向文本分析模块输入该新闻文章;然后在由多种摘要生成策略下,文本分析模块输出分别输出多种摘要算法生成的文摘;将不同摘要生成策略的文摘依次存储至数据库中;当用户阅览网络新闻概要系统的新闻简讯时,网络新闻概要系统根据指定的摘要策略查询新闻简讯所需的文摘;
所述网络新闻概要系统根据指定的摘要策略查询新闻简讯所需的文摘中,摘要策略包括以下四种方法:
a)基于共现词汇与TextRank的经典摘要算法;
b)基于BM25与TextRank的摘要算法;
c)基于Word2Vec词向量与TextRank的摘要算法;
d)融合共现词汇、Word2Vec与TextRank的摘要算法;
基于共现词汇与TextRank的经典摘要算法具体包括:
1)文本预处理:
针对输入的一篇新闻文章,进行分句、分词,并清除停用词,生成二维数组格式的句子词汇矩阵;其中,停用词表采用百度停用词表;句子词汇矩阵的每一行代表一条句子;每一条句子以一维数组形式存在;矩阵内每一行句子内的元素是原文章对应句子内的某一词汇;
2)初始化TextRank图模型Graph:
图模型Graph的属性包括:表示句子节点的nodes、表示图模型中边关系的二维邻接矩阵edges、表示节点权重值TR的nodesWeight、经过分词后的句子词汇矩阵sentencesWords、阻尼系数d;初始化edges中每一条边关系的权重值为0,表示暂未建立节点间的边关系;初始化每一节点权重nodesWeight[i]的值为任意常数,取值1.0;
3)计算文本内任意两句子间的关联度得分,构建图模型的边关系edges[i][j];
其中,i、j分别表示文章中的第i条句子和第j条句子;计算出的得分即图模型中边edges[i][j]的权重值;
4)迭代更新图模型:
更新图模型Graph的句子Vi的节点权重nodesWeight[i],为TR(Vi)值;更新的计算公式如下:
其中,Similarity(Vi,Vj)表示句子Vi与句子Vj的关联度得分;Vi表示当前句子;TR(Vi)表示当前节点权重;d表示阻尼系数,一般默认取值为0.85;{TR(V1),TR(V2),…,TR(Vm)}表示指向当前句子节点Ti的所有节点对应的TR值,即所有的前继节点对应的TR值;
当迭代更新图模型内任一句子节点Vi第N次迭代运算所得权重值的与上一次迭代所得值的最大差值小于一个趋近于0的小数threshold时,迭代终止;小数阈值threshold设置为0.00000001;
5)提取摘要句子:
根据图模型的句子节点权重值nodesWeight[i]的大小,降序排序后,依次输出前N个句子,为该文章的自动文摘;
6)将多种自动文摘算法封装为一生成个自动文摘数据接口,提供文本计算服务;每当网络爬虫爬取下载一篇新闻文章后,便调用上述数据接口,将调用接口时指定的不同文摘算法策略,生成多个摘要算法对应的多份自动文摘;然后,分别存储其多份自动文摘至数据库中;最后,等待读者使用系统服务时调取用户指定策略的文摘;
所述四种方法仅在计算文本内任意两句子的关联度Similarity(Vi,Vj)不同,具体包括:
Ⅰ)基于共现词汇与TextRank的经典摘要算法;
其中:Wk,即句子与句子中的同时出现共现词汇;|Vi|,表示句子Vi的词汇数;
Ⅱ)基于BM25与TextRank的摘要算法:
Similairity(Vi,Vj)=∑BM25Score(Wk),Wk∈ViWk∈Vj
其中,Wk,表示两句子的共现词汇;BM25Score(word),表示词汇word在文档集documents中的BM25得分;文档集documents,表示将当前一篇含有多条句子的新闻文章视为一份文档集,一条句子即视为一篇”文章”,那么,一整篇新闻文章则被视为多份“文章”的集合,BM25的计算公式如下:
其中,|D|,表示当前新闻文章的句子总数,为文档集documents的文章总数;avgDl,表示文档集documents的平均文章长度;tf,即词频概率,表示指定词汇word在当前文章中出现过的频率,由指定词汇word在第i份文章documents[i]中出现的次数除以当前文章documents[i]的长度得到;参数k、b,分别取0.625、0.75;IDFScore(word),表示指定词汇word在整篇文章中的普遍重要性,计算公式如下:
其中,WordFequencyInDocuments(word)表示在文档集documents中出现过指定词word的文章总数;
Ⅲ)基于Word2Vec词向量与TextRank的摘要算法:Word2Vec词向量模型是基于NNLM的简化版神经网络语言模型;包含通过周围词预测中间词汇的Skip-Gram模型与通过中间词汇预测周围词的CROW模型,将任一词汇转换为一维固定长度的数学向量;利用数学向量直接运算的优势,计算任意两个词汇的余弦相似度作为两词汇的语义相似度;
对于句子与的相似度如下:
其中,AVG(Si),表示句子Si的句子级词向量,它由句子Si内的n个Word2Vec词汇词向量平均求和所得,计算公式如下:
其中Si=[W1,W2,...,Wp,...,Wn]
其中,Wi,是句子内的第i个词汇的一维词向量,由Word2Vec的Skip-Gram模型生成;
Ⅳ)融合共现词汇、Word2Vec与TextRank的摘要算法:融合共现词汇在文本中对高频词汇的统计优势和Word2Vec词向量在语义表征上的独特优势,计算两句子的关联度,即值,以此优化摘要算法效果;
计算公式如下:
其中,CoWordsScore(Si,Sj),表示两句子的共现词汇得分,其计算公式如下:
CoWordsScore(Si,Sj)=[log(|{Wk|Wk∈SiWk∈Sj}|+1)+1]
此处的Wk表示两句中共同出现的词汇,即共现词汇;
而AVG(Si),表示句子Si的句子级词向量,它由句子Si内的n个Word2Vec词汇词向量平均求和所得,计算公式如下:
其中Si=[W1,W2,...,Wp,...,Wn]
其中,Wi,是句子内的第i个词汇的一维词向量,由Word2Vec的Skip-Gram模型生成,所述词汇查询经过Word2Vec训练后的模型,得到一份指定长度为N的一维行向量[0.4,0.46,0.24,0.54,0.1324,…,0.46],利用词向量和余弦相似度公式,实现任意两词汇的语义相似度或语义距离的计算;
步骤三,生成基于新闻文摘的新闻简讯;
步骤四,阅读分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华大学,未经西华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910868998.X/1.html,转载请声明来源钻瓜专利网。





