[发明专利]一种基于会议记录生成会议摘要的方法、装置及存储介质有效
| 申请号: | 202110045581.0 | 申请日: | 2021-01-12 |
| 公开(公告)号: | CN112765344B | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 叶东;孙兆伟;高祥博;李晖;赵翰墨;仇均易 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/211;G06F40/216;G06F40/30;G06K9/62 |
| 代理公司: | 西安维英格知识产权代理事务所(普通合伙) 61253 | 代理人: | 归莹;李斌栋 |
| 地址: | 150006 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 会议记录 生成 会议 摘要 方法 装置 存储 介质 | ||
1.一种基于会议记录生成会议摘要的方法,其特征在于,所述方法包括:
按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合;
针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句;其中,所述针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句,包括:
以每个子话题集合中的句子所包括的词语为节点构建每个子话题集合对应的词图;
在所述词图中为任意两个节点之间的边分配所对应的权值;其中,所述在所述词图中为任意两个节点之间的边分配所对应的权值,包括:
在所述词图中按照节点M和节点N之间的联系程度基于下式为节点M和节点N之间的边分配所对应的权值:
其中,F(M)表示节点M的出现频率,F(N)表示节点N的出现频率,F(a,MN)表示节点M和节点N的共现频率;
或者,在所述词图中按照节点M和节点N之间联系的紧密程度基于下式为节点M和节点N之间的边分配所对应的权值:
其中,R表示节点M和节点N之间的路径,dis(R,M,N)表示节点M和节点N之间的路径长度,graph表示所述词图;
或者,在所述词图中基于下式为节点M和节点N之间的边分配所对应的权值:
或者,在所述词图中基于下式为节点M和节点N之间的边分配所对应的权值:
其中,d(M,N)表示节点M和节点N在嵌入空间的欧几里得距离;
基于所述词图中各边对应的权值从所述词图中选取设定数目的最短路径以形成候选摘要语句;
从所述候选摘要语句中按照设定的选取规则选取所述词图对应的子话题集合所对应的最优摘要语句;
根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要。
2.根据权利要求1所述的方法,其特征在于,所述按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合,包括:
将所述会议记录语料按照句子为切割单位进行切割,获得每个句子中所包括的各个词语;
计算所述每个句子中所包括的各个词语对应的词频-逆文本频率TF-IDF值;
根据所述每个句子中所包括的各个词语对应的词频-逆文本频率TF-IDF值将所述会议记录语料映射至向量空间以形成原始词-句矩阵;
将所述原始词-句矩阵通过潜在语义分析LSA进行降维,获得降维后的词-句矩阵;
采用所述降维后的词-句矩阵以及设定的聚类算法按语义进行聚类,获得至少一个子话题集合;其中,每个子话题集合中包括多个句子且每个子话题集合可以被一个摘要语句所概括。
3.根据权利要求1所述的方法,其特征在于,所述以每个子话题集合中的句子所包括的词语为节点构建每个子话题集合对应的词图,包括:
从每个子话题集合中任意选取一个句子;
根据被选取句子中的词语顺序将所述被选取句子中的词语所对应的节点按照设定的添加规则添加在开始节点为首节点且结束节点为末节点的单链中以创建每个子话题集合对应的初始词图;其中,所述被选取句子中的两个词语之间的相邻关系设置为所述两个词语对应两个中间节点之间的边;
对于所述每个子话题集合中除所述被选取句子之外的其他句子,根据所述其他句子中的词语顺序将所述其他句子中的词语所对应的节点按照所述添加规则添加在所述初始词图中以构建所述每个子话题集合对应的词图;
其中,所述添加规则包括:
同一句子中的任意两个词不被映射到同一节点;
相应于待添加词语为非停用词,若所述词图中存在所述待添加词语对应的一个匹配节点,则将所述待添加词语映射至所述匹配节点;若所述词图中存在所述待添加词语对应的多个匹配节点,则将所述待添加词语映射至与所述待添加词语具有最大上下文重复次数的匹配节点,当所述词图中不存在任何存在上下文重复的匹配节点,则将所述待添加词语映射至被映射次数最多的匹配节点;若所述词图中不存在所述待添加词语的匹配节点,则在所述词图中新建所述待添加词语对应的节点;
相应于所述待添加词语为停用词,若所述待添加词语在所述词图中存在匹配节点且所述待添加词语的后续词与所述匹配节点的后续节点至少有一个以上的连续重叠,则将所述待添加词语映射到所述匹配节点;否则,在所述词图中新建所述待添加词语对应的节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045581.0/1.html,转载请声明来源钻瓜专利网。





