[发明专利]一种会议记录抽取与PPT插入方法与系统在审
申请号: | 202010616804.X | 申请日: | 2020-06-30 |
公开(公告)号: | CN111797599A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 沈之锐 | 申请(专利权)人: | 韶关市启之信息技术有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/194;G06F40/211;G06F40/289;G06F16/583;G10L15/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 512026 广东省韶关市武江区百旺大道42号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 会议记录 抽取 ppt 插入 方法 系统 | ||
1.一种会议记录抽取与PPT插入方法,其特征在于,所述方法包括:
在会议中获取演讲者的语音数据,通过语音识别技术,自动转换为文本数据,做分句、分词,并基于scikit-learn工具做非负矩阵分解,获得会议话题列表,判断出前后无法连接形成话题的孤立句子,所述孤立句子是指所述句子即不跟上文有关联又不跟下文有关联;判断所述孤立句子是否在topK个话题中,若否,删除所述孤立句子;删除所有的所述孤立句子后,获得去噪后会议内容文本;获取PPT内容;通过ImageCaption技术,将PPT中的图像转化为图像文本描述,并将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配;如果相似度大于预设的阈值,则将所述PPT插入到会议记录之中,如果相似度小于预设的阈值,则所述PPT不插入会议记录;最终获得去除了会议噪音并包含有PPT的会议记录内容。
2.根据权利要求1所述的方法,其中,所述在会议中获取演讲者的语音数据,通过语音识别技术,自动转换为文本数据 ,主要包括:
获取参与会议发言的所有人员的语音内容,将语音数据通过语音识别接口转换为文本内容,所述语音识别接口采用百度或者科大讯飞的语音识别API接口。
3.根据权利要求1所述的方法,其中,所述做分句、分词,并基于scikit-learn工具做非负矩阵分解,获得会议话题列表 ,主要包括:
采用哈工大LTP自然语言处理工具对所述文本数据做分句、分词处理,获取分词后的词语,经过L1正则化处理,调用sklearn.decomposition.NMF包,进行非负矩阵分解,获得描述全部会议内容的话题列表。
4.根据权利要求1所述的方法,其中,所述 判断出前后无法连接形成话题的孤立句子,主要包括:
获取文本中所有具有前后顺序关系的第一句子,第二句子,第三句子;将所述第一句子中的所有词语,与所述第二句子中的所有词语,通过程序做并集处理,所述并集大于等于两个词,判断所述并集中的词语是否与所述会议话题列表存在交集,并且交集的词语同时存在于第一句子与第二句子;若否,则通过相同的处理方法,继续判断所述第二句子与所述第三句子的词语的并集是否存在于所述会议话题列表中,若两次判断的结果都为否。则说明,所述第二句子即不跟上文关联又不跟下文关联,因此确定第二句子,为孤立句子;判断第三句子是否为孤立句子的方法,与判断第二句子类似,只需再判断它与第四句子的词语并集,是否与所述会议话题列表存在交集,并且交集的词语同时存在于第三句子与第四句子;后续判断第N个句子是否为孤立句子的方法,以此类推。
5.根据权利要求1所述的方法,其中,所述判断所述孤立句子是否在topK个话题中,若否,删除所述孤立句子,主要包括:
获得孤立句子后,对句子进行分词,并与所述话题列表中最重要的topk个话题匹配,看看是否相似度大于阈值,若是,保留所述孤立句子,若否,移除所述孤立句子。
6.根据权利要求1所述的方法,其中,所述删除所有的所述孤立句子后,获得去噪后会议内容文本;获取PPT内容 ,通过ImageCaption技术,将PPT中的图像转化为图像文本描述,将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配,主要包括:
删除所有孤立句子,获得去除了噪音的会议内容文本,将所述会议内容文本与PPT的图像文本描述进行相似度匹配;所述获取PPT内容,通过PPT文本抽取工具将PPT内的文字转化为文本内容,获得PPT内文本;通过训练好的ImageCaption模型,对PPT内的图片进行处理,生成PPT图片文本描述;合并所述PPT内文本与PPT图片文本描述,合并后称为PPT文本描述,针对每一张PPT的文本描述,都与所述去除了噪音的会议内容文本进行相似度匹配。
7.根据权利要求6所述的方法,其中,所述针对每一张PPT的文本描述,都与所述去除了噪音的会议内容文本进行相似度匹配,主要包括:
获取会议中每一张PPT从开始播放到被切换的时间间隔区间,将所述时间间隔区间作为获取会议内容文本的内容区间,所述会议内容文本只取所述内容区间与所述PPT文本描述进行相似度匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于韶关市启之信息技术有限公司,未经韶关市启之信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010616804.X/1.html,转载请声明来源钻瓜专利网。