[发明专利]教学文本对比方法、装置、电子设备及介质在审
申请号: | 201910638584.8 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110489549A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 阚华;王鹏;刘侠 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F17/27 |
代理公司: | 11528 北京恒博知识产权代理有限公司 | 代理人: | 于利晓<国际申请>=<国际公布>=<进入 |
地址: | 100007 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 词语 教学 差异度 词向量 申请 比对结果 电子设备 对比结果 聚类结果 人工比对 文本对比 文本集合 分类 聚类 应用 成功 | ||
1.一种教学文本对比方法,其特征在于,包括:
获取教学文本集合,所述教学文本集合中至少包含第一教学文本和第二教学文本;
使用所述第一教学文本和所述第二教学文本中的词语所对应的词向量,进行聚类计算;
基于聚类结果,得到所述第一教学文本对应的至少一个第一词语簇和所述第二教学文本对应的至少一个第二词语簇;
计算所述第一词语簇与所述第二词语簇的第一差异度;
基于所述第一差异度,确定所述第一教学文本与所述第二教学文本的对比结果。
2.如权利要求1所述的方法,其特征在于,所述第二词语簇中的词语与所述第一词语簇中的词语属于相同类别。
3.如权利要求1所述的方法,其特征在于,所述计算所述第一词语组与所述第二词语组的第一差异度,包括:
基于词向量,计算所述第一词语簇中的至少一个词语与所述第二词语簇中的至少一个词语之间的欧式距离;
基于所述欧式距离,计算得到所述第一差异度。
4.如权利要求3所述的方法,其特征在于,所述基于所述欧式距离值,计算得到所述第一差异度,包括:
计算所述欧式距离中大于第一预设阈值的比例,基于所述比例确定所述第一差异度。
5.如权利要求1所述的方法,其特征在于,在进行所述聚类计算之前,还包括:对所述第一教学文本和/或第二教学文本中的至少一个词语进行词形标准化处理。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
提取所述第一教学文本中的至少一个第一语句和所述第二教学文本中的至少一个第二语句;
对所述第一语句和第二语句进行解析,得到对应的第一句法树和第二句法树;
计算所述第一句法树和所述第二句法树之间的第二差异度;
以及
所述基于所述第一差异度,确定所述第一教学文本与所述第二教学文本的对比结果,还包括:基于所述第一差异度和第二差异度,确定所述对比结果。
7.如权利要求6所述的方法,其特征在于,所述计算所述第一句法树和所述第二句法树之间的第二差异度,包括:基于最大子图匹配算法,计算所述第二差异度。
8.一种教学文本对比装置,其特征在于,包括:
获取模块,被配置为获取教学文本集合,所述教学文本集合中至少包含第一教学文本和第二教学文本;
使用模块,被配置为使用所述第一教学文本和所述第二教学文本中的词语所对应的词向量,进行聚类计算;
生成模块,被配置为基于聚类结果,得到所述第一教学文本对应的至少一个第一词语簇和所述第二教学文本对应的至少一个第二词语簇;
计算模块,被配置为计算所述第一词语簇与所述第二词语簇的第一差异度;
确定模块,被配置为基于所述第一差异度,确定所述第一教学文本与所述第二教学文本的对比结果。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-7中任一所述教学文本对比方法的操作。
10.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-7中任一所述教学文本对比方法的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910638584.8/1.html,转载请声明来源钻瓜专利网。