[发明专利]教学文本对比方法、装置、电子设备及介质在审
申请号: | 201910638584.8 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110489549A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 阚华;王鹏;刘侠 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F17/27 |
代理公司: | 11528 北京恒博知识产权代理有限公司 | 代理人: | 于利晓<国际申请>=<国际公布>=<进入 |
地址: | 100007 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 词语 教学 差异度 词向量 申请 比对结果 电子设备 对比结果 聚类结果 人工比对 文本对比 文本集合 分类 聚类 应用 成功 | ||
本申请公开了一种教学文本对比方法、装置、电子设备及介质。其中,本申请中,当获取教学文本集合之后,可以使用第一教学文本和第二教学文本中的词语所对应的词向量,进行聚类计算,再基于聚类结果,得到第一教学文本对应的至少一个第一词语簇和第二教学文本对应的至少一个第二词语簇,并根据第一词语簇与第二词语簇的第一差异度,确定第一教学文本与第二教学文本的对比结果。通过应用本申请的技术方案,可以根据各教学文本中词语对应的词向量,将各词语进行分类,并根据各分类后的词语簇之间的差异度,确定对应教学文本的比对结果。进而可以避免相关技术中需要人工比对多个教学文本才可以确定文本之间是否对标成功而出现的效率低下的问题。
技术领域
本申请中涉及数据处理技术,尤其是一种教学文本对比方法、装置、电子设备及介质。
背景技术
随着社会的发展,越来越多的人会选择学习各种各样的知识来不断扩充自己。目前,随着通信时代的发展,网络授课已被广大的用户所接受。
其中,为了更好的提升教学质量,在网络授课中也标配不同的教材体系。进一步的,相关技术中通常根据学生在线下学习时使用的现有教材,从数据库中选择与之对标的适用于网络授课的教材。并通过该教材为学生提供对应教学等级的授课。对标教材的准确完成将大大提升课程研发人员的效率,让课程研发过程有章可查。同时,可以帮助学生根据之前学习的教材准确的选择适合自己的课程,做到选课有据可依。
然而,相关技术中通常是根据人工手动完成教材之间的对标,导致效率不高。
发明内容
本发明的实施例提供一种教学文本对比方法、装置、电子设备及介质。
其中,根据本申请实施例的一个方面,提供的一种教学文本对比方法,其特征在于,包括:
获取教学文本集合,所述教学文本集合中至少包含第一教学文本和第二教学文本;
使用所述第一教学文本和所述第二教学文本中的词语所对应的词向量,进行聚类计算;
基于聚类结果,得到所述第一教学文本对应的至少一个第一词语簇和所述第二教学文本对应的至少一个第二词语簇;
计算所述第一词语簇与所述第二词语簇的第一差异度;
基于所述第一差异度,确定所述第一教学文本与所述第二教学文本的对比结果。
可选地,在基于本申请上述方法的另一个实施例中,所述第二词语簇中的词语与所述第一词语簇中的词语属于相同类别。
可选地,在基于本申请上述方法的另一个实施例中,所述计算所述第一词语组与所述第二词语组的第一差异度,包括:
基于词向量,计算所述第一词语簇中的至少一个词语与所述第二词语簇中的至少一个词语之间的欧式距离;
基于所述欧式距离,计算得到所述第一差异度。
可选地,在基于本申请上述方法的另一个实施例中,所述基于所述欧式距离值,计算得到所述第一差异度,包括:
计算所述欧式距离中大于第一预设阈值的比例,基于所述比例确定所述第一差异度。
可选地,在基于本申请上述方法的另一个实施例中,在进行所述聚类计算之前,还包括:对所述第一教学文本和/或第二教学文本中的至少一个词语进行词形标准化处理。
可选地,在基于本申请上述方法的另一个实施例中,所述方法还包括:
提取所述第一教学文本中的至少一个第一语句和所述第二教学文本中的至少一个第二语句;
对所述第一语句和第二语句进行解析,得到对应的第一句法树和第二句法树;
计算所述第一句法树和所述第二句法树之间的第二差异度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910638584.8/2.html,转载请声明来源钻瓜专利网。