[发明专利]一种汉语文本比对方法、存储介质及设备有效
| 申请号: | 202210416968.7 | 申请日: | 2022-04-20 |
| 公开(公告)号: | CN114742029B | 公开(公告)日: | 2022-12-16 |
| 发明(设计)人: | 程南昌 | 申请(专利权)人: | 中国传媒大学 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/289;G06F40/30 |
| 代理公司: | 北京智行阳光知识产权代理事务所(普通合伙) 11738 | 代理人: | 邓凤姿 |
| 地址: | 100000 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 汉语 文本 方法 存储 介质 设备 | ||
1.一种汉语文本比对方法,其特征在于,具体过程如下:
S1、将要进行比对的两个文本分别切分成语义完整且长度均匀的文本分片;
S2、根据步骤S1的两个文本的切分结果,将两个文本的分片进行两两组合得到多对文本分片对,并对每对文本分片对进行相似度计算:
S2.1、找出要对比的两个文本分片的所有共有词,并统计所有共有词的总字数;
S2.2、计算两个文本分片的长度,得到长度更长的文本分片的字数,然后计算两个文本分片的相似度=共有词的总字数/长度更长的文本分片的字数;
S3、按步骤S2的相似度计算结果,筛选出相似度超过阈值的文本分片对,并对筛选出的每个文本分片对分别进行步骤S4的处理;如果没有相似度超过阈值的文本分片对,则停止对比;
S4、将要比对的文本分片进行自动分词并对各个词编号后,筛选保留两个文本分片之间的相同词及其对应的序号,再将两个文本分片中序号相邻的词语拼接,此时两个文本分片均由若干个文本片段构成;最后以片段为单位,将两个文本分片利用最大匹配法进行比对找出差异部分并标识出来。
2.根据权利要求1所述的方法,其特征在于,步骤S1的具体过程为:将要进行对比的两个文本按句号、感叹号、问号、分号切分成句子级的均匀的文本分片。
3.根据权利要求2所述的方法,其特征在于,如果某个文本分片字符超过预设的长度阈值,则按逗号将该文本分片再次切分。
4.根据权利要求1所述的方法,其特征在于,步骤S4的具体过程为:
S4.1、对文本分片对的两个文本分片分词后,分别对两个文本分片的分词结果按顺序编号;
S4.2、筛选出两个文本分片之间的相同词,两个文本分片均仅保留筛选出的相同词及其序号;
S4.3、经过步骤S4.2的处理后,分别将两个文本分片中序号相邻的词进行拼接重组为一个片段,没有序号与之相邻的词则单独为一个片段,拼接重组后,两个文本分片均是由一个或多个片段组成的;
S4.4、将拼接重组后的两个文本分片以片段为单位使用最大匹配法进行遍历比对,并标识出差异部分。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法。
6.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现权利要求1-4任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210416968.7/1.html,转载请声明来源钻瓜专利网。





