[发明专利]用于文本相似度计算的分词方法、装置、设备和介质在审
申请号: | 202110202080.9 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112784570A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 李柯;徐立坤;王振乾 | 申请(专利权)人: | 南方电网调峰调频发电有限公司信息通信分公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284;G06F40/30 |
代理公司: | 佛山市神机营专利代理事务所(普通合伙) 44765 | 代理人: | 许尤庆 |
地址: | 510000 广东省广州市番禺区东环街番禺大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 相似 计算 分词 方法 装置 设备 介质 | ||
1.一种用于文本相似度计算的分词方法,其特征在于,包括:
获取用于计算文本相似度的至少两个文本对应的文本领域信息;
确定与所述文本领域信息对应的语义树状层次结构,所述语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构;
根据所述语义树状层次结构,在所述至少两个文本中确定分词关键信息;
基于分词关键信息对所述至少两个文本进行分词操作,得到分词结果。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述文本领域信息对应的语义树状层次结构,包括:
确定与所述文本领域信息对应的词语树状层次结构和义原树状层次结构,所述语义树状层次结构至少包括所述词语树状层次结构和所述义原树状层次结构。
3.根据权利要求2所述的方法,其特征在于,所述按照所述语义树状层次结构,在所述至少两个文本中确定分词关键信息,包括:
确定与所述词语树状层次结构对应的词语关键信息,以及确定与所述义原树状层次结构对应的义原关键信息;
基于所述词语关键信息和所述义原关键信息,在所述至少两个文本中确定分词关键信息。
4.根据权利要求1所述的方法,其特征在于,所述基于分词关键信息对所述至少两个文本进行分词操作,得到分词结果,包括:
在所述至少两个文本中确定所述分词关键信息所处的第一文本位置,以及在所述至少两个文本中确定分隔符信息所处的第二文本位置;
根据所述第一文本位置和所述第二文本位置对所述至少两个文本进行分词操作,得到分词结果。
5.根据权利要求1至4任一项所述的方法,其特征在于,在所述基于分词关键信息对所述至少两个文本进行分词操作,得到分词结果之后,所述方法还包括:
将所述分词结果中的各组待对比信息进行文本相似度计算,得到各组对应的文本相似度;
对所述各组对应的文本相似度进行整合处理,得到目标文本相似度。
6.一种用于文本相似度计算的分词装置,其特征在于,包括:
领域获取单元,用于获取用于计算文本相似度的至少两个文本对应的文本领域信息;
结构确定单元,用于确定与所述文本领域信息对应的语义树状层次结构,所述语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构;
信息确定单元,用于根据所述语义树状层次结构,在所述至少两个文本中确定分词关键信息;
分词操作单元,用于基于分词关键信息对所述至少两个文本进行分词操作,得到分词结果。
7.根据权利要求6所述的装置,其特征在于,所述结构确定单元用于确定与所述文本领域信息对应的语义树状层次结构的方式具体为:
确定与所述文本领域信息对应的词语树状层次结构和义原树状层次结构,所述语义树状层次结构至少包括所述词语树状层次结构和所述义原树状层次结构。
8.根据权利要求7所述的装置,其特征在于,所述信息确定单元用于按照所述语义树状层次结构,在所述至少两个文本中确定分词关键信息的方式具体为:
确定与所述词语树状层次结构对应的词语关键信息,以及确定与所述义原树状层次结构对应的义原关键信息;
基于所述词语关键信息和所述义原关键信息,在所述至少两个文本中确定分词关键信息。
9.一种用于文本相似度计算的分词设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至5任一项中所述的方法。
10.一种计算机可读的存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至5任一项中所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网调峰调频发电有限公司信息通信分公司,未经南方电网调峰调频发电有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110202080.9/1.html,转载请声明来源钻瓜专利网。