[发明专利]变形词识别方法和装置在审
| 申请号: | 201911040805.8 | 申请日: | 2019-10-30 |
| 公开(公告)号: | CN112749555A | 公开(公告)日: | 2021-05-04 |
| 发明(设计)人: | 郑佳欢;付华峥;陈康;向勇;陈翀;刘春;关迎辉;郑永坤;张海平;蔡凤恩 | 申请(专利权)人: | 中国电信股份有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 许蓓 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 变形 识别 方法 装置 | ||
1.一种变形词识别方法,其特征在于,包括:
根据待识别的变形词所在的语料,计算所述变形词的词向量;
根据所述变形词所属的词图关系网络的子群中的所述变形词的邻居词语节点,构建所述变形词的词图向量;
根据所述变形词的词向量和词图向量,构建所述变形词的综合描述向量;
匹配所述变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别所述变形词。
2.根据权利要求1所述的方法,其特征在于,计算所述变形词的词图向量包括:
根据所述变形词的各个邻居词语节点的重要性度量值,对所述变形词的相应邻居词语节点的词向量进行加权求和,得到所述变形词的词图向量。
3.根据权利要求1所述的方法,其特征在于,所述词图关系网络包括多个节点和连接不同节点的边,
其中,多个节点包括语料中的词,连接不同节点的边在所述不同节点在语料中同时出现的频次达到预设值时存在,边的权值由语料中同时出现所述不同节点的频次大小决定。
4.根据权利要求1所述的方法,其特征在于,所述词图关系网络的子群是利用随机游走算法对所述词图关系网络进行分割得到的。
5.根据权利要求3所述的方法,其特征在于,所述多个节点还包括变形词和关键词经过预设转换后得到的转换词,
所述预设转换包括:将中文字转换为其拼音或拼音首字母、拆分中文字的偏旁和部首。
6.根据权利要求1所述的方法,其特征在于,所述变形词所在的语料包括:
直接包括所述变形词的语料和间接包括所述变形词的语料中的一个或全部,
其中,如果原始词经过预设转换得到所述变形词,则间接包括所述变形词的语料是指:所述原始词所在的语料并将其中的原始词替换为所述变形词后得到的语料;
其中,所述预设转换包括:将中文字转换为其拼音或拼音首字母、拆分中文字的偏旁和部首。
7.根据权利要求5或6所述的方法,其特征在于,
当转换之前的一个词包括多个字时,所述多个字经过一种或多种预设变换得到转换词。
8.根据权利要求5或6所述的方法,其特征在于,
所述拼音或拼音首字母带音调。
9.根据权利要求1所述的方法,其特征在于,所述变形词被识别为与其匹配的关键词,所述方法还包括:
将所述变形词所在语料中的所述变形词替换为与其匹配的关键词;
对替换后的所述变形词所在语料执行预设任务。
10.一种变形词识别装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-9任一项所述的变形词识别方法。
11.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-9任一项所述的变形词识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911040805.8/1.html,转载请声明来源钻瓜专利网。





