[发明专利]变形词识别方法和装置在审
申请号: | 201911040805.8 | 申请日: | 2019-10-30 |
公开(公告)号: | CN112749555A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 郑佳欢;付华峥;陈康;向勇;陈翀;刘春;关迎辉;郑永坤;张海平;蔡凤恩 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 许蓓 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 变形 识别 方法 装置 | ||
本公开提出一种变形词识别方法和装置,涉及自然语言处理领域。本公开利用变形词所属的词图关系网络的子群中的变形词的邻居词语节点,构建变形词的词图向量,根据变形词的词向量和词图向量,构建变形词的综合描述向量,从语义表示和词图关系上全面描述该变形词,并通过匹配变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别变形词。
技术领域
本公开涉及自然语言处理领域,特别涉及一种变形词识别方法和装置。
背景技术
当前互联网业务数据暴涨,各种变形词不断出现,严重影响关键词的匹配和获取。这些变形词,对于人脑来说比较容易理解,然而对于机器识别来说,会产生负面影响,造成词语识别不准确。目前的机器识别技术难以将这些变形词识别为其实际语义。
发明内容
本公开利用变形词所属的词图关系网络的子群中的变形词的邻居词语节点,构建变形词的词图向量,根据变形词的词向量和词图向量,计算变形词的综合描述向量,从语义表示和词图关系上全面描述该变形词,并通过匹配变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别变形词。
本公开的一些实施例提出一种变形词识别方法,包括:
根据待识别的变形词所在的语料,计算所述变形词的词向量;
根据所述变形词所属的词图关系网络的子群中的所述变形词的邻居词语节点,构建所述变形词的词图向量;
根据所述变形词的词向量和词图向量,构建所述变形词的综合描述向量;
匹配所述变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别所述变形词。
在一些实施例中,计算所述变形词的词图向量包括:根据所述变形词的各个邻居词语节点的重要性度量值,对所述变形词的相应邻居词语节点的词向量进行加权求和,得到所述变形词的词图向量。
在一些实施例中,所述词图关系网络包括多个节点和连接不同节点的边,其中,多个节点包括语料中的词,连接不同节点的边在所述不同节点在语料中同时出现的频次达到预设值时存在,边的权值由语料中同时出现所述不同节点的频次大小决定。
在一些实施例中,所述词图关系网络的子群是利用随机游走算法对所述词图关系网络进行分割得到的。
在一些实施例中,所述多个节点还包括变形词和关键词经过预设转换后得到的转换词,所述预设转换包括:将中文字转换为其拼音或拼音首字母、拆分中文字的偏旁和部首。
在一些实施例中,所述变形词所在的语料包括:直接包括所述变形词的语料和间接包括所述变形词的语料中的一个或全部,其中,如果原始词经过预设转换得到所述变形词,则间接包括所述变形词的语料是指:所述原始词所在的语料并将其中的原始词替换为所述变形词后得到的语料;其中,所述预设转换包括:将中文字转换为其拼音或拼音首字母、拆分中文字的偏旁和部首。
在一些实施例中,当转换之前的一个词包括多个字时,所述多个字经过一种或多种预设变换得到转换词。
在一些实施例中,所述拼音或拼音首字母带音调。
在一些实施例中,所述变形词被识别为与其匹配的关键词,所述方法还包括:将所述变形词所在语料中的所述变形词替换为与其匹配的关键词;对替换后的所述变形词所在语料执行预设任务。
本公开的一些实施例提出一种变形词识别装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任意一个实施例的变形词识别方法。
本公开的一些实施例提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任意一个实施例的变形词识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911040805.8/2.html,转载请声明来源钻瓜专利网。