[发明专利]一种中文词语图谱的构建方法和系统在审
申请号: | 202210181526.9 | 申请日: | 2022-02-25 |
公开(公告)号: | CN114547341A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 郭彦男;刘方然 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/284;G06F40/289 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 张解翠 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 词语 图谱 构建 方法 系统 | ||
1.一种中文词语图谱的构建方法,其特征在于,包括以下步骤:
获取百万级的中文文本数据,并对所述中文文本数据进行预处理,得到若干组基础词语和每组所述基础词语对应的词性;
将所有所述基础词语以及对应的所述词性输入词语表的基础属性字段,并拆分出每组基础词语的主词根;
根据所述主词根构建词根关系组,并将所述主词根与词根关系组输入词语表的含义关系字段,其中所述词根关系组包括主词根含义关系、同位本体、修饰、限定对象和被动。
2.根据权利要求1所述的一种中文词语图谱的构建方法,其特征在于,还包括以下步骤:
对所述中文文本数据进行词向量训练,获取每组基础词语的词向量,并根据所述词向量获取若干组关联词语;
根据所述关联词语获取每组所述关联词语的相关度,并提取相关度在前n位的关联词语,得到提取词语;
将所述提取词语输入词语表的含义关系字段,并将所述基础词语根据词频进行排序。
3.根据权利要求1所述的一种中文词语图谱的构建方法,其特征在于,还包括以下步骤:
构建词根表,并根据所述主词根获取该主词根在词根表内的基础属性字段、含义关系字段和领域字段,并将获取到的该主词根在词根表内的基础属性字段、含义字段和领域字段输入词语表的含义关系字段。
4.根据权利要求3所述的一种中文词语图谱的构建方法,其特征在于,构建词根表包括以下步骤:
获取百万级的中文文本数据,并对所述中文文本数据进行预处理,得到若干组基础词语和每组所述基础词语对应的词性;
对所有所述基础词语进行切词聚类提取以及词根切词提取,得到若干组基础词根,并将所有所述基础词根根据词频进行排序。
5.根据权利要求4所述的一种中文词语图谱的构建方法,其特征在于,对所述中文文本数据进行预处理,包括以下步骤:
将所述中文文本数据依次通过切词处理、词性标注处理以及词性融合处理。
6.一种中文词语图谱的构建系统,其特征在于,包括:
第一预处理模组,用于获取百万级的中文文本数据,并对所述中文文本数据进行预处理,得到若干组基础词语和每组所述基础词语对应的词性;
拆分模组,用于将所有所述基础词语以及对应的所述词性输入词语表的基础属性字段,并拆分出每组基础词语的主词根;
第一构建模组,用于根据所述主词根构建词根关系组并输入词语表的含义关系字段,其中所述词根关系组包括主词根含义关系、同位本体、修饰、限定对象和被动。
7.根据权利要求6所述的一种中文词语图谱的构建系统,其特征在于,还包括:
训练模组,用于对所述中文文本数据进行词向量训练,获取每组基础词语的词向量,并根据所述词向量获取若干组关联词语;
提取模组,用于根据所述关联词语获取每组所述关联词语的相关度,并提取相关度在前n位的关联词语,得到提取词语;
排序模组,用于在所述提取词语输入词语表的含义关系字段后,将所述基础词语根据词频进行排序。
8.根据权利要求6所述的一种中文词语图谱的构建系统,其特征在于,包括第二构建模组,所述第二构建模组用于构建词根表,并根据所述主词根获取该主词根在词根表内的基础属性字段、含义关系字段和领域字段,输入词语表的含义关系字段。
9.根据权利要求8所述的一种中文词语图谱的构建系统,其特征在于,包括:
第二预处理模组,用于获取百万级的中文文本数据,并对所述中文文本数据进行预处理,得到若干组基础词语和每组所述基础词语对应的词性;
切词聚类模组,用于对所有所述基础词语进行切词聚类提取以及词根切词提取,得到若干组基础词根,并将所有所述基础词根根据词频进行排序。
10.一种领域词典的构建方法,其特征在于,包括以下步骤:
对业务领域进行定义并划定领域范畴;
根据领域范畴获取词语表中在该领域层级的基础词语以及该基础词语在词语表中的含义关系字段,得到词根汇集集合;
根据获取的基础词语以及词根汇集集合进行人工层级划分,得到领域词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210181526.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种转子轴加工及电机转子压装一体机床
- 下一篇:一种高分散白炭黑的制备方法