[发明专利]一种中文词语图谱的构建方法和系统在审
申请号: | 202210181526.9 | 申请日: | 2022-02-25 |
公开(公告)号: | CN114547341A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 郭彦男;刘方然 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/284;G06F40/289 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 张解翠 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 词语 图谱 构建 方法 系统 | ||
本发明涉及图谱构建技术领域中的一种中文词语图谱的构建方法和系统,包括以下步骤:获取百万级的中文文本数据,并对中文文本数据进行预处理,得到若干组基础词语和每组基础词语对应的词性;将所有基础词语以及对应的词性输入词语表的基础属性字段,并拆分出每组基础词语的主词根;根据主词根构建词根关系组,并将主词根与词根关系组输入词语表的含义关系字段,其中词根关系组包括主词根含义关系、同位本体、修饰、限定对象和被动,具有应用领域宽泛的优点,突破了传统的中文词语图谱的构建精确度较低的瓶颈。
技术领域
本发明涉及图谱构建技术领域,具体涉及一种中文词语图谱的构建方法和系统。
背景技术
现有的中文词语图谱构建方法常见的有三种构建方式,一种是基于word2vec算法通过训练词向量,并根据词向量间的相似度进行构建;第二种一般是根据中文词语的拼音缩写,通过拼音的次序进行排序分类;第三种一般是根据词语的本身含义诸如近义词、反义词的关系进行分类。
然而基于word2vec算法通过训练词向量的方法忽略了词语本身最基础含义,构建关系往往受到语料的极大影响;第二种方法使用的是中文词典的常见分类方法,但因其缺少业务背景知识,因此只能作为工具书进行使用;第三种方法是根据词语的相关关系进行构建,这种通过近义词、相关词、反义词、基本词义归根到底都算是基于词典编纂方法构建图谱,某种程度来说,功能简单,应用领域较窄,无法应对需要情感分析、新词解析、领域词典等多种实际的业务场景。
发明内容
本发明针对现有技术中的缺点,提供了一种中文词语图谱的构建方法和系统,具有应用领域宽泛的优点,突破了传统的中文词语图谱的构建精确度较低的瓶颈。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种中文词语图谱的构建方法,包括以下步骤:
获取百万级的中文文本数据,并对所述中文文本数据进行预处理,得到若干组基础词语和每组所述基础词语对应的词性;
将所有所述基础词语以及对应的所述词性输入词语表的基础属性字段,并拆分出每组基础词语的主词根;
根据所述主词根构建词根关系组,并将所述主词根与词根关系组输入词语表的含义关系字段,其中所述词根关系组包括主词根含义关系、同位本体、修饰、限定对象和被动。
可选的,还包括以下步骤:
对所述中文文本数据进行词向量训练,获取每组基础词语的词向量,并根据所述词向量获取若干组关联词语;
根据所述关联词语获取每组所述关联词语的相关度,并提取相关度在前n位的关联词语,得到提取词语;
将所述提取词语输入词语表的含义关系字段,并将所述基础词语根据词频进行排序。
可选的,还包括以下步骤:
构建词根表,并根据所述主词根获取该主词根在词根表内的基础属性字段、含义关系字段和领域字段,并将获取到的该主词根在词根表内的基础属性字段、含义字段和领域字段输入词语表的含义关系字段。
可选的,构建词根表包括以下步骤:
获取百万级的中文文本数据,并对所述中文文本数据进行预处理,得到若干组基础词语和每组所述基础词语对应的词性;
对所有所述基础词语进行切词聚类提取以及词根切词提取,得到若干组基础词根,并将所有所述基础词根根据词频进行排序。
可选的,对所述中文文本数据进行预处理,包括以下步骤:
将所述中文文本数据依次通过切词处理、词性标注处理以及词性融合处理。
一种中文词语图谱的构建系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210181526.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种转子轴加工及电机转子压装一体机床
- 下一篇:一种高分散白炭黑的制备方法