[发明专利]一种基于词向量表示学习的中文分词方法及系统在审

申请号：	202011007743.3	申请日：	2020-09-23
公开（公告）号：	CN112149418A	公开（公告）日：	2020-12-29
发明（设计）人：	赵尔平	申请（专利权）人：	西藏民族大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/242;G06K9/62
代理公司：	北京高沃律师事务所 11569	代理人：	崔玥
地址：	712082***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于向量表示学习中文分词方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于词向量表示学习的中文分词方法及系统。该方法包括：对待分词文本进行初步分词处理，得到初步分词文本；将初步分词文本输入BERT模型进行训练，得到语料词向量；将语料词向量输入Bi‑GRU模型进行训练，得到多个特征词向量；计算相邻两个特征词向量的余弦相似度，得到余弦相似度值；判断余弦相似度值是否大于或等于预设阈值；若大于或等于预设阈值，则将相邻两个特征词向量对应词的初步分词结果进行合并。采用本发明的方法及系统，解决了特定领域未登录词分词问题，提高分词性能，确保分词结果不破坏词的语义完整性，并且能够避免花费大量人力标注语料。

技术领域

本发明涉及分词技术领域，特别是涉及一种基于词向量表示学习的中文分词方法及系统。

背景技术

通用领域分词技术应用于预特定领域分词准确率就会明显下降，其主要原因是特定领域语料库中包含大量事物名、地名、企业名、缩写词、新增词等，这些新词通常没收录在通用领域词典中，即未登录词，特定领域语料带有大量未登录词。例如，西藏畜牧业领域语料库中存在大量“前缀+名词”、“地名+名词”和“人名+名词”等类型词组。其中，“前缀+名词”的实体名有藏绵羊、藏香猪、藏雪鸡、藏茵陈、藏茴香、藏红花等；“地名+名词”的实体名有仲巴草原、高原兔、三江流域、高山秃鹫、那曲虫草等，“人名+名词”的实体名有帕里草原、普氏原羚、邦达草原、美玉乡、尼玛乡等。这些词组没有被收录在通用分词系统的词典中，属于未登录词。

现有分词技术按字向量表示语料中的语句进行训练，在一定窗口范围内学习字在上下文中不同特征以及字之间的依赖关系，然后在依赖关系弱的位置进行切分，达到分词的目的。现有分词技术的缺点首先是容易造成未登录词被错误切开。例如“恙塘草原”由四个字组成的未登录词，很显然“恙”和“塘”，“草”和“原”的依赖关系相对较紧密，而“塘”和“草”的依赖关系相对较弱，所以“恙塘草原”被错误切分为“恙塘”和“草原”两个词。其次是字向量拆分词语本身语义，破坏了词本身语义的完整性。此外，字向量表示学习需要花费大量人力对语料进行序列标注，领域分词时需要构建领域词典，构建领域词典既困难又费时。

发明内容

本发明的目的是提供一种基于词向量表示学习的中文分词方法及系统，无需人工构建领域词典，能够提高特定领域的分词性能，确保分词结果不破坏词的语义完整性，并且能够避免花费大量人力标注语料。

为实现上述目的，本发明提供了如下方案：

一种中文分词方法，包括：

获取待分词文本；

对所述待分词文本进行初步分词处理，得到初步分词文本；

将所述初步分词文本输入BERT模型进行训练，得到语料词向量；

将所述语料词向量输入Bi-GRU模型进行训练，得到多个特征词向量；所述特征词向量能够反映词的位置信息和文本语义特征；

计算相邻两个特征词向量的余弦相似度，得到余弦相似度值；

判断所述余弦相似度值是否大于或等于预设阈值；若大于或等于所述预设阈值，则将所述相邻两个特征词向量对应词的初步分词结果进行合并；若小于所述预设阈值，则保留所述相邻两个特征词向量对应词的初步分词结果。

可选的，所述对所述待分词文本进行初步分词处理，得到初步分词文本，具体包括：

采用jieba分词工具对所述待分词文本进行初步分词处理，得到初步分词文本。