[发明专利]领域词典构建方法及装置在审

申请号：	202010820291.4	申请日：	2020-08-14
公开（公告）号：	CN111931491A	公开（公告）日：	2020-11-13
发明（设计）人：	张文慧;范晓东;李羊;唐伟佳	申请（专利权）人：	工银科技有限公司
主分类号：	G06F40/242	分类号：	G06F40/242;G06F40/289;G06F40/216
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	单晓双;董骁毅
地址：	100029 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	领域词典构建方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种领域词典构建方法及装置，涉及人工智能技术领域。所述方法包括：获取原始事务语料；对所述原始事务语料进行字符处理，获得待分词事务语料；对所述待分词事务语料进行n‑gram分词处理，得到该待分词事务语料的多个词片段；获取各个所述词片段的统计指标值，将统计指标值大于组合阈值的词片段作为过滤后词片段；对所述过滤后词片段进行切分处理，判断切分处理后得到的各个第一切分词是否均为完整词汇，若否，则将所述过滤后词片段作为第一领域词，以构建目标事务领域词典。本申请可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种领域词典构建方法及装置。

背景技术

领域词典是指特定领域特有的术语或表达方式的组合，传统领域词典构建方式基本上都是基于规则和统计来完成。一般方法为根据句型特点和词性特点结合语法规则，再配合TF-IDF(term frequency–inverse document frequency)统计值等进行筛选，然后在筛选词的基础上进行人工复检。这种方法的弊端是不同领域的句型特点和词性特点不一样，复用性不好，除此之外对语料篇幅也有一定的要求，一般来说更加适合篇幅较长的文档型语料。

引入词的向量表示之后，人们开始从有监督和无监督两个方面来探索构建领域词典的方法。有监督训练需要建立在大量标注好的领域词标签基础之上，和传统方式相比，其识别的准确率虽然提升了，但是需要付出大量的人力成本来做标签标注。

无监督方法是通过“种子词+词编码”，计算领域语料中的词和种子词之间的向量相似度，再加上词频排序等方式，从而可以挖掘出领域语料中的领域词。但是这种方式实现的前提是要先有一批该领域的领域种子词才行。对于以下几种情况，上述方法在实现上是有困难的，影响构建领域词典的准确性和效率：

(1)没有适合的文档型语料：在事务数据库中以结构化的方式存储的语料：缺乏文档型语料；(2)没有篇幅长的语料：在构成上以“办理事项”+“办理角度”作为主键来唯一确定一条语料，在有限的“办理角度”子集下，对应的答案内容表现出简短，不成句，且雷同的情况；(3)人工标注领域词困难：语料中内容涉及“办理事项”涵盖医疗、保险、金融和贸易等多个领域，人工进行领域词标注比较困难。

发明内容

针对现有技术中的问题，本申请提出了一种领域词典构建方法及装置，可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种领域词典构建方法，包括：

获取原始事务语料；

对所述原始事务语料进行字符处理，获得待分词事务语料；

对所述待分词事务语料进行n-gram分词处理，得到该待分词事务语料的多个词片段；

获取各个所述词片段的统计指标值，将统计指标值大于组合阈值的词片段作为过滤后词片段；

对所述过滤后词片段进行切分处理，判断切分处理后得到的各个第一切分词是否均为完整词汇，若否，则将所述过滤后词片段作为第一领域词，以构建目标事务领域词典。

进一步地，所述对所述原始事务语料进行字符处理，获得待分词事务语料，包括：将所述原始事务语料中的符号作为分隔符，应用该分隔符切分所述原始事务语料，获得所述待分词事务语料。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载