[发明专利]领域词典构建方法及装置在审
| 申请号: | 202010820291.4 | 申请日: | 2020-08-14 |
| 公开(公告)号: | CN111931491A | 公开(公告)日: | 2020-11-13 |
| 发明(设计)人: | 张文慧;范晓东;李羊;唐伟佳 | 申请(专利权)人: | 工银科技有限公司 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F40/216 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 单晓双;董骁毅 |
| 地址: | 100029 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 领域 词典 构建 方法 装置 | ||
本申请实施例提供了一种领域词典构建方法及装置,涉及人工智能技术领域。所述方法包括:获取原始事务语料;对所述原始事务语料进行字符处理,获得待分词事务语料;对所述待分词事务语料进行n‑gram分词处理,得到该待分词事务语料的多个词片段;获取各个所述词片段的统计指标值,将统计指标值大于组合阈值的词片段作为过滤后词片段;对所述过滤后词片段进行切分处理,判断切分处理后得到的各个第一切分词是否均为完整词汇,若否,则将所述过滤后词片段作为第一领域词,以构建目标事务领域词典。本申请可以基于篇幅短、结构化存储且无标注的语料得到领域词,过程高效且准确,进而能够保证事务领域词典的可靠性。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种领域词典构建方法及装置。
背景技术
领域词典是指特定领域特有的术语或表达方式的组合,传统领域词典构建方式基本上都是基于规则和统计来完成。一般方法为根据句型特点和词性特点结合语法规则,再配合TF-IDF(term frequency–inverse document frequency)统计值等进行筛选,然后在筛选词的基础上进行人工复检。这种方法的弊端是不同领域的句型特点和词性特点不一样,复用性不好,除此之外对语料篇幅也有一定的要求,一般来说更加适合篇幅较长的文档型语料。
引入词的向量表示之后,人们开始从有监督和无监督两个方面来探索构建领域词典的方法。有监督训练需要建立在大量标注好的领域词标签基础之上,和传统方式相比,其识别的准确率虽然提升了,但是需要付出大量的人力成本来做标签标注。
无监督方法是通过“种子词+词编码”,计算领域语料中的词和种子词之间的向量相似度,再加上词频排序等方式,从而可以挖掘出领域语料中的领域词。但是这种方式实现的前提是要先有一批该领域的领域种子词才行。对于以下几种情况,上述方法在实现上是有困难的,影响构建领域词典的准确性和效率:
(1)没有适合的文档型语料:在事务数据库中以结构化的方式存储的语料:缺乏文档型语料;(2)没有篇幅长的语料:在构成上以“办理事项”+“办理角度”作为主键来唯一确定一条语料,在有限的“办理角度”子集下,对应的答案内容表现出简短,不成句,且雷同的情况;(3)人工标注领域词困难:语料中内容涉及“办理事项”涵盖医疗、保险、金融和贸易等多个领域,人工进行领域词标注比较困难。
发明内容
针对现有技术中的问题,本申请提出了一种领域词典构建方法及装置,可以基于篇幅短、结构化存储且无标注的语料得到领域词,过程高效且准确,进而能够保证事务领域词典的可靠性。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种领域词典构建方法,包括:
获取原始事务语料;
对所述原始事务语料进行字符处理,获得待分词事务语料;
对所述待分词事务语料进行n-gram分词处理,得到该待分词事务语料的多个词片段;
获取各个所述词片段的统计指标值,将统计指标值大于组合阈值的词片段作为过滤后词片段;
对所述过滤后词片段进行切分处理,判断切分处理后得到的各个第一切分词是否均为完整词汇,若否,则将所述过滤后词片段作为第一领域词,以构建目标事务领域词典。
进一步地,所述对所述原始事务语料进行字符处理,获得待分词事务语料,包括:将所述原始事务语料中的符号作为分隔符,应用该分隔符切分所述原始事务语料,获得所述待分词事务语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工银科技有限公司,未经工银科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010820291.4/2.html,转载请声明来源钻瓜专利网。





