[发明专利]一种增量式行业词典更新方法和系统有效
申请号: | 202011463306.2 | 申请日: | 2020-12-13 |
公开(公告)号: | CN112632969B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 周超逸;周雅倩;马琦珉;陈诚;刘丙哲 | 申请(专利权)人: | 复旦大学;中国大地财产保险股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F40/30;G06F40/216;G06F40/253;G06F40/268;G06F16/335;G06F16/35 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 增量 行业 词典 更新 方法 系统 | ||
本发明属于自然语言处理技术领域,具体为增量式行业词典更新方法和系统。本发明方法包括:基于浅层词汇统计分析的增量式选取候选词;基于深度语义计算的增量式选取行业词汇,包括:采用词语的深度语义计算的过滤和词语上下文分布的过滤从候选词中获取行业词汇;多策略人工验证,从候选行业词汇中,包括:使用不同的人工标注策略对得到的候选行业词汇进行排序,再选取部分词进行人工查看;人工查看进行三类标注:行业词汇、非行业词汇和边界错误字串,对基于浅层词汇统计分析和基于词语上下文分布过滤的参数进行微调,优化候选词选取的性能。本发明可以增量式地处理大规模语料,选择性使用人工标注信息,在低资源环境下更新构建行业词典。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种增量式行业词典更新方法和系统。
背景技术
随着互联网信息的快速增长和时代的高速发展,每经过一段时间,各个行业中都会涌现出大量新的词汇,其中包括大众传播媒体与互联网影响下产生的新词汇和缩略语,以及行业中新兴的概念词语。行业词典的更新有着广泛的应用价值,出于搜索引擎关键词搜索、网站词条设置、文案宣传、领域用词规范制定等的需要,各个行业都需要定期获取各自领域的新词以更新该领域的行业词典。
现有的行业词典构建技术主要有两种:一是基于大规模语料的行业词典自动构建,二是基于用户搜索行为日志的行业词典自动构建。基于大规模语料的行业词典自动构建方法,采用共现分析和关联关系挖掘从文档集合中获取候选词,并采用多分类分类器来获取多行业的行业词典(CN102169495A)。这种方法使用了种子词典用作分类器训练,但是只使用了浅层词汇信息,并将未经人工验证的候选词直接加入行业词典进行更新,随着行业词典的壮大,行业词典的准确性无法得到保证。基于用户搜索行为日志的行业词典自动构建方法,从用户搜索行为日志中提取各搜索词,根据被点击的搜索结果确定搜索词所属行业,将所述搜索词作为精确索引词,建立并保存所述精确索引词和对应的行业的词条对,形成精确词典。这种基于搜索词的行业词汇抽取方法准确率较高(CN105159884A)。但是用户搜索日志不是普通行业用户可以零成本获取到的,适用性较低,使用门槛较高。这两种自动行业词典构建方法虽然无需人力成本,并且可以随着数据的变化随时自动构建,但是若要提高构建的效率,以及保证词典的准确率,增量式计算和人工标注策略的设计是需要考虑的问题。传统词典构建的人工验证步骤一般采用词汇类别标注的方式(即:目标词汇类别和类别外词汇),然而在候选词汇选取的过程中,实际有两类错误,一是边界错误,二是类别错误。所以若采用多策略标注的方式(即:目标类别、类别错误和边界错误),人工标注结果可以针对特定的模块进行参数优化。
发明内容
鉴于上述情况,本发明的的目的在于提供一种可以克服上述问题或者部分解决上述问题的增量式行业词典更新方法和系统。
本发明提出的增量式行业词典更新方法,具体步骤如下:
(一)基于浅层词汇统计分析的增量式候选词选取,从语料中获得候选词;具体包括:
基于分词词典,将语料进行分词。针对分词后的语料,使用候选词模板来生成候选字串。
采用词频过滤、停用词过滤、垃圾串过滤、前后缀过滤、左右熵过滤、耦合度过滤和独立词概率过滤等多种过滤方法,从候选字串中选取候选词。其中,左右熵过滤、基于递推的耦合度过滤和独立词概率过滤的计算与语料的分布相关,语料规模越大,参数的计算越可靠,但是语料规模越大,计算量就越大。为了提高计算效率,对于这几个过滤步骤,我们采用增量式计算的方法。
(二)基于深度语义计算的增量式行业词汇选取,从步骤(一)的候选词中筛选出候选行业词汇;具体包括:
采用词语的深度语义计算的过滤和基于词语上下文分布的过滤,从步骤(1)的候选词中获取行业词汇。基于浅层词汇统计分析的增量式候选词选取,可以有效地处理词语选取的边界问题,但是无法区分行业词汇与非行业词汇,所以可以使用语义信息来进一步选取行业词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学;中国大地财产保险股份有限公司,未经复旦大学;中国大地财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011463306.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:PFG电子喷淋系统
- 下一篇:背面减薄晶圆的固定装置