[发明专利]一种用于电力95598工单的领域术语识别系统及方法有效
申请号: | 201810132551.1 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108363691B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 嵇友浪;朱君;俞阳;赵洪莹;李辰刚 | 申请(专利权)人: | 国网江苏省电力有限公司电力科学研究院;国家电网公司;南京云问网络技术有限公司;江苏省电力试验研究院有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/216;G06Q50/06 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林;闫方圆 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 电力 95598 领域 术语 识别 系统 方法 | ||
本发明公开了一种用于电力95598工单的领域术语识别系统及方法,文本获取模块通过文本预处理模块与候选串抽取模块相连接,候选串抽取模块分别通过内部统计分析模块、领域特征分析模块与术语特征样本库识别模块相连接,术语特征样本库识别模块分别通过第一术语筛选模块、第二术语筛选模块与人工审核模块相连接,人工审核模块通过术语特征样本库与第二术语筛选模块相连接,人工审核模块还与启发式推荐模块相连接。本发明能有效提高后续使用中领域术语识别的精确程度,同时,系引入的启发式模块可以减少人工审核术语的工作量并发现术语的变体,保证于电力95598工单的领域术语识别效率和准确性,具有良好的应用前景。
技术领域
本发明涉及一种用于电力95598工单的领域术语识别系统及方法,属于术语识别技术领域。
背景技术
术语是指在特定专业领域中一般概念的词语指称(参见GB/T15237.1-2000《中华人民共和国国家标准术语工作-词汇》)。术语在文献中作为一个完整的语言单位出现,必须结合稳定,出现频繁并且使用自由。其次,术语作为专业领域中的一般概念,本身还应该有很强的领域性。
与英语等西方语言不同,汉语书面语书写时词语之间没有的明显的边界符号。而在对文本语义的理解中,汉语的语义又是以词为单位的。因此,准确识别出汉语词语是汉语的自然语言处理中重要的一步。专业领域文献、文本中包含有大量的领域术语。将自然语言处理技术运用于专业领域时,需要补充大量专业领域术语的知识。整理术语时通常会采用人工录入整理或者匹配现有领域词典的方法,然而人工整理术语费时费力,采用词典匹配时,大量的术语的变体很难识别,这两种方法都很难得到很高的覆盖率。因此,需要引入领域术语识别技术。
领域术语识别技术在自然语言处理中有着广泛的应用。对于提高领域文本在信息检索、信息抽取、本体构建、文本分类聚类等应用中的精度都有着重要的作用。目前、从批量文本中识别领域术语的系统主要有以下两类,均存在不同的缺点,具体如下:
(1)基于统计信息的领域术语识别系统,这类系统主要根据领域术语本身的特征识别领域术语,一般采用统计学以及信息论中的相关方法。通常的流程是:用统计学中的方法建立起文本的统计信息,根据统计结果对候选的文本串进行筛选,得到一批候选短语并进行人工检验。常用的统计方法有假设检验中的卡方检验、T检验、对数似然比以及信息论中的点互信息方法等等,该基于统计的方法不依赖外部资源,不局限于某一领域,通用性较强。但是,基于统计的方法通常将领域术语出现的频率作为评判的显式或者隐式条件,因此这类算法识别的效果依赖于语料的规模和候选领域术语的频繁出现。因此低频率的领域术语识别效果不理想。也造成领域术语识别精确率和召回率很难取得满意的平衡。
(2)基于有监督机器学习的领域术语识别系统,这类系统采用人工或半自动标注小批量的训练语料,将领域术语的特征表示为字词分布的特征,用某种机器学习模型学习这些特征,再利用该模型预测领域文本中未发现的术语,目前用于领域术语识别的机器学习模型主要包括最大熵模型、支持向量机、隐马尔科夫模型、最大熵马尔科夫模型和条件随机场模型(CRF)等,这种基于有监督机器学习的领域术语识别系统的识别准确率较高,且不受到词语出现频率的限制。然而,该系统需要用户参与标注训练预料,人工工作量大,导致最终标注语料和实验量不够大,制约了其的实用性。
95598电力工单是电力行业的领域术语,是用电客户通过电力客服热线95598反映的业务咨询、用电诉求等所形成的文本,由客服代表根据用电客户描述的问题现象,以及该问题给用电客户带来的影响程度选择对应的业务类型。如何克服现有技术的识别问题,针对电力95598工单完成更好的领域术语识别,是当前需要解决的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司电力科学研究院;国家电网公司;南京云问网络技术有限公司;江苏省电力试验研究院有限公司,未经国网江苏省电力有限公司电力科学研究院;国家电网公司;南京云问网络技术有限公司;江苏省电力试验研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810132551.1/2.html,转载请声明来源钻瓜专利网。