[发明专利]一种用于电力95598工单的领域术语识别系统及方法有效
申请号: | 201810132551.1 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108363691B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 嵇友浪;朱君;俞阳;赵洪莹;李辰刚 | 申请(专利权)人: | 国网江苏省电力有限公司电力科学研究院;国家电网公司;南京云问网络技术有限公司;江苏省电力试验研究院有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/216;G06Q50/06 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林;闫方圆 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 电力 95598 领域 术语 识别 系统 方法 | ||
1.一种用于电力95598工单的领域术语识别系统,其特征在于:包括
文本获取模块,用于从电力95598工单系统中获取电力95598工单文本;
文本预处理模块,对电力95598工单文本分句,并根据背景语料库包含的词语对电力95598工单文本分词;
候选串抽取模块,将分词后的分句文本根据术语钩词规则抽取候选串及候选串上、下文;
内部统计分析模块,生成各个候选串上、下文的特征向量;
领域特征分析模块,根据背景语料库,计算各个候选串中各个术语部件的领域相关度;
第一术语筛选模块,采用评分公式,计算候选串的成词评分,选取大于预设阈值T1的候选串作为候选术语;
人工审核模块,用户标注候选术语是否为正确术语;
术语特征样本库,用于保存候选术语和垃圾串的相关特征;
术语特征样本库识别模块,用于判断术语特征样本库是否为空;
第二术语筛选模块,采用有监督学习算法,根据候选串的特征选取候选术语;
启发式推荐模块,根据用户标注的正确术语,识别上、下文相关的术语,作为该正确术语的变体提供给用户确认;
所述文本获取模块通过文本预处理模块与候选串抽取模块相连接,所述候选串抽取模块分别通过内部统计分析模块、领域特征分析模块与术语特征样本库识别模块相连接,所述术语特征样本库识别模块分别通过第一术语筛选模块、第二术语筛选模块与人工审核模块相连接,所述人工审核模块通过术语特征样本库与第二术语筛选模块相连接,所述人工审核模块还与启发式推荐模块相连接;
若术语特征样本库为空,则使用第一术语筛选模块获取候选术语;若术语特征样本库不为空,则使用第二术语筛选模块获取候选术语。
2.根据权利要求1所述的用于电力95598工单的领域术语识别系统,其特征在于:所述候选串抽取模块,根据术语钩词规则抽取候选串及候选串上、下文,所述术语钩词规则,具体如下,
(1)候选串是经过文本预处理模块处理后的,以汉字为开始或结束的连续分词单位串;或者是经过文本预处理模块处理后的由英文字母、数字、连字符中任意两种或两种以上组成的连续分词单位串;
(2)若候选串含有单字分词碎片,则候选串长度为2-4个分词单位且含有至少一个长度为1的分词单位;否则,候选串长度为2-3个分词单位,且最后一个词为名词或动词;
(3)候选串不含有停用词和标点符号;
(4)候选串上、下文包含候选串在句子中的前后2个词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司电力科学研究院;国家电网公司;南京云问网络技术有限公司;江苏省电力试验研究院有限公司,未经国网江苏省电力有限公司电力科学研究院;国家电网公司;南京云问网络技术有限公司;江苏省电力试验研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810132551.1/1.html,转载请声明来源钻瓜专利网。