[发明专利]一种建立审计专业词库的方法及设备在审
申请号: | 202110797261.0 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113536787A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 王秋琳;郑略省;吕世雷;张萍;庄莉;梁懿 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/237 |
代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 李晓芬 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 建立 审计 专业 词库 方法 设备 | ||
本发明涉及一种建立审计专业词库的方法,包括如下步骤:获取审计相关文档;对所述审计相关文档进行预处理;根据非审计专业词库,对预处理后的审计相关文档进行分词并去除停用词,得到若干个独立词;通过2‑gram分词算法,对若干个独立词进行拼接,得到若干个拼接词;分别计算各所述拼接词的词频、自由度;预设第一阈值、第二阈值;将词频超过第一阈值且自由度超过第二阈值的拼接词作为新词存入审计专业词库。
技术领域
本发明涉及一种建立审计专业词库的方法,属于自然语言处理领域。
背景技术
领域词语的抽取算法大致分为以下三类:
(1)基于规则的抽取方法:根据词语的自身组成结构和词语外部上下文联系等建立相应的规则,并利用模式匹配来抽取领域词汇。
(2)基于统计学方法:赖于词频度、似然比、假设检验和互信息等,对单独的领域词汇和低频领域词汇的识别效果并不是很理想。
(3)基于统计和规则结合的方法:鉴于两种方法的不足,融合两种方法的优点进行抽取算法的。这种方法可以分为以下三类:规则作为统计方法中的一个过滤步骤;在统计方法中融入具体的规则;利用上下文的“规则”信息进行统计。许多统计算法都是使用组建一个过滤规则模板来过滤掉不合格的术语组合,而且实践证明这种方式是简单可行的。
目前,没有面向审计领域的较为通用且全面的审计专业词库。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种,本发明的技术方案如下:
技术方案一:
一种建立审计专业词库的方法,包括如下步骤:
S1、获取审计相关文档;
S2、对所述审计相关文档进行预处理;
S3、根据非审计专业词库,对预处理后的审计相关文档进行分词并去除停用词,得到若干个独立词;
S4、通过2-gram分词算法,对若干个独立词进行拼接,得到若干个拼接词;
S5、分别计算各所述拼接词的词频、自由度;
S6、预设第一阈值、第二阈值;将词频超过第一阈值且自由度超过第二阈值的拼接词作为新词存入审计专业词库。
进一步的,步骤S6还包括,通过人工进一步审核新词;将通过审核的新词存入审计专业词库。
进一步的,步骤S6还包括,将词频不超过第一阈值或自由度不超过第二阈值的拼接词作为停用词存入非审计专业词库。
进一步的,所述预处理具体为:使用POI工具或Tika工具,将非结构化文档转换为结构化文档。
进一步的,步骤S5中,计算拼接词的自由度的具体步骤为:
预设第三阈值;计算所述拼接词内部的互信息;
计算互信息大于第三阈值的拼接词的自由度:
预设第四阈值;
计算互信息大于第三阈值的拼接词的左邻居信息熵,若所述左邻居信息熵不超过第四阈值,则继续向左扩展计算下一左邻居信息熵,直至达到最左边界处或一左邻居信息熵超过第四阈值,记该超过第四阈值的左邻居信息熵为第一标度值;
计算所有含有第一标度值的拼接词的右邻居信息熵,若所述右邻居信息熵不超过第四阈值,则继续向右扩展计算下一右邻居信息熵;直至达到最右边界处或右邻居信息熵超过第四阈值,记该超过第四阈值的右邻居信息熵为第二标度值;
取第一标度值、第二标度值中的较小者为对应拼接词的自由度。
技术方案二:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110797261.0/2.html,转载请声明来源钻瓜专利网。