[发明专利]一种建立审计专业词库的方法及设备在审
申请号: | 202110797261.0 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113536787A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 王秋琳;郑略省;吕世雷;张萍;庄莉;梁懿 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/237 |
代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 李晓芬 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 建立 审计 专业 词库 方法 设备 | ||
1.一种建立审计专业词库的方法,其特征在于,包括如下步骤:
S1、获取审计相关文档;
S2、对所述审计相关文档进行预处理;
S3、根据非审计专业词库,对预处理后的审计相关文档进行分词并去除停用词,得到若干个独立词;
S4、通过2-gram分词算法,对若干个独立词进行拼接,得到若干个拼接词;
S5、分别计算各所述拼接词的词频、自由度;
S6、预设第一阈值、第二阈值;将词频超过第一阈值且自由度超过第二阈值的拼接词作为新词存入审计专业词库。
2.根据权利要求1所述的一种建立审计专业词库的方法,其特征在于,步骤S6还包括,通过人工进一步审核新词;将通过审核的新词存入审计专业词库。
3.根据权利要求1所述的一种建立审计专业词库的方法,其特征在于,步骤S6还包括,将词频不超过第一阈值或自由度不超过第二阈值的拼接词作为停用词存入非审计专业词库。
4.根据权利要求3所述的一种建立审计专业词库的方法,其特征在于,所述预处理具体为:使用POI工具或Tika工具,将非结构化文档转换为结构化文档。
5.根据权利要求4所述的一种建立审计专业词库的方法,其特征在于,步骤S5中,计算拼接词的自由度的具体步骤为:
预设第三阈值;计算所述拼接词内部的互信息;
计算互信息大于第三阈值的拼接词的自由度:
预设第四阈值;
计算互信息大于第三阈值的拼接词的左邻居信息熵,若所述左邻居信息熵不超过第四阈值,则继续向左扩展计算下一左邻居信息熵,直至达到最左边界处或一左邻居信息熵超过第四阈值,记该超过第四阈值的左邻居信息熵为第一标度值;
计算所有含有第一标度值的拼接词的右邻居信息熵,若所述右邻居信息熵不超过第四阈值,则继续向右扩展计算下一右邻居信息熵;直至达到最右边界处或右邻居信息熵超过第四阈值,记该超过第四阈值的右邻居信息熵为第二标度值;
取第一标度值、第二标度值中的较小者为对应拼接词的自由度。
6.一种审计专业词库建立设备,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如权利要求1-5任一权利要求所述的一种建立审计专业词库的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110797261.0/1.html,转载请声明来源钻瓜专利网。