[发明专利]从文本中识别行业专有名词的方法和装置在审
申请号: | 202110274914.7 | 申请日: | 2021-03-15 |
公开(公告)号: | CN115081442A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 张家豪;吴亦振;许达果 | 申请(专利权)人: | 慧科讯业有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 北京市君合律师事务所 11517 | 代理人: | 王再芊;毕长生 |
地址: | 中国香港湾仔告士打道*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 行业 专有名词 方法 装置 | ||
1.一种从文本中识别行业专有名词的方法,包括:
对文本进行断词(11),获得经断词的文本;
从经断词的文本中抽取种子词前后相邻的词语作为词夹(12),所述种子词是已知的行业专有名词;
从文本中抽取词夹所夹的词语作为候选词(13);
根据候选词对应的词夹计算候选词分数(14);
根据候选词分数从候选词中选取行业专有名词(15)。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据标点符号将文本拆分成子句(101),所述对文本进行断词包括:对子句进行断词,获得经断词的子句。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
识别文本中的新词;
将识别出的新词加入断词词库(102),用于对文本进行断词。
4.根据权利要求1所述的方法,其特征在于,所述根据候选词对应的词夹计算候选词分数包括:
根据词夹所夹的候选词与种子词的相似程度以及词夹中的前词夹与后词夹在文本中的共现率计算词夹的词夹分数S(141);
根据词夹分数S计算候选词分数(142)。
5.根据权利要求4所述的方法,其特征在于,词夹所夹的候选词与种子词的相似程度由词夹组内分数S1表示:
其中,Ns表示在文本中种子词出现在词夹中的次数,Nt表示词夹在文本中出现的总次数,
词夹中的前词夹与后词夹在文本中的共现率由词夹组间分数S2表示:
其中,Fc表示词夹在文本中出现的次数,Ff和Fb分别表示词夹中的前词夹和后词夹在文本出现的次数。
6.根据权利要求5所述的方法,其特征在于,词夹分数S=S1+S2。
7.根据权利要求6所述的方法,其特征在于,候选词分数等于候选词所对应的每组词夹的词夹分数之和。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:将选取的行业专有名词作为种子词迭代执行所述方法。
9.一种从文本中识别行业专有名词的装置,包括:
断词单元(31),用于对文本进行断词,获得经断词的文本;
词夹抽取单元(32),用于从经断词的文本中抽取种子词前后相邻的词语作为词夹,所述种子词是已知的行业专有名词;
候选词抽取单元(33),用于从文本中抽取词夹所夹的词语作为候选词;
计算单元(34),用于根据候选词对应的词夹计算候选词分数;
选取单元(35),用于根据候选词分数从候选词中选取行业专有名词。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:文本拆分单元(301),用于根据标点符号将文本拆分成子句,所述断词单元(32)被配置为对子句进行断词,获得经断词的子句。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
新词识别单元(302),用于识别文本中的新词,并且将识别出的新词加入断词词库,用于对文本进行断词。
12.根据权利要求9所述的装置,其特征在于,所述计算单元(34)包括:
词夹分数计算单元(341),用于根据词夹所夹的候选词与种子词的相似程度以及词夹中的前词夹与后词夹在文本中的共现率计算词夹的词夹分数S;
候选词分数计算单元(342),用于根据词夹分数S计算候选词分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧科讯业有限公司,未经慧科讯业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110274914.7/1.html,转载请声明来源钻瓜专利网。