[发明专利]从文本中识别行业专有名词的方法和装置在审
申请号: | 202110274914.7 | 申请日: | 2021-03-15 |
公开(公告)号: | CN115081442A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 张家豪;吴亦振;许达果 | 申请(专利权)人: | 慧科讯业有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 北京市君合律师事务所 11517 | 代理人: | 王再芊;毕长生 |
地址: | 中国香港湾仔告士打道*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 行业 专有名词 方法 装置 | ||
本公开涉及从文本中识别行业专有名词的方法和装置。该方法包括:对文本进行断词(11),获得经断词的文本;从经断词的文本中抽取种子词前后相邻的词语作为词夹(12),所述种子词是已知的行业专有名词;从文本中抽取词夹所夹的词语作为候选词(13);根据候选词对应的词夹计算候选词分数(14);根据候选词分数从候选词中选取行业专有名词(15)。本公开的技术方案利用已知的行业专有名词作为种子词从文本中抽取词夹,进而利用词夹从文本中抽取行业专有名词的候选词并且计算候选词分数,使得能够根据候选词分数高效且准确地从候选词中选取行业专有名词。
技术领域
本公开涉及自然语言处理领域,尤其涉及一种从文本中识别行业专有名词的方法和装 置。
背景技术
现代通信和传播技术的快速发展大大提高了信息传播的速度和广度。随着互联网技术 的发展,信息量呈爆炸式的增长。从浩如烟海的信息中获取需要的信息变得越来越困难。 为了方便信息检索,现有技术中通过识别信息中的关键词为信息建立主题标签,从而可以 判断信息所涉及的主题。例如,当一篇文章中出现“煤炭”、“石油”以及“液化石油” 等能源行业的专有名词时,可以将该文章与“能源”主题相关联。相关行业中使用的专有 名词可以从中国产业信息网上提供的行业字典中获得。另外,淘宝关键词词典也是行业专 有名词的一个重要来源。
然而,由于每天世界上都会产生大量新的信息,这些新的信息中可能包括各行业的新 的专有名词,因此需要随时补充完善现有的行业专有名词词库,以便有效地为各种信息建 立主题标签。
现有技术中使用新词凝固度算法识别文章中的行业专有名词。然而,凝固度算法对计 算资源的要求较高,对于海量信息的处理效率较低。另外,现有技术的技术方案对于行业 专有名词的识别的准确度较低,不能达到令人满意的识别效果。
因此,需要提供一种能够准确且高效地从文本信息中识别行业专有名词的方法。
发明内容
有鉴于此,本公开提出了一种从文本中识别行业专有名词的方法和装置,其能够解决 以上技术问题。
本公开的技术方案如下:
一种从文本中识别行业专有名词的方法,包括:
对文本进行断词,获得经断词的文本;
从经断词的文本中抽取种子词前后相邻的词语作为词夹,所述种子词是已知的行业专 有名词;
从文本中抽取词夹所夹的词语作为候选词;
根据候选词对应的词夹计算候选词分数;
根据候选词分数从候选词中选取行业专有名词。
根据优选的实施例,所述方法还包括:根据标点符号将文本拆分成子句,所述对文本 进行断词包括:对子句进行断词,获得经断词的子句。
根据优选的实施例,所述方法还包括:
识别文本中的新词;
将识别出的新词加入断词词库,用于对文本进行断词。
根据优选的实施例,所述根据候选词对应的词夹计算候选词分数包括:
根据词夹所夹的候选词与种子词的相似程度以及词夹中的前词夹与后词夹在文本中 的共现率计算词夹的词夹分数S;
根据词夹分数S计算候选词分数。
根据优选的实施例,词夹所夹的候选词与种子词的相似程度由词夹组内分数S1表示:
其中,Ns表示在文本中种子词出现在词夹中的次数,Nt表示词夹在文本中出现的总次 数,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧科讯业有限公司,未经慧科讯业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110274914.7/2.html,转载请声明来源钻瓜专利网。