[发明专利]一种关键词自动抽取方法有效
申请号: | 201810611476.7 | 申请日: | 2018-06-13 |
公开(公告)号: | CN108920456B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 吕学强;董志安 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 自动 抽取 方法 | ||
1.一种关键词自动抽取方法,其特征在于,包括:抽取通用词,抽取候选关键词,针对候选关键词过滤通用词,综合位置特征、词共现特征以及上下文语义特征计算候选关键词权重得分,根据候选关键词权重得分范围计算动态阈值,利用动态阈值确定结果关键词;
位置特征权重的计算方法包括:针对3GPP技术标准不同层级标题对应的正文部分以标点为边界分别划分句子集,对句子集中的句子从1开始依次编号,记技术标准di中候选关键词集CK(di)={ck1,ck2...cki...ckn},其中,cki为集合中任意一个候选关键词,n为候选关键词个数,记特殊位置集合为
SP={Title,Scope,Reference,Definitions,Abbrevations,NOTE},
locate(cki)表示候选关键词cki出现的位置,定义特征函数Pos(cki)表示候选关键词cki在出现位置这一维度上的权重赋值,则
其中,Snocki表示候选关键词cki所在的句子编号,Snucki表示候选关键词cki所在正文段落中句子数量,len(cki)表示候选关键词cki包含的单词个数;将出现在不同位置的权重取平均值,记W(Pos(cki))表示位置权重的平均值,则
其中,fre(cki)表示候选关键词cki在同一篇技术标准中出现的频率;
词共现特征权重计算方法为:
记所有技术标准的候选关键词集为CK={CK(d1),CK(d2)...CK(di)...CK(dn)},对技术标准di中任意一个候选关键词cki,记组成cki的单词分别为cw1,cw2…cwi…cwm,m为cki包含的单词个数,记cwi的共现词集为cocuri={wco1,wco2…wcoi…wcop},p为共现词集的大小,其中wcoj表示单词cwi的其中一个共现词,wcoj∈CK(di)且满足wco1∩wco2∩…∩wcoj∩…∩wcop={cwi},其中1≤j≤p,则cwi对候选关键词cki的贡献表示为
其中,fre(wcoj)表示单词cwi的共现词wcoj出现的频率,len(wcoj)表示共现词wcoj包含的单词个数;当候选关键词cki包含多个单词时,计算候选关键词cki在词共现这一维度上的权重计算公式为
上下文语义特征权重计算方法为:
将计算任务分解为由当前词w分别独立预测每一个构成上下文Context(w)词的概率最大值,其目标函数为
其中ci∈Context(w),D为技术标准语料库,θ为模型参数,条件概率P(ci|w)表示为
其中,和vw分别为单词ci和w的向量表示,c′为语料库中所有不重复的单词,vc′为c′的向量表示;将技术标准集合D中的每一篇技术标准di看作是由一系列单词w1…wi…wn构成,假设单词之间相互独立,对技术标准di中每一个候选关键词cki,若为单词型,则计算预测概率的公式为
对技术标准di中任意一个候选关键词cki,综合考虑位置特征、词共现特征以及上下文语义特征,计算候选关键词cki在三个特征维度上的权重得分的公式为
W(cki)=W(Pos(cki))+W(Coo(cki))+W(Sem(cki));
记di中每一个候选关键词cki对应的得分
Score(di)={W(ck1)...W(cki)...W(ckn))},对Score(di)中的得分从高到低排序,设定动态阈值λ为所有得分的平均值,其计算公式为
若di中候选关键词满足W(cki)≥λ,则将cki加入到结果关键词集中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810611476.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汉语自动生成文本的自动评价方法
- 下一篇:地址识别方法和装置及存储介质