[发明专利]一种文本关键词处理方法、装置及设备在审
| 申请号: | 202010412802.9 | 申请日: | 2020-05-15 |
| 公开(公告)号: | CN111339751A | 公开(公告)日: | 2020-06-26 |
| 发明(设计)人: | 刘凡 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/253;G06F16/35 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 关键词 处理 方法 装置 设备 | ||
本说明书实施例提供一种文本关键词处理方法、装置及设备。所述方法包括:对待处理的语句文本进行分词处理,得到该语义文本中的分词并进行词性标注;然后依据分词的词性,分析出各分词之间的句法依存关系,从而得到各分词对应的分词样本;最后将分词样本作为预训练的关键词识别模型的输入,得到各分词对应的关键词标签,进而分析出该语句文本的关键词信息。
技术领域
本文件涉及计算机技术领域,尤其涉及一种文本关键词处理方法、装置及设备。
背景技术
关键词抽取是快速获取信息主题的重要手段,在信息检索和自然语言处理等领域均有重要应用。例如,在具体业务领域,业务方可能每天都会收到大量用户的反馈的问题信息,为了尽快锁定热点问题并给予解决方案,业务方需要花费大量时间才能从海量数据中挖掘出用户表述的问题。
因此,需要提供一种更可靠的方案。
发明内容
本说明书实施例提供一种文本关键词处理方法、装置及设备,以高效且准确地抽取文本中的关键词。
本说明书实施例还提供一种文本关键词处理方法,包括:
基于分词及词性标注后的语句文本进行依存句法分析,得到所述语句文本内各分词的句法依存关系;
基于所述语句文本中各分词的句法依存关系和词性,生成所述语句文本中各分词对应的分词样本;
分别将所述各分词对应的分词样本作为关键词识别模型的输入,以得到各分词对应的关键词标签,所述关键词识别模型基于批量的语句文本对应的训练分词样本及训练分词样本对应的关键词标签训练得到,所述训练分词样本具有与所述分词样本相同维度的特征;
基于各分词及对应的关键词标签,得到所述语句文本的关键词信息。
本说明书实施例还提供一种文本关键词处理方法,包括:
对批量的语句文本进行分词及词性标注处理;
基于分词及词性标注处理后的语句文本进行依存句法分析,得到每个语句文本内各分词的句法依存关系;
基于每个语句文本中各分词的句法依存关系和词性,生成每个语句文本中各分词对应的训练分词样本;
将每个语句文本中各分词对应的训练分词样本作为关键词识别模型的输入,将分词的关键词标签作为所述关键词识别模型的输出,对所述关键词识别模型进行训练。
本说明书实施例还提供一种文本关键词处理装置,包括:
第一处理模块,基于分词及词性标注后的语句文本进行依存句法分析,得到所述语句文本内各分词的句法依存关系;
第二处理模块,基于所述语句文本中各分词的句法依存关系和词性,生成所述语句文本中各分词对应的分词样本;
模型识别模块,分别将所述各分词对应的分词样本作为关键词识别模型的输入,以得到各分词对应的关键词标签,所述关键词识别模型基于批量的语句文本对应的训练分词样本及训练分词样本对应的关键词标签训练得到,所述训练分词样本具有与所述分词样本相同维度的特征;
第三处理模块,基于各分词及对应的关键词标签,得到所述语句文本的关键词信息。
本说明书实施例还提供一种文本关键词处理装置,包括:
第一处理模块,对批量的语句文本进行分词及词性标注处理;
第二处理模块,基于分词及词性标注处理后的语句文本进行依存句法分析,得到每个语句文本内各分词的句法依存关系;
第三处理模块,基于每个语句文本中各分词的句法依存关系和词性,生成每个语句文本中各分词对应的训练分词样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010412802.9/2.html,转载请声明来源钻瓜专利网。





