[发明专利]一种文本处理方法、装置、设备及计算机存储介质在审
申请号: | 201910777842.0 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110502752A | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 王妙心 | 申请(专利权)人: | 北京一链数云科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 44542 深圳市恒程创新知识产权代理有限公司 | 代理人: | 张小容<国际申请>=<国际公布>=<进入 |
地址: | 100000 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 问句文本 存储区域 分词结果 目标特征 特征词 预设 匹配 计算机存储介质 关联 获取目标 文本处理 用户提供 有效地 分词 提问 展示 | ||
1.一种文本处理方法,其特征在于,所述方法包括:
接收用户输入的第一待处理文本;
从所述第一待处理文本中获取目标特征词;
从预设存储区域获取与所述第一待处理文本相匹配的第一目标问句文本,并确定与所述第一目标问句文本关联的第一解答文本,对所述第一解答文本进行展示;
接收所述用户输入的第二待处理文本;
对所述第二待处理文本进行分词,从分词结果中确定所述第二待处理文本的特征词对应的句子成分;
若所述分词结果中的不包括目标特征词,且所述第二待处理文本的句子成分不包括目标句子成分,将所述目标特征词与所述第二待处理文本进行组合,生成新的第二待处理文本;
从预设存储区域获取与所述新的第二待处理文本相匹配的第二目标问句文本,并确定与所述第二目标问句文本关联的第二解答文本,对所述第二解答文本进行展示。
2.如权利要求1所述的方法,其特征在于,所述从所述第一待处理文本中获取目标特征词的步骤,包括:
基于动态规划算法对所述第一待处理文本进行分词,以使所述第一待处理文本具有多个特征词;
分别计算所述第一待处理文本中的各个特征词的在所述第一待处理文本中的权重值,将权重值大于预设权重阈值的特征词作为目标特征词;
相应地,所述对所述第二待处理文本进行分词,从分词结果中确定所述第二待处理文本的特征词对应的句子成分的步骤,包括:
基于动态规划算法对所述第二待处理文本进行分词,以使所述第二待处理文本具有多个特征词;
从分词结果中确定所述第二待处理文本的特征词对应的句子成分。
3.如权利要求2所述的方法,其特征在于,所述从预设存储区域获取与所述第一待处理文本相匹配的第一目标问句文本,并确定与所述第一目标问句文本关联的第一解答文本,对所述第一解答文本进行展示的步骤,具体包括:
通过欧式距离算法将所述第一待处理文本与预设存储区域中的待匹配问句文本进行相似度比较,从比较结果中选取与所述第一待处理文本近似度最大的第一目标问句文本;
从预设存储区域中查找与所述第一目标问句文本关联的第一解答文本;
对所述第一解答文本进行展示;
相应地,所述从预设存储区域获取与所述新的第二待处理文本相匹配的第二目标问句文本,并确定与所述第二目标问句文本关联的第二解答文本,对所述第二解答文本进行展示的步骤,具体包括:
通过欧式距离算法将所述新的第二待处理文本与预设存储区域中的待匹配问句文本进行相似度比较,从比较结果中选取与所述新的第二待处理文本近似度最大的第二目标问句文本;
从预设存储区域中查找与所述第二目标问句文本关联的第二解答文本;
对所述第二解答文本进行展示。
4.如权利要求2或3所述的方法,其特征在于,所述预设存储区域保存有多个预存特征词;
相应地,所述基于动态规划算法对所述第一待处理文本进行分词,以使所述第一待处理文本具有多个特征词的步骤,具体包括:
结合多个预存特征词并基于动态规划算法对所述第一待处理文本进行分词,并对分词结果进行停用词处理,以使所述第一待处理文本具有多个特征词;
相应地,所述基于动态规划算法对所述第二待处理文本进行分词,以使所述第二待处理文本具有多个特征词的步骤,具体包括:
结合多个预存特征词并基于动态规划算法对所述第二待处理文本进行分词,并对分词结果进行停用词处理,以使所述第二待处理文本具有多个特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京一链数云科技有限公司,未经北京一链数云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910777842.0/1.html,转载请声明来源钻瓜专利网。