[发明专利]一种分词结果选择方法和装置有效
申请号: | 201611228812.7 | 申请日: | 2016-12-27 |
公开(公告)号: | CN106777250B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 陈亚堂;姬晨;张淑燕 | 申请(专利权)人: | 广州市交互式信息网络有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F40/284 |
代理公司: | 北京华识知识产权代理有限公司 11530 | 代理人: | 刘艳玲 |
地址: | 510300 广东省广州市天河*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 结果 选择 方法 装置 | ||
本发明实施例公开了一种分词结果选择方法和装置,该方法包括:获取测试数据,所述测试数据包括:至少一个分词序列;通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。本发明实施例通过选择分词结果中的最优分词序列建立搜索引擎的索引,提高了搜索结果的准确率。
技术领域
本发明涉及网络领域的分词技术,尤其涉及一种分词结果选择方法和装置。
背景技术
在搜索引擎中,需要使用分词器分词以便建立索引,使用传统的分词器会出现分词不准确的情况,尤其是对一些歧义语句分词,更难以准确分词;从而造成根据分词建立的索引不准确,在用户搜索时出现的搜索结果与用户相要的结果不相关,因此,搜索结果的准确率较低。
发明内容
为解决上述技术问题,本发明实施例提供一种分词结果选择方法和装置,通过选择分词结果中的最优分词序列建立搜索引擎的索引,提高了搜索结果的准确率。
本发明的技术方案是这样实现的:
本发明实施例提供一种分词结果选择装置,所述装置包括:获取单元、测试单元、确定单元、输出单元,其中,
所述获取单元,用于获取测试数据,所述测试数据包括:至少一个分词序列;
所述测试单元,用于通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;
所述确定单元,用于确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;
所述输出单元,用于将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
可选的,所述装置还包括:处理单元,
所述获取单元,用于获取训练数据集和验证数据集;
所述处理单元,用于通过预设方法、所述训练数据集和所述验证数据集,构建测试模型。
可选的,所述处理单元,用于通过循环神经网络测试工具对所述训练数据集进行训练,并通过所述验证数据集进行验证,构建测试模型。
可选的,所述获取单元,用于获取分词器对预设语句分词处理获得的至少一个分词序列。
可选的,所述处理单元,用于构建循环神经网络,建立循环神经网络测试工具。
本发明实施例还提供一种分词结果选择方法,所述方法包括:
获取测试数据,所述测试数据包括:至少一个分词序列;
通过测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;
确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;
将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
可选的,在所述获取测试数据之前,包括:
获取训练数据集和验证数据集;
通过预设方法、所述训练数据集和所述验证数据集,构建测试模型。
可选的,所述通过预设方法、所述训练数据集和所述验证数据集,构建测试模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市交互式信息网络有限公司,未经广州市交互式信息网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611228812.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息搜索方法和装置
- 下一篇:一种文件管理方法及装置