[发明专利]一种基于点击日志的query词性标注方法及得到的系统在审
申请号: | 201810133135.3 | 申请日: | 2018-02-09 |
公开(公告)号: | CN110134937A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 陈洪亮;吴雪军 | 申请(专利权)人: | 鼎复数据科技(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 范国锋;刘冬梅 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词性分析 日志 词性标注 搜索引擎用户 点击结果 句子结构 模型训练 用户需求 数据集 构建 应用 保证 | ||
1.一种基于点击日志的query词性标注方法,所述方法包括以下步骤:
步骤1、利用点击日志进行query词性标注模型的获得;
步骤2、利用步骤1获得的query词性标注模型直接对query进行词性标注。
其中,所述点击日志是指用户点击的搜索结果。
2.根据权利要求1所述的方法,其特征在于,步骤1包括以下子步骤:
步骤1-1、利用点击日志构建query词性标注数据集;
步骤1-2、query词性标注数据集进行query词性标注模型的训练,得到query词性标注模型。
3.根据权利要求1或2所述的方法,其特征在于,步骤1-1包括以下子步骤:
步骤1-1-1、输入query到搜索引擎;
步骤1-1-2、收集用户点击的搜索结果,即点击日志;
步骤1-1-3、用词性标注系统对点击日志进行词性标注,得到点击日志中query的词性,即为输入的query的词性;
步骤1-1-4、利用步骤1-1-3中得到的query以及对应的词性构建query词性标注数据集。
4.根据权利要求1至3之一所述的方法,其特征在于,在步骤1-1-3中,所述词性标注系统采用postag系统、stanford-postagger系统、或LTP平台等。
5.根据权利要求1至4之一所述的方法,其特征在于,在步骤1-1-3中,优选采用多个词性标注系统对点击日志进行词性标注,得到多组标注结果,例如采用三个词性标注系统。
6.根据权利要求5所述的方法,其特征在于,
当得到的多组标注结果一致时,可以直接采用其标注结果;
当得到的多组标注结果出现不一致时,会介入人工进行确认,以保证词性标注的准确性。
7.根据权利要求1至6之一所述的方法,其特征在于,在步骤2中,采用条件随机场(CRF)、Bi-RNN-CRF或隐马尔科夫(HMM)进行query词性标注模型的训练。
8.一种用于query词性标注的系统,所述系统采用权利要求1至7之一所述方法获得,即权利要求1至7之一所述query词性标注模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎复数据科技(北京)有限公司,未经鼎复数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810133135.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分词方法、装置及电子设备
- 下一篇:评论分析方法及装置