[发明专利]基于相关搜索的同义挖掘方法和装置在审
申请号: | 201710573907.0 | 申请日: | 2017-07-14 |
公开(公告)号: | CN107451212A | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 张俊浩;江雪;徐夙龙 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 张一军,姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相关 搜索 同义 挖掘 方法 装置 | ||
1.一种基于相关搜索的同义挖掘方法,其特征在于,包括:
基于相关搜索获取相似的查询query对(qa,qb);
对所述query对(qa,qb)进行正反双方向的统计对齐处理,基于所述统计对齐处理的结果确定同义词语候选对;
对所述同义词语候选对进行过滤,得到同义词语对;
其中,所述正反双方向是指:从qa至qb的正向方向,以及从qb至qa的反向方向;所述词语包括:词,和/或短语。
2.如权利要求1所述的同义挖掘方法,其特征在于,分别对qa和qb进行切词,对切词后的所述query对进行正反双方向的词级别的统计对齐处理。
3.如权利要求2所述的同义挖掘方法,其特征在于,所述同义词语候选对包括:词与词的同义候选对;
所述基于所述统计对齐处理的结果确定同义词语候选对,包括:
对于qa中的每个词Wa1和qb中的每个词Wb1:
若经正向方向的词级别的统计对齐处理之后,词Wa1与词Wb1正向对齐;并且,经反向方向的词级别的统计对齐处理之后,词Wa1与词Wb1反向对齐;
则将词Wa1与词Wb1作为词与词的同义候选对。
4.如权利要求3所述的同义挖掘方法,其特征在于,所述基于所述统计对齐处理的结果确定同义词语候选对,包括:
对于qa中的每个词Wa1和qb中的每个词Wb1:
若经正向方向的词级别的统计对齐处理之后词Wa1与词Wb1正向对齐,或者经反向方向的词级别的统计对齐处理之后,词Wa1与词Wb1反向对齐;并且,词Wa1与词Wb1有字面交叠;
则将词Wa1与词Wb1作为词与词的同义候选对。
5.如权利要求4所述的同义挖掘方法,其特征在于,所述词与词对中的两个词有字面交叠包括:
所述词与词对中的两个词含有相同的字符。
6.如权利要求4所述的同义挖掘方法,其特征在于,所述同义词语候选对包括:词与短语的同义候选对;所述短语包含两个词;
所述基于所述统计对齐处理的结果确定同义词语候选对,包括:
对于qa中的每个词Wa1和qb中的每个短语Pb1:
若词Wa1和短语Pb1中的两个词分别为词与词的同义候选对、且词Wa1不与qb中除短语Pb1之外的词为词与词的同义候选对;
则将词Wa1与短语Pb1作为词与短语的同义候选对。
7.如权利要求3或4所述的同义挖掘方法,其特征在于,所述同义词语候选对包括:短语与短语的同义候选对;所述短语包含两个词;
所述基于所述统计对齐处理的结果确定同义词语候选对,包括:
对于qa中的每个短语Pa2和qb中的每个短语Pb2:
对于短语Pa2中的每个词Wa2,若词Wa2与短语Pb2中的至少一个词为词与词的同义候选对、且词Wa2不与qb中除短语Pb2之外的词为词与词的同义候选对;并且,
对于短语Pb2中的每个词Wb2,若词Wb2与短语Pa2中的至少一个词为词与词的同义候选对、且不与qa中除短语Pa2之外的词为词与词的同义候选对;
则将短语Pa2与短语Pb2作为短语与短语的同义候选对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710573907.0/1.html,转载请声明来源钻瓜专利网。