[发明专利]基于搜索日志的中文人名自扩展识别方法有效
申请号: | 201210539985.6 | 申请日: | 2012-12-13 |
公开(公告)号: | CN103870489A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 吕学强;文彬 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 搜索 日志 中文 人名 扩展 识别 方法 | ||
技术领域
本发明属于计算语言学中的自然语言处理领域,具体地,涉及一种基于搜索日志的中文人名自扩展识别方法。
背景技术
随着网络信息的急剧增长,搜索引擎越来越彰显了其划时代的意义。中文搜索引擎发展至今,已经拥有庞大的用户量,每天处理数亿条请求,积累了大规模的查询日志。命名实体在搜索日志中占很大比例。根据相关学者研究统计:在每天更新的网页搜索查询里面,有2~4%的查询由单独的人名组成;大约30%的查询里面包含人名;研究人员对76717条查询串进行标注,发现人名出现了961个,频次为6245,占总查询数的8.14%。面对急剧增长的数据和信息,企业界和学术界纷纷在积极寻找改善、提升搜索质量的有效途径。有效识别查询日志中的人名,一方面能准确定位用户的检索需求,提升搜索质量;另一方面能获得更新、更全面的人名信息,扩充相关资源库。
传统的人名识别多数是在普通文本上进行,识别算法大致可以分为基于规则和基于统计的方法,普通文本具有丰富的上下文信息,而搜索日志中的查询串信息量少、内容不遵循严格句法语法规则、随意性大,因此查询日志中的人名识别不能直接利用文本领域的方法实现。基于搜索日志的人名识别目前主要从以下几方面展开:(1)基于大量人工标注语料的有监督识别方法;(2)基于模板迭代范式的弱监督识别方法。前一方法耗费人力、物力,同时识别效率还受标注语料的影响,具有较大主观性,第二种方法借助模板迭代产生新的候选人名,选取的模板限定了潜在人名范畴,导致识别结果不够准确。因此,本发明提供了一种改进的自扩展人名识别方法,根据模板在查询串的变化趋势扩展人名上下文信息,抽取新的候选人名,该方法使自扩展的查询串上下文尽可能只涵盖目标实体类别,解决了当前搜索日志中人名识别效率低下的问题,同时为短文本实体识别提供了技术参考和实际依据。
发明内容
本发明要解决的技术问题是提供一种搜索日志中自扩展人名识别方法。
为解决当前搜索日志中人名识别效率低下等问题,本发明提供了一种基于搜索日志的中文人名自扩展识别方法,该方法包括如下步骤:
S11确定目标语料集,也即将用于挖掘人名实体的所有查询日志中查询串集合Q;
S12构建种子人名集合C,;
S13根据种子人名集合C及其所在查询串集合Qc,生成候选人名模板集Mc;
S14利用人名模板在Qc和Q中匹配的查询串条数变化趋势,对人名模板进行筛选,选取适合人名识别的上下文信息,获得人名模板集Mc’;
S15在查询串集合Q中匹配人名模板集Mc’中的模板,生成候选人名集CN;
S16对候选人名进行筛选,去除一些干扰的噪音信息,得到可信度较高的人名集合N;
S17利用人名集合N更新种子人名集合C,迭代上述S12至S16这5个步骤,直到获取的人名的可信度达到一定阈值。
其中,S12中种子人名的构建借助了文本领域“姓氏驱动”的人名识别思想,结合查询日志中有相当一部分人名位于查询串开头部分的特点,根据首字姓氏进行驱动,自动发现候选种子人名,同时通过统计候选种子人名所在模板匹配的其他候选种子人名个数对候选种子人名进行可信度度量,筛选出种子人名集合C。
S13中候选人名模板集Mc中每一个元素以<候选模板M,候选模板M在当前查询串集合Qc内匹配的查询串条数>的形式存在。
在人名识别的一次迭代过程中,对候选模板集合Mc内的模板按照其在Qc中匹配的查询串条数以递减顺序生成排序集合last,同时也按其在Q中匹配的查询串条数按递减顺序生成排序集合now,对任一模板M,定义一个五元组IM,IM=(M, Rank_now, Rank_now_sum, Rank_last, Rank_last_sum),其中Rank_now表示模板M在排序集合now中的排名,Rank_now_sum表示排序集合now中排名的最大序号,Rank_last表示模板M在排序集合last中的排名,Rank_last_sum表示模板在排序集合last中排名的最大序号。
定义区分度用以描述模板对人名区分能力的高低,对于模板M,根据其在排序集合last和now中相对排序的变化趋势判断其可信度,因此,区分度计算方式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210539985.6/2.html,转载请声明来源钻瓜专利网。