[发明专利]包含松散结构的汉语多词表达敏感特征的抽取方法有效
申请号: | 201310206429.1 | 申请日: | 2013-05-29 |
公开(公告)号: | CN103365835B | 公开(公告)日: | 2018-02-09 |
发明(设计)人: | 梁颖红 | 申请(专利权)人: | 苏州市职业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 苏州铭浩知识产权代理事务所(普通合伙)32246 | 代理人: | 张一鸣 |
地址: | 215104 江苏省苏州市吴中*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 包含 松散 结构 汉语 词表 敏感 特征 抽取 方法 | ||
技术领域
本发明涉及计算机领域,特别是涉及一种包含松散结构的汉语多词表达敏感特征的抽取方法。
背景技术
多词表达抽取过程中使用的特征对抽取结果有重大影响,汉语多词表达类型比较繁多,不同类型多词表达的敏感特征也不尽相同。
由于汉语语言现象比较复杂,汉语多词表达短语结构繁多(如表1所示),本项目研究最重要和典型的多词表达类型。
表1:本项目拟抽取的紧凑结构和松散结构多词表达类型
所谓“敏感特征”是指对语块识别起到决定性作用的特征。在大量的特征中,有可能只有几个特征对多词表达的抽取起到决定性的作用,而其它特征是多余的,这些多余的特征不仅占据内存空间,而且还影响查询的效率。所以特征数量多并不一定会取得好的效果,关键是该特征是否是敏感特征,因此,敏感特征的选择是影响高效多词表达抽取的关键问题。紧凑结构的多词抽取过程中,需要关联性、共现信息、可替代性、分布相似性等统计特征,在大量的特征中找出对抽取效果有重要影响的敏感特征需要设计适宜的算法并进行大量的计算。
紧凑结构和松散结构的多词表达在结构上和语义上都存在很大差别,它们的敏感特征也会存在差异。 松散结构的多词表达抽取比紧凑结构的要难,主要是因为松散结构中存在很多不确定和灵活的因素。
现有算法中,具有代表性的距离-权重最近邻算法(Sriram Venkatapathy等 2005)。[Sriram Venkatapathy等]指出:在使用的多种特征中,可能只有几种特征对识别某种类型的多词表达有效,而其他不相关特征不仅对抽取正确率的提升没有作用,还会增加计算的复杂度和降低效率,为了避免这种情况的发生,他采用了给每种特征加上权重信息的方法,当识别不同类型的多词表达时根据不同特征对要抽取的多词表达类型的作用灵活调整特征的权重信息。带有权重信息的距离函数如下:
其中d(xi,xj)是两个矢量xi 和 xj的距离,Zr是第r个特征的权重,ar(xi)是第r个特征的值。
以上算法存在一个问题,那就是即使某一个属性在抽取某一多词表达没有作用(权重为0),也要计算该特征的值,这样势必造成计算效率的下降和复杂性的增加。
发明内容
本发明主要解决的技术问题是提供一种包含松散结构的汉语多词表达敏感特征的抽取方法,能够采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征结合的策略,并将对紧凑结构和松散结构多词表达的敏感特征分别研究,进而得到适合不同结构的敏感特征集,提高计算效率和降低复杂性。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种包含松散结构的汉语多词表达敏感特征的抽取方法,其步骤如下:
1)、紧凑结构多词表达的敏感特征集,只要某个特征能提升该多词表达抽取的结果,就认为它是该多词表达的特征集,特征集用Φ(gi)表示;
2)、松散结构多词表达的敏感特征集,将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集,特征集用Φs(gi)表示;
3)、敏感特征选择算法,敏感特征选择是从所有特征中选择出一组最有效、对分类效果影响最大的特征子集。
优选的是,所述步骤1)中的紧凑结构的Φ(gi)共包含9种特征,分别是:共现频率(fi)、互信息(MIi)、最大似然值(LHi)、可替代性(Subi)、χ2函数(pxi)、分布相似性(dfi)、是否作为动词出现(asvi)、组成多词表达的词性串(ps)和多词表达的边界概率(pb)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州市职业大学,未经苏州市职业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310206429.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种四脚LED
- 下一篇:一种HIT太阳能电池结构