[发明专利]一种自适应的分词方法在审
| 申请号: | 201510838594.8 | 申请日: | 2015-11-27 |
| 公开(公告)号: | CN105446955A | 公开(公告)日: | 2016-03-30 |
| 发明(设计)人: | 贺惠新 | 申请(专利权)人: | 贺惠新 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 362100 福建*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自适应 分词 方法 | ||
技术领域
本发明涉及一种自适应的分词系统的构建和应用的方法,属于自然语言处理的计算机技术应用领域。
背景技术
目前信息的记录和传输的方法主要是通过人类自然语言。人类的语言与人群活动的环境密切相关,是相互协商,共同完成同一认知范畴中的任务的基础条件。这种自然语言是人参与社会活动,为更高效的信息交流和留存所产生的工具。人类的语言是以独立的词为认知结构,字是词的组成元素。语言用来交流时,采用序列的形式,将各能表示独立意义的词进行衔接,并以带有序关系的连续字串的方式记录下来,形成表达完整意义的句子和文章。
提取出各句子中词这种语义单元是理解信息的基本条件。但在对文本形式记录的句子进行理解时,由于各独立词之间没有明确的隔断信息,不同的字串结合在一起可以形成不同的信息表达,不正确的字串的切分成词的方式(即分词)会带来信息的错误认知。人脑有很强的纠错功能,完全由相关生活环境下的人来阅读理解句子时,这种错误相对可控。
在网络和信息时代,由人参与的活动/行为就在网络上形成了不同的记录信息,而这些信息又绝大多数是以自然语言的句子这种文本形式表达的,形成了文本信息的爆炸。对这种海量文本的分析已无法完全由人工来处理,这就要求计算机能有效对文本进行切分。
对文本进行正确分词的技术,当前主要有两种处理思路,即基于词典的模式匹配和基于统计的分类方法。基于词典的模型依赖于分词所采用的词典,当待切分的句子的正确词语在词典中都有记录时,分词能达到一定效果,但准确率仍相对有限;同时此方法本质上无法解决词语的歧义及新词没在词典中记录的问题。而基于统计的分词方法是以已分好词的语料为基础资源,训练分类器生成判别模型,从而对新的语料进行分词判断。在和训练语料相关的领域,这种方法的分词性能较好。但是此方法对训练语料依赖性强,应用时需要针对不同领域训练不同的模型,而标注语料的成本太高,以至于此方法不便于在不同领域进行扩充。也有技术将基于词典和统计的方法进行结合,但实际上把词典、训练语料当成了内部资源或者独立资源加入模型,应用时推广的效果有限。
本发明将基于词典和基于统计的方法进行结合,把词典信息作为一个可由外部适配调整、可在统计模型模型内部产生影响及生成特征的资源,并全面考虑模型学习时原始训练语料对词典的影响,而算法设置了高效的特征的生成和组合方式,可充分降低计算的复杂度,并最终有效生成高准确率的分词模型;而应用时可方便的在词典中有针对的加入相关的词,有效提高算法的在不同场景下的适用性。
发明内容
本发明的目的是为了解决计算机在自然语言处理中难以对句子做准确分词、并在新领域进行有效推广应用的难题,提供了一种结合词典匹配和统计模型的自动分词方法。
本发明设计的方法由训练模型和应用模型两个阶段组成,它包括以下步骤:
训练阶段
训练步骤一:获取模型训练阶段的依赖资源:获取已分好词(各句子中的字符有确定的切分成独立词的标准答案)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥50000;人工给定一个包含50个词以上的词典D,并人为指定词典扩充系数ε1,ε2;
训练步骤二:从训练语料中提取语料高相关的词语,对词典进行扩充,提取的步骤细节为:
训练步骤二一:统计S中所有词的总数目,记为NW;进一步统计S中所含有的不同词的总数目,记为NWU;
训练步骤二二:统计S中所有不同的词各自出现的频次,并将词按对应词频由大到小的顺序进行排列,记排序后结果为WD={wd(1),wd(2),…,wd(NWU)},对应的频次记为NWD={nwd(1),nwd(2),…,nwd(NWU)};
训练步骤二三:在WD中找出依序排列的第st个序位(1<st<NWU),使得NWD中前st个序位对应的频次满足:
训练步骤二四:在WD中找出依序排列的第ed个序位(1<ed<NWU),使得NWD中前ed个序位对应的频次满足:
训练步骤二五:在WD中找出从第st个序位开始,到第ed个序位的为止的依序排列的所有的词的集合,记为WDA,即WDA={wd(st),wd(st+1),…,wd(ed)},1<st<ed<NWU
训练步骤二六:将WDA中所有词加入原来的词典中D,构成新的词典Dt,此字典中长度最长的词的长度记为NLDt;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贺惠新,未经贺惠新许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510838594.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及电子设备
- 下一篇:版面生成方法及装置





