[发明专利]一种基于中文的新型分词方法在审

申请号：	201810437731.0	申请日：	2018-05-09
公开（公告）号：	CN108647208A	公开（公告）日：	2018-10-12
发明（设计）人：	安静;魏从猛;梁鹏	申请（专利权）人：	上海应用技术大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	胡晶
地址：	200235 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词扫描器构建汉字文本隐马尔科夫模型马尔科夫模型单字扫描文本中文文本归一化起始字字序列中文词字一字句子录入登录概率
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于中文的新型分词方法，包括以下步骤：(1)以一字一方格形式录入文本，命名方块扫描器；(2)扫描文本，待将所有文本中的词按单字完全切分后，对于扫描器识别的未登录词，构建隐马尔科夫模型；(3)构建马尔科夫模型λ＝(A,B,π)；(4)将汉字的状态分为起始字B、中间字M、结束字E、单个成词字S四种状态；(5)计算概率并进行归一化；(6)对句子进行切分；本发明对中文文本进行准确而高效分词，将一个汉字序列切分成一个一个单独的词，将连续的字序列按照一定的规范重新组合成词序列。

技术领域

本发明涉及中文分词技术领域，尤其涉及一种基于中文的新型分词方法。

背景技术

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，在英文的行文中，单词之间是以空格作为自然分界符的，使得英文分词技术相对成熟，大大地推动了英文自然语言处理技术的发展。而有别于英文，中文没有天然的空格对词进行切分，中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多。与英文为代表的拉丁语系语言相比，英文以空格作为天然的分隔符，而中文由于继承自古代汉语的传统，词语之间没有分隔。古代汉语中除了连绵词和人名地名等，词通常就是单个汉字，所以当时没有分词书写的必要。而现代汉语中双字或多字词居多，一个字不再等同于一个词。在中文里，“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多，但由于人们认识水平的不同，对词和短语的边界很难去区分。

有鉴于此，特提出本发明。

发明内容内容

针对现有技术中存在的问题，本发明的目的是提供一种基于中文的新型分词方法，对中文文本进行准确而高效分词，将一个汉字序列切分成一个一个单独的词，将连续的字序列按照一定的规范重新组合成词序列。

为了实现上述目的，本发明提供的一种基于中文的新型分词方法，包括以下步骤：

(1)判断字体，将文本以一字一方格形式录入，并将其命名为方块字扫描器；

(2)当扫描器接触到文本起始字边缘时，其将按照单个汉字进行扫描，当扫描完一个字后将其加入空格后显示，当扫描器遇到换行符时继续切换到下一行继续以上操作，当扫描器扫描完文本结束字后自动结束扫描操作，并将扫描完文本输出，完成分词；待将所有文本中的词按单字完全切分后，对扫描器识别未登录词，构建隐马尔科夫模型；

(3)建设隐马尔科夫模型参数，λ＝(π，A，B)，其中，

A是状态转移概率矩阵A＝[a_ij]_N×M，a_ij＝P(i_t+1＝q_j|i_t＝q_i)，aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率；

B是观测概率矩阵B＝[b_ik]_N×M，b_ik＝P(o_t＝v_k|i_t＝q_i)，b_ik是在时刻t处于状态qi的条件下生产观测Vk的概率；

π是初始状态概率向量：π＝(πi),π_i＝P(i₁＝q_i)，πi是时刻t＝1处于状态qi的概率；

Q是所有可能的状态，记为Q＝{q₁,q₂,.....q_N}，N是可能的状态数目，记为：N＝{v₁,v₂,......v_M}；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海应用技术大学，未经上海应用技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810437731.0/2.html，转载请声明来源钻瓜专利网。