[发明专利]一种基于中文的新型分词方法在审

申请号：	201810437731.0	申请日：	2018-05-09
公开（公告）号：	CN108647208A	公开（公告）日：	2018-10-12
发明（设计）人：	安静;魏从猛;梁鹏	申请（专利权）人：	上海应用技术大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	胡晶
地址：	200235 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于中文的新型分词方法，包括以下步骤：(1)以一字一方格形式录入文本，命名方块扫描器；(2)扫描文本，待将所有文本中的词按单字完全切分后，对于扫描器识别的未登录词，构建隐马尔科夫模型；(3)构建马尔科夫模型λ＝(A,B,π)；(4)将汉字的状态分为起始字B、中间字M、结束字E、单个成词字S四种状态；(5)计算概率并进行归一化；(6)对句子进行切分；本发明对中文文本进行准确而高效分词，将一个汉字序列切分成一个一个单独的词，将连续的字序列按照一定的规范重新组合成词序列。
搜索关键词：	分词扫描器构建汉字文本隐马尔科夫模型马尔科夫模型单字扫描文本中文文本归一化起始字字序列中文词字一字句子录入登录概率
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于中文的新型分词方法，其特征在于，包括以下步骤：(1)判断字体，将文本以一字一方格形式录入，并将其命名为方块字扫描器；(2)当扫描器接触到文本起始字边缘时，其将按照单个汉字进行扫描，当扫描完一个字后将其加入空格后显示，当扫描器遇到换行符时继续切换到下一行继续以上操作，当扫描器扫描完文本结束字后自动结束扫描操作，并将扫描完文本输出，完成分词；待将所有文本中的词按单字完全切分后，对扫描器识别未登录词，构建隐马尔科夫模型；(3)建设隐马尔科夫模型参数，λ＝(π，A，B)，其中，A是状态转移概率矩阵A＝[aij]N×M，aij＝P(it+1＝qj|it＝qi)，aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率；B是观测概率矩阵B＝[bik]N×M，bik＝P(ot＝vk|it＝qi)，bik是在时刻t处于状态qi的条件下生产观测Vk的概率；π是初始状态概率向量：π＝(πi),πi＝P(i1＝qi)，πi是时刻t＝1处于状态qi的概率；Q是所有可能的状态，记为Q＝{q1,q2,.....qN}，N是可能的状态数目，记为：N＝{v1,v2,......vM}；I是长度为T的状态序列，O是对应的观测序列I＝{i1,i2...iT}O＝{O1,O2,...OT}；(4)将汉字的状态分为起始字begin(B)、中间字middle(M)、结束字end(E)、单个成词字single(S)四种状态；(5)读取词库统计B/M/S/E状态字的词频并计算概率(qi)并进行归一化操作即初始概率：统计词库中B/M/S/E状态字相互转移概率(qij)并进行归一化操作即转移概率：统计词库中汉字分别为B/M/S/E状态的概率(sik)并进行归一化操作即观测概率：得λ＝(πi，aij，bik)(6)利用Viterbi算法对所给句子进行概率计算并利用大数定理原理从而对句子进行切分。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海应用技术大学，未经上海应用技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810437731.0/，转载请声明来源钻瓜专利网。

上一篇：自然语言修正方法、系统、设备及存储介质
下一篇：一种基于思维导图的题目生成方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于中文的新型分词方法在审

专利文献下载