[发明专利]一种文本处理方法及系统有效
| 申请号: | 201310090249.1 | 申请日: | 2013-03-20 |
| 公开(公告)号: | CN103176953A | 公开(公告)日: | 2013-06-26 |
| 发明(设计)人: | 戴明洋 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
| 主分类号: | G06F17/21 | 分类号: | G06F17/21 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
| 地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 处理 方法 系统 | ||
1.一种文本处理方法,其特征在于,包括:
对文本进行分词处理,得到所述文本中的各单元词;
针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性;
根据该单元词的词性以及该单元词确定该单元词的实体词属性;
根据每个单元词的实体词属性识别所述文本中的实体词;
根据识别出的实体词对所述文本进行处理。
2.如权利要求1所述的方法,其特征在于,对文本进行分词处理,得到所述文本中的各单元词,具体包括:
以字为单位对所述文本进行拆分,得到所述文本中的每个字;
针对得到的每个字,通过预设的分词模型确定该字的字类别以及字位置属性;其中,所述分词模型是预先采用条件随机场CRF算法对标准语料进行学习得到的,所述字类别包括汉字、英文、数字、时间、符号、其他,所述字位置属性包括起始字、中间字、结束字;
针对字位置属性为起始字的每个字,按照所述文本中各个字的先后顺序,查找排在该字之后的第一个字位置属性为结束字的字,将所述文本中从该字位置属性为起始字的字开始,到查找到的该字位置属性为结束字的字为止所包含的所有字组合成一个单元词。
3.如权利要求2所述的方法,其特征在于,根据该单元词中的字以及该单元词确定该单元词的词性,具体包括:
以该单元词中的最后一个字的字类别作为该单元词的词类别;
根据该单元词的词类别以及该单元词,通过预设的词性标注模型确定该单元词的词性,其中,所述词性标注模型是预先采用CRF算法对标准语料进行学习得到的。
4.如权利要求3所述的方法,其特征在于,根据该单元词的词性以及该单元词确定该单元词的实体词属性,具体包括:
根据该单元词的词类别、词性以及该单元词,采用预设的实体识别模型确定该单元词的实体词属性;
其中,所述实体识别模型是预先采用CRF算法对标准语料进行学习得到的,所述实体词属性包括实体词词性和单元词位置属性,所述单元词位置属性包括起始词、中间词、结束词。
5.如权利要求4所述的方法,其特征在于,根据每个单元词的实体词属性识别所述文本中的实体词,具体包括:
针对单元词位置属性为起始词的每个单元词,按照所述文本中各单元词的先后顺序,查找排在该单元词之后的第一个单元词位置属性为结束词的单元词,将所述文本中从该单元词位置属性为起始词的单元词开始,到查找到的该单元词位置属性为结束词的单元词为止所包含的所有单元词组合成一个实体词;
针对组合成的实体词,将该实体词中满足指定条件的单元词的实体词词性,确定为该实体词的词性;其中,针对该实体词中的一个待定单元词,如果该实体词中与该待定单元词具有相同实体词词性的单元词的数量最多,则该待定单元词为满足所述指定条件的单元词。
6.一种文本处理系统,其特征在于,包括:
分词模块,用于对文本进行分词处理,得到所述文本中的各单元词;
词性标注模块,用于针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性;
实体词识别模块,用于针对每个单元词,根据该单元词的词性以及该单元词确定该单元词的实体词属性;根据每个单元词的实体词属性识别所述文本中的实体词;
文本处理模块,用于根据识别出的实体词对所述文本进行处理。
7.如权利要求6所述的系统,其特征在于,所述分词模块具体用于,以字为单位对所述文本进行拆分,得到所述文本中的每个字;针对得到的每个字,通过预设的分词模型确定该字的字类别以及字位置属性;其中,所述分词模型是预先采用条件随机场CRF算法对标准语料进行学习得到的,所述字类别包括汉字、英文、数字、时间、符号、其他,所述字位置属性包括起始字、中间字、结束字;针对字位置属性为起始字的每个字,按照所述文本中各个字的先后顺序,查找排在该字之后的第一个字位置属性为结束字的字,将所述文本中从该字位置属性为起始字的字开始,到查找到的该字位置属性为结束字的字为止所包含的所有字组合成一个单元词。
8.如权利要求7所述的系统,其特征在于,所述词性标注模块具体用于,以该单元词中的最后一个字的字类别作为该单元词的词类别;根据该单元词的词类别以及该单元词,通过预设的词性标注模型确定该单元词的词性,其中,所述词性标注模型是预先采用CRF算法对标准语料进行学习得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310090249.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气液旋流分离装置
- 下一篇:高性能计算服务平台中的资源管理系统和方法





