[发明专利]基于人工智能的切分语句的方法和装置有效
申请号: | 201710464446.3 | 申请日: | 2017-06-19 |
公开(公告)号: | CN107301170B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 王一鸣 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/953 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 切分 语句 方法 装置 | ||
本申请公开了基于人工智能的切分语句的方法和装置。该方法的一具体实施方式包括:对待切分的原始语句进行切词,以得到原始语句中的词语集合;对初始值为原始语句的待切分语句执行语句切分步骤;若存在不属于词语集合中的子语句片段,则将不属于词语集合中的子语句片段作为待切分语句继续执行语句切分步骤;关联存储原始语句以及每次执行语句切分步骤所得到的多个子语句片段。该实施方式生成了对原始语句进行多层次切分的切分结果。
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及基于人工智能的切分语句的方法和装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
在中文语言处理的过程中,通过语句切分技术对文本进行边界是一项重要的技术。传统的分界方案主要包括基础切词和短语切词,在进行分类时,常用的方案为命名实体识别(NER,Named Entity Recognition),可用于识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
然而,这些现有的切词方案只能提供单一的切词结果,无法满足不同应用对片段边界的不同需求。NER等传统的分类信息方案只能识别专名片段,对于描述性片段无法提供分类信息,只能通过词表和其他人工挖掘信息。因此,存在提高对现有的语句分割方案进行改进的需要。
发明内容
本申请的目的在于提出一种改进的基于人工智能的切分语句的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种基于人工智能的切分语句的方法,该方法包括:对待切分的原始语句进行切词,以得到原始语句中的词语集合;对初始值为原始语句的待切分语句执行语句切分步骤,语句切分步骤包括:根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录将待切分语句切分成多个子语句片段,其中每个子语句片段是单个词语或词语组合;判断所切分成的多个子语句片段中是否存在不属于词语集合中的子语句片段;若存在不属于词语集合中的子语句片段,则将不属于词语集合中的子语句片段作为待切分语句继续执行语句切分步骤;关联存储原始语句以及每次执行语句切分步骤所得到的多个子语句片段。
在一些实施例中,基于待切分语句中的词语提取出至少一种特征向量,包括:将待切分语句中每个词语的词向量提取为特征向量;根据待切分语句中的词语在搜索语句词典中的出现情况提取特征向量,其中搜索语句词典是对用户在进行搜索时所使用的搜索语句进行统计而生成的;根据待切分语句在原始语句的上下文语句提取特征向量。
在一些实施例中,根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录将待切分语句切分成多个子语句片段,包括:根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录,提取出至少一种特征向量;将至少一种特征向量输入至循环神经网络模型,以根据循环神经网络模型输出的序列确定对待切分语句进行切分的切分点,其中,循环神经网络模型用于表征根据待切分语句中单个词语或不同词语组成的词语组合在搜索引擎中的被搜索记录提取出的至少一种特征向量与用于描述切分时待切分语句中的各个词语是否为切分时的序列的对应关系;按照所确定的切分点将待切分语句切分成多个子语句片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710464446.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:离题作文检测方法、装置和终端设备
- 下一篇:数据处理方法和存储介质