[发明专利]用于处理信息的方法、装置、设备和介质有效
申请号: | 202010718666.6 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111859970B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 伍林;潘俊杰 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F16/335 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 信息 方法 装置 设备 介质 | ||
本公开的实施例公开了用于处理信息的方法和装置。该方法的一具体实施方式包括:获取目标文本;对目标文本进行命名实体识别,获得名词序列;分别从名词序列中提取角色名序列和称谓序列;对于称谓序列中的称谓,执行以下匹配步骤:从角色名序列中确定与该称谓相匹配的角色名作为该称谓对应的匹配角色名;建立该称谓对应的匹配角色名与该称谓之间的关联关系。该实施方式可以节省人力,提高信息处理的效率。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于处理信息的方法和装置。
背景技术
有声读物是将读物中的内容朗读出来并进行录音后获得的音频形式的读物。有声读物可以包括多个人物角色,而每个人物角色可以对应一个朗读者。
实践中,在针对某个人物角色进行朗读时,需要确定出读物中的哪些对话属于该人物角色。然而,在读物中,一个人物角色通常可以关联多个称谓(比如小说男主“张三”可以关联公子、少爷、你、我、他等称谓)。人物角色关联的称谓的对话也可以是属于该人物角色的对话。所以,在确定哪些对话属于该人物角色时,需要确定该人物角色关联的称谓,以将所关联的称谓的对话划分到该人物角色的对话中。
目前,通常采用人工标注的方式确定读物中的各个人物角色关联的称谓。
发明内容
本公开提出了用于处理信息的方法和装置。
第一方面,本公开的实施例提供了一种用于处理信息的方法,该方法包括:获取目标文本;对目标文本进行命名实体识别,获得名词序列;分别从名词序列中提取角色名序列和称谓序列;对于称谓序列中的称谓,执行以下匹配步骤:从角色名序列中确定与该称谓相匹配的角色名作为该称谓对应的匹配角色名;建立该称谓对应的匹配角色名与该称谓之间的关联关系。
在一些实施例中,从角色名序列中确定与该称谓相匹配的角色名作为该称谓对应的匹配角色名包括:对于角色名序列中的角色名,执行以下步骤:提取该角色名与该称谓的关联特征;将所提取的关联特征输入预先训练的匹配用模型,获得用于表征该角色名与该称谓的匹配程度的匹配结果;基于所获得的匹配结果,从角色名序列中确定与该称谓相匹配的角色名作为该称谓对应的匹配角色名。
在一些实施例中,关联特征包括以下至少一项:用于表征称谓与角色名对应的性别是否相同的特征;用于表征称谓与角色名是否包括相同的文字的特征;用于表征称谓与角色名是否位于目标文本中的相同的句子的特征;用于表征称谓与角色名是否位于目标文本中的相同的段落的特征;用于表征在名词序列中,称谓的位置与角色名的位置的距离的特征;用于表征角色名在称谓对应的目标名词集合中出现的次数的特征,其中,称谓对应的目标名词集合是在名词序列中,与称谓的距离小于或等于预设距离的名词所组成的集合。
在一些实施例中,从名词序列中提取角色名序列包括:按照预设条件,对名词序列中的名词进行过滤,获得初始角色名序列,其中,预设条件包括以下至少一项:名词为人称代词;名词的字数小于2;名词的字数大于4;基于初始角色名序列,生成角色名序列。
在一些实施例中,基于初始角色名序列,生成角色名序列包括:从初始角色名序列中提取在目标文本中的出现次数大于或等于预设次数的名词,组成候选角色名序列;基于候选角色名序列,生成角色名序列。
在一些实施例中,基于候选角色名序列,生成角色名序列包括:从候选角色名序列中提取包含姓氏的名词,组成角色名序列。
在一些实施例中,目标文本为目标小说文本。
在一些实施例中,获得角色名序列后,从名词序列中提取称谓序列包括:从名词序列中过滤掉属于角色名序列的名词,获得候选称谓序列;基于候选称谓序列,生成称谓序列。
在一些实施例中,基于候选称谓序列,生成称谓序列包括:从候选称谓序列中过滤掉字数大于4的名词,获得称谓序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010718666.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种产品收缩率的收集方法及系统
- 下一篇:一种洗涤设备及其控制方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置