[发明专利]消费者文本的信息提取结构,标注方法和识别方法在审
申请号: | 202110172747.5 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112906367A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 杨骏;李杰 | 申请(专利权)人: | 上海宏原信息科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/117;G06F40/279;G06F16/35;G06N3/04 |
代理公司: | 上海容慧专利代理事务所(普通合伙) 31287 | 代理人: | 于晓菁 |
地址: | 200233 上海市徐汇区钦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消费者 文本 信息 提取 结构 标注 方法 识别 | ||
本发明公开的一种消费者文本的信息提取结构,标注方法和识别方法,其信息提取结构包括需求、场景、方案、驱动因素、阻碍因素、疑问中性因素六个维度,通过多个二维数组和BIO结构对信息提取结构进行标识使其能被模型识别,通过构建识别模型可识别待检测文本中的经过维度分类的元素,并根据维度建立元素之间的对应关系,本发明能串联实体与方面的情感分析,解决现有技术的局限性。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种消费者文本的信息提取结构,标注方法和识别方法。
背景技术
在消费者文本表达的自然语言处理技术领域,常用的信息提取技术包括命名实体识别、方面抽取、文本情感分析。具体的,命名实体识别包括输入一段文本,输出其中提到的命名实体,命名实体通常指人名、地名,品牌名等。方面抽取包括输入一段文本,输出其中提到的方面,方面通常指产品的各方面属性,例如价格、功效、外观等。文本情感分析,包括文档级情感分析,实体级情感分析,方面级情感分析,和实体-方面级情感分析。
上述分析方法互相孤立,没有一种方法能自动提取元素、方面,并自动把实体和方面对应做情感分析。互相孤立的问题是,如果采用生硬地把方法串联,会产生误差传递,即前置任务(如命名实体识别和方面抽取)的错误预测会导致后置任务(情感分析)的结果产生较大偏差。
而且,情感分析技术中,文档级、实体级、方面级情感分析忽视了文档中对不同实体的不同方面可能会表达不同的情感态度,片面地反映了表达者的态度。实体-方面级情感分析虽然较正确反映,但其实体和方面需要依赖其他模型产出,真实场景中的应用有局限性。
此外,现有技术的语义结构化定义不能涵盖主要信息。例如社交媒体上会有大量类似表达:“夏天宝宝容易不消化,吃合生元,很快就会好”。命名实体识别技术可以识别品牌名“合生元”,方面抽取技术可以识别“消化”,实体方面级情感分析可以输出(合生元,消化,正面)。然而这些技术会遗漏不消化发生的场景是夏天,对象是宝宝,不消化是需求,解决方案是合生元,好的快是选择合生元的驱动因素。用现有方法无法识别的信息,包括场景、对象、需求、解决方案、驱动因素、疑问中性因素,对品牌方产品研发、营销话术都有非常大的帮助。
发明内容
本发明的目的是提供一种消费者文本的信息提取结构,标注方法和识别方法,用以识别文消防者文本中的结构化信息及其对应关系。
为了达到上述目的,本发明一方面提供消费者文本的信息提取结构,其特征在于,所述信息提取结构包括:
需求,用以表达消费者的需求;
场景,用以表达所述需求发生的场景;
方案,用以表达所述需求对应的解决方案;
驱动因素,用以表达选择所述解决方案的原因;
阻碍因素,用以表达阻碍选择所述解决方案的原因;
疑问中性因素,用以表达购买决策中的疑问要素。
另一方面,本发明还提供一种消费者文本信息结构的标注方法,其包括以下步骤:
获取待识别的文本;
从待识别的文本中提取信息,根据提取信息建立n个二维数组,每个二维组中包括元素及其维度,所述元素的关联通过维度建立,所述维度包括:需求、场景、方案、驱动因素、阻碍因素和疑问中性因素;
采用BIO结构分别对所述二维数组中的元素进行标注,得到BIO标注结果,标注后每一个元素均包括BIO标注和维度。
另一方面,本发明还提供一种识别方法,包括:
获取经过标注的待检测文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宏原信息科技有限公司,未经上海宏原信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110172747.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油封自动安装设备
- 下一篇:一种游戏信号处理方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置