[发明专利]音频文件标签生成方法和系统有效
申请号: | 201510564305.X | 申请日: | 2015-09-06 |
公开(公告)号: | CN105138670B | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 陆赞信;朱映波;曾荣;王伟 | 申请(专利权)人: | 天翼爱音乐文化科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄晓庆 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频文件 标签 生成 方法 系统 | ||
1.一种音频文件标签生成方法,其特征在于,包括以下步骤:
将需要进行标签设置的音频文件及音频文件的内容中包含的文字信息录入音频文件库、将常用标签录入标签库、将常用关键词录入关键词库;
根据常用关键词与常用标签的关联程度,为常用关键词设置标签,得到常用关键词-标签关系;其中,所述关键词-标签关系表示关键词与对应标签之间的对应关系;
对所述文字信息进行分词,得到若干个词语,计算各词语的TF-IDF值,并根据TF-IDF值的大小获取所述音频文件的关键词;其中,所述TF-IDF值表示词语的词频与逆文档频率的乘积;
根据常用关键词-标签关系查询音频文件的关键词对应的标签;若查询到对应标签,将音频文件与对应标签进行关联;
为生词生成新标签,并关联所述生词与所述新标签,将所述新标签设为音频文件的标签;其中,所述生词为未查询到对应标签的音频文件的关键词;
根据音频文件在不同用户群中的播放时长和播放次数,统计音频文件在不同用户群中的关注度;
将关注度最高的用户群标签设为所述音频文件的用户群标签;其中,所述用户群标签为所述音频文件关联的标签。
2.根据权利要求1所述的音频文件标签生成方法,其特征在于,所述对所述文字信息进行分词,得到若干个词语,计算各词语的TF-IDF值,并根据TF-IDF值的大小来获取所述音频文件的关键词的步骤包括:
将音频文件的内容中包含的文字信息划分为若干个分词;
过滤分词中的停用词和标点符号,得到有用词语;
计算各有用词语的词频和逆文档频率;
根据所述词频和逆文档频率计算各词语的TF-IDF值;
根据所述TF-IDF值的大小获取所述音频文件的关键词。
3.根据权利要求2所述的音频文件标签生成方法,其特征在于,根据如下公式计算各有用词语的TF-IDF值:
tfidfi,j=tfi,j×idfi,
式中,tfi,j表示从第j个音频文件中获取的第i个不重复的有用词语ti的词频;ni,j表示从第j个音频文件中获取的有用词语ti的数量;∑knk,j表示从第j个音频文件中获取的所有有用词语的出现次数之和,idfi表示词语ti的逆文档频率,|D|为音频文件库中的文字信息的总数,|{j:ti∈dj}|为音频文件库中包含词语ti的文字信息的数量,tfidfi,j为第i个不重复的有用词语ti在第j个音频文件中的TF-IDF值。
4.根据权利要求3所述的音频文件标签生成方法,其特征在于,还包括以下步骤:
从逆文档频率库中查询包含有用词语ti的文字信息;
如果未查询到,则将包含有用词语ti的文字信息的记录插入到逆文档频率库中,并令逆文档频率库中包含词语ti的文字信息的数量为1;否则,将逆文档频率库中包含词语ti的文字信息的数量加1。
5.根据权利要求1所述的音频文件标签生成方法,其特征在于,还包括以下步骤:
查询生词库中是否含有所述生词;
如果含有,则将生词库中所述生词的数量加1;否则,将所述生词插入到生词库中,并将该关键词的数量设为1。
6.根据权利要求1所述的音频文件标签生成方法,其特征在于,还包括以下步骤:
根据用户特征将音频文件的用户分为多个用户群;
为音频文件建立并关联用户群标签,所述用户群标签的初始值设为空;其中,所述用户群标签表示音频文件的用户所属的用户群。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼爱音乐文化科技有限公司,未经天翼爱音乐文化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510564305.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:通信装置和通信方法
- 下一篇:关于中继传输的干扰消除的方法及无线通信系统