请选择 进入手机版 | 继续访问电脑版

12360技术网 - 专业IT技术发表平台

 立即注册  找回密码
查看: 3914|回复: 5

声音场景分类问题探讨

[复制链接]

25

主题

33

帖子

273

积分

中级会员

Rank: 3Rank: 3

积分
273
发表于 2020-1-27 04:35:38 | 显示全部楼层 |阅读模式
如果按照上一篇的想法来做的话,我估计效果不好。
策略:提取视频时长所有音频,特征提取后进入VGG网络,然后将VGG features avg,这样特征如果不明显的话就可能在avg后直接消失了,这种影响还是很大的。我估计最后可能会完全趋于白噪声,这不是扯淡吗?
话不多说,先提取音频文件再说,挨个听真的费劲啊,卧槽,就是怕有脏数据。
先拿抖音干净的数据来玩,主要是因为抖音的视频数据是我挨个下载的,并且声音都有特别之处,没有啥特别的就没分为1类,另有其他非1视频或者啥都有的视频作为other/用来测试看看能不能挑出来1类的视频。
上面其实涉及到一个问题:维度不同如何做相似度???这是动态规划的问题??

细节问题记录:我输入VGG模型的时长是28秒,而且我还特地取整了,这特么得到的结果还是batch还是29,卧槽,这是为啥子
一脸懵逼。经查发现最后一个batch的数值基本上全是相同的,因此去掉。

做过avg后特征基本上全被湮灭了,没有特征了。卧槽,如图下,0的部分或多或少有1中的,但不是全部,然而结果很差。

所以做avg到底有没有依据???我觉得还是原始的做max比较好,这样特征可能会显现。
因为抖音最后3秒可能有自带的“抖音”声音,所以取倒数[-8:-3]的5秒数据,然后max,结果仍旧意料之中。很差

所以我感觉这个所谓的高层特征纯属扯淡。
场景分类根本不行,所以依旧用传统的场景分类办法试试吧
【为啥用抖音的数据?很显然,其声音很显然的特征,任何人都能感觉到。如果抖音的数据都做不成,其他差得数据更难做了】
 
下班,票还没买到啊。卧槽
鉴于上面的做法并无卵用,因而此处需要处理后未经avg或者max的5*128D features,搞个reshape直接做相似度或者搞个分类也可试试,且看如下实际测试:如果不行那么直接放弃,直接采用mel谱或者其他dcase方法。
之前遇到从视频中提取MP3无法用scipy及sf读取的问题,但librosa读取没问题,但新版本0.7.2出现错误,已解决
5*128,reshape后进行t-SNE得到如图,我感觉啥都不是,效果很差。难道t-SNE不行???不能在高纬区分出来?非要NN分类?

以上图的困惑度均为20
下面做下相似度看看效果如何:PCA后120D,0.906
后来发现数据基本上全是1视频,就连other中的也基本上全是1类的,0类的很少,这就尴尬了。难怪query后得到的有点难以置信。我试试0视频的音频,结果发现是宠物的结果也是1了,也就是说根本没有区分度,还是纯属扯淡。
下面试试真的是其他类别的声音,看看效果是否有区分度:PCA后为200D,0.8978,困惑度40,

我只能说看图可能有一些区分度,但终究会出现你看的这一类视频,结果推出来了另一类视频,这样的结果就尴尬了,用户肯定大骂开发人员sb,倘若用户看久了你偶尔给它推出了新的一类,会可能觉得新颖,但如果开始就推出错误,这就让人觉得你不懂他想看什么,体验很差。
 
我试试query下吧,如下:bad case[当然有好结果,不展示了]
  1. query data id 40, label 1, true Name: vd43.mp3results' label : [0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]Time 0.041300
复制代码
经查这个视频不是典型的抖音1视频,所以出来的结果不对【没有最后合成的laugh声音】,不符合预期。
  1. query data id 1989, label 0, true Name: s26212388-102-9987642-093336.mp3results' label : [0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0]query data id 1600, label 0, true Name: s11106920-102-009-182311.mp3results' label : [0 1 1 0 0 0 0 1 0 0 0 1 1 0 1 0 0 0 1 1 0 0 0 1 0 1 0 0 1 1 0 0 0 1 0 0 0 1 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 1 1 0 1 1 1 1 0 0 1 0 0 1 0 1 0 1 0 1 1 0 0 1 0 1 1 1 1 1 0 0 0 0 1 1 0 1 0]query data id 1663, label 0, true Name: s26227655-102-9987642-132637.mp3results' label : [1 0 0 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 1 0 0 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0]query data id 1547, label 0, true Name: s25830648-102-9987642-130334.mp3results' label : [0 0 1 0 1 0 0 0 1 0 1 1 1 0 1 1 1 0 0 1 1 0 0 0 0 1 0 1 0 1 1 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 1 0 1 0 1 0 0 0 1 1 1 1 0 1 0 0 0 0 1 1 1 0 0 0 1 0 0 0 0 0 0]Time 0.070981query data id 79, label 1, true Name: other2_8.mp3results' label : [1 1 1 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 0 1 0 0 0]
复制代码
也有很多非常理想的结果,这一点在上面的tsne图中也可看出来,下一步试试mel谱或者常用的dcase方法。
下班。
另外有相关问题可以加入QQ群讨论,不设微信群
QQ群:868373192 
语音图像视频深度-学习群
                                                                                                                        
                                                    
  • 点赞                        1                        
  • 收藏                        
  • 分享                                                                                                                        
  •                                                         
                                      
    • 文章举报                           
                                                
                                                                        
                                            
                                                        SpeechImageKing                                                                发布了208 篇原创文章 · 获赞 190 · 访问量 4万+                                                                                            私信                                                            关注
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x




上一篇:各地图坐标转换工具类
下一篇:Java基础学习总结(151)——Java 8时间处理API再复习
回复

使用道具 举报

0

主题

25

帖子

535

积分

高级会员

Rank: 4

积分
535
发表于 2020-1-28 17:51:37 | 显示全部楼层
楼主,我太崇拜你了![www.12360.co]
社区不能没有像楼主这样的人才啊!
回复

使用道具 举报

15

主题

26

帖子

286

积分

中级会员

Rank: 3Rank: 3

积分
286
发表于 2020-2-3 21:20:18 | 显示全部楼层
我看不错噢 谢谢楼主![www.12360.co]
回复

使用道具 举报

0

主题

13

帖子

283

积分

中级会员

Rank: 3Rank: 3

积分
283
发表于 2020-2-9 03:16:15 | 显示全部楼层
既然你诚信诚意的推荐了,那我就勉为其难的看看吧![www.12360.co]
回复

使用道具 举报

0

主题

15

帖子

325

积分

中级会员

Rank: 3Rank: 3

积分
325
发表于 2020-2-11 00:42:00 | 显示全部楼层
其实我一直觉得楼主的品味不错!呵呵![www.12360.co]
回复

使用道具 举报

0

主题

11

帖子

241

积分

中级会员

Rank: 3Rank: 3

积分
241
发表于 5 天前 | 显示全部楼层
这东西我收了!谢谢楼主![www.12360.co]
回复

使用道具 举报

懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

12360技术网

GMT+8, 2020-2-29 19:50 , Processed in 0.212744 second(s), 32 queries .

本网站内容收集于互联网,Www.12360.Co不承担任何由于内容的合法性及健康性所引起的争议和法律责任。 欢迎大家对网站内容侵犯版权等不合法和不健康行为进行监督和举报。

© 2019-2020 Www.12360.Co

快速回复 返回顶部 返回列表