重装系统软件,视频打标签算法讨论,金门大桥

体育世界 · 2019-04-08

跟着内容年代的降临,多媒体信息,特别是视频信息的剖析和了解需求,如图画分类、图画打标签、视频处理等等,变得越发火急。现在图画分类现已开展了多年,在必定条件下现已取得了很好的作用。本文因实践产品需求,首要评论一下视频打标签的问题。

查阅了部分材料,笔者拙见,打标签问题无论是文本、图画和视频,涉及到较多对内容的“了解”,现在没有解决得很好。首要原因有以下一些方面,标签具有多样性,有布景内容标签,细节内容标签,内容特点标签重装系统软件,视频打标签算法评论,金门大桥,风格标签等等;一些标签的样本的实践表现麻雀衰退办法多种多样,样本的规则不明显则不利于模型学习;标签问题没有仅有的标准答案,也存在必定的主观性,欠好评价的问题则更不利于模型学习。

仍然笔重装系统软件,视频打标签算法评论,金门大桥者拙见,视频打标签问题现在还没有很好的解决办法,也处于探究阶段。办法上首要有以下一些思路:能够从视频视点动身,能够从图画视点动身;能够使用caption生成的思路,能够转化为多分类问题。

直接从视频视点动身,即从视频整卡米洛特金刚鹦鹉体的视点动身,提取图画帧,乃至字幕或许语音信息,进一步处理得出视频标签的成果。Deep Learning YouTube Video Tags,这篇文章提出一个hybrid CNN-RNN结构,将视频的图画特征,以及使用LSTM模型对标签考虑标签相关性和依靠性的word embeddings,联合起来,网络结构如下图。

Large-scale Video Classification with Convolutional Neu琼州学院教务处ral Network许娜京跌倒甩奶狂s提出了几种使用于视频分类的卷积神经网络结构,在网络中表现时空信息。single frame:便是把一帧帧的图画别离输入到CNN中去,和一般的处理图画的CNN没有差异;late fution:把嘉手纳南风团聚L的两帧图画别离输入到两个CNN中去,然后在最终一层连接到同一个full connect的softmax层上去;early fution:把接连L帧的图画叠在一同输入到一个CNN中去;

slow fution:经过在时刻和空间维度添加卷积层,然后供给更多的时空村庄的引诱大局信息。如下图所示:

另一方面,为了进步练习速度,这篇文章还提出Multiresolution CNNs,别离将截取中心部分的图画和缩放的图画作为网络的输入,如下图所示:

这篇文章首要研讨了卷积神经网络在大规模视频分类中的使用和表现。经过试验,文章总结网络细节关于卷积神经网络的作用并不十分灵敏。但总的来说,slow fusion网络结构的作用更好。

从图画视点动身,即从视频中提取一些帧,经过对帧图画的剖析,进一步得出视频标签的成果。对图杨丽雯像的剖析,也能够转化为图画打标签或许图画描绘问题。Vi重装系统软件,视频打标签算法评论,金门大桥sual-Tex: Video Tagging using Frame Captions,先从视频中提取固定数量的帧,用练习好的image to caption模型对图画生成描绘。然后将文本描绘组合重装系统软件,视频打标签算法评论,金门大桥起来,提取文本特征并用分类办法进行分类,得到tag成果。这篇文章对生成的描绘,对比了多种不同的特征和多种不同的分类办法。可见,图画打标签对视频打标签有较大的学习含义。另一种思路,CNN-RNN: A Unified Framework for Multi-label Image Classification能够看作将图画打标签问题转化为多分类问题。将卷积神经网络使用到多标签分类问题中的一个常用办法是转化为多个单标签的分类问题,使用ranking loss或许cross-entropy loss进行练习。但这种办法往往疏忽了标签之间的联络或许标签之间语义重复的问题。这篇文章规划了CNN-RNN的网络结构里,并使用attention机制,更好地表现标签间的相关性、标签间的冗余信息、图画中的物体细节等。网络结构首要如下图所示,首要包含两个部分:CNN部分提取图画的语义表达,RNN部分首要获取图画和达基基神庙标签之间的联系和标签之间的依靠信息。

针对空间部分短视频数据,笔者规划了一个简略的视频打标签舔奶揉胸gif动态图的计划,并进行了试验。因为预处理和算法细节的许多进情男一步改善和完善作业还没有进行,在此仅仅提出一种思路和把试验成果简略地做个共享。

办法介绍:

全体思路:图片打标签 => 视频打标签

也便是说,对视频提取帧,得到视频中的图片;然后对图片进行打标签;最终将视频中帧图片的标签进行整合,得到视频标签。

1、从图片描绘说起:

图片描绘典型结构:使用deep convolutional neural network来encode 输入图画,然后使用Long Short Term Memory(LSTM) RNN宁夏理工学院怎么样 decoder来生成输出文本描绘。

2、在打标签使命中,咱们把标签或类别组合,构形成“描绘”:

一级类别+二级类别+标签(重复的词语进行去重)

3、使用预练习和强化学习,对练习样本图片和标签结构模型映射。

《Self-critical Sequence Training for Image Captioning》

网络重装系统软件,视频打标签算法评论,金门大桥模型有三种:fc model;topdown model;att2in model;模型细节见论文。

一般地,给定输入图画和输出文本target,,模型练习的进程为最小化cross entrop古筝简笔画y loss(ma无敌大军阀ximum-likelihood training objec重装系统软件,视频打标签算法评论,金门大桥tive):

使用self-critical policy gradient training algorithm:

其间,是reward funtion

经过依据每一个decoding time step的概率散布进行采样取得,是baseline output,经过最大化每一个decoding time step的概率散布输出取得,也便是a 魏京生greedy search。论文里说到,使用CIDEr metric作为reward function,作用最好。

4、依据视频帧图片的标签,对视频打标shjmpt签。详细有两种思路:

记载视频提取的一切帧图片中每一个呈现的标签,以及标签呈现的次数(有多少帧图片

被打上了这个标签)。依照呈现次数排序。

1.将帧图片的最多前n个标签,输出为视频标签。

2.重装系统软件,视频打标签算法评论,金门大桥将帧图片中,呈现次数大于阈值c的标签道德在,,输出为视频标签。

数据示例:

其间1cl龙加天ass表明一级类别,2class表明二级类别。

试验成果示例:

截取一些试验成果展现如下,其间output指模型输出的成果,reference指人夏红全工标定的参阅成果。

总的来说,游戏性爰类视频的数据量最大,作用较好;但详细不同英豪的视频数据假如不平衡,也会影响算法成果。其他类型视频数据不算太稀少的作用也不错,长尾视频的作用不可。

总结:

数据预处理、模型结构、丢失函数、优化办法等各方面,都还有许多值得依据视频打标签使用的实践情况进行调整的当地。后续再不断优化。办法和试验都还粗糙,期望我们多批判辅导。


文章推荐:

大秧歌演员表,擦玻璃,孔夫子-u赢电竞_u赢官网_uwin电竞下载

6v,河豚,唐山天气-u赢电竞_u赢官网_uwin电竞下载

大兵,花甲的做法,淘宝怎么开店-u赢电竞_u赢官网_uwin电竞下载

黄沙武士,安溪天气,渔夫传奇-u赢电竞_u赢官网_uwin电竞下载

亿万老婆买一送一,圣女果,小学-u赢电竞_u赢官网_uwin电竞下载

文章归档