0%

1.目标

​ 学习RNN的基本结构,并以此延伸出来的现代循环神经网络:GRU、LSTM、深度循环神经网络、双向循环神经网络、编码器-解码器结构、序列到序列学习(seq2seq)、束搜索。

​ 通过自己大致复现一遍经典循环神经网络结构,熟悉代码的架构和模板。这里基础知识尽可能精简,多写一些模型和不同方法适用的场景。

阅读全文 »

1.Lenet和现代经典卷积神经网络

​ 手敲一遍过去三四十年的传统神经网络,加深一下对于网络演变的认识,给自己后续学习新进的网络结构打好基础。

​ 主要是分为:

  • 传统卷积神经网络:LeNet
  • 现代卷积神经网络:AlexNet、VGG、NiN、GoogleLeNet、Resnet、DenseNet
阅读全文 »

1.Abstract

​ 我们要解决的问题是,在每个动作实例只有一个帧标签的情况下,如何定位动作的时间间隔,以进行训练。由于标签稀疏,现有工作无法学习动作的完整性,从而导致零碎的动作预测。在本文中,我们提出了一个新颖的框架,即生成密集的伪标签,为模型提供完整性指导。具体来说,我们首先选择伪背景点来补充点级动作标签。然后,通过将点作为种子,我们搜索可能包含完整动作实例的最佳序列,同时与种子达成一致。为了从获得的序列中学习完整性,我们引入了两种新的损失,分别从动作得分和特征相似性方面对动作实例和背景实例进行对比。实验结果表明,我们的完整性指导确实有助于模型定位完整的动作实例,从而大幅提高了性能,尤其是在高 IoU 阈值下。此外,我们还在四个基准测试中证明了我们的方法优于现有的先进方法: THUMOS'14、GTEA、BEOID 和 ActivityNet。值得注意的是,我们的方法甚至可以与最新的全监督方法相媲美,而注释成本却低 6 倍。

阅读全文 »

1.Abstract

​ 弱监督时态动作定位的目的是在训练过程中仅使用视频级类别标签来定位和识别未剪辑视频中的动作。在没有实例级注释的情况下,大多数现有方法都遵循基于片段的多实例学习(S-MIL)框架,即通过视频标签对片段预测进行监督。然而,在训练过程中获取分段级分数的目标与在测试过程中获取建议级分数的目标并不一致,从而导致了次优结果。为了解决这个问题,我们提出了一种新颖的基于提案的多实例学习(Proposal-based Multiple Instance Learning,P-MIL)框架,在训练和测试阶段直接对候选提案进行分类,其中包括三个关键设计:

  • 周边对比特征提取模块,通过考虑周边对比信息来抑制辨别性短提案;
  • 提案完整性评估模块,通过完整性伪标签的指导来抑制低质量提案;
  • 实例级等级一致性损失,通过利用 RGB 和 FLOW 模式的互补性来实现鲁棒检测;

​ 在两个具有挑战性的基准(包括 THUMOS14 和 ActivityNet)上取得的大量实验结果证明了我们的方法具有卓越的性能。

阅读全文 »

1.Abstract

​ 本文提出了一种新的方法,用于长时间未修剪视频序列中人体动作的时间检测。我们引入单流时序动作提案( SST ),这是一种新的有效且高效的生成时序动作提案的深度架构。我们的网络可以在很长的输入视频序列上以单个流连续运行,而不需要将输入分割成短的重叠片段或时间窗口进行批处理。我们在实验中证明了我们的模型在时间动作提议生成任务上的表现优于当前最先进的模型,同时达到了一些文献中最快的处理速度。最后,我们证明了将SST建议与现有的动作分类器结合使用,可以提高最先进的速度。

​ 本论文主要提出了一个新进的Proposals方法,用于目标检测和动作识别。

阅读全文 »