阅读论文笔记合集-2022

2022年论文阅读笔记合集

Classification

ConvNeXt

基于ResNet50,仿照Swin Transformer进行网络结构和trick的修改,使得conv结构再次超越transformer结构,证明ViT的精度提升大部分来自于更现代的trick,而非来自于transformer本身。

核心理论是conv可以替代transformer结构,自注意力可以被dw conv替代。

但是7*7的卷积在边缘设备(轻量级模型)上不友好,同时transformer中的MHSA(multi head self-attention)在INT8量化中不友好,所以实际上今年conv和transformer的改进对工业界影响都很有限,更多的变成了一个google和meta堆卡的比赛。


Hand Estimate

MANO


Image Generate

DaGAN

自监督训练人脸深度网络,使用该模型指导精准人脸关键点提取,利用人脸关键点、深度网络,做多模态注意力机制

image-20220422105939843


ViT Transfomer

MAE

何凯明,基于ViT思想,仿照BERT的完形填空思路,提出一种简单的masked autoencoder,使用非对称的encoder-decoder结构,通过对image进行shuffle mask,encoder学习可见区域,decoder对图像进行重建,作为自监督预训练模型,作为预训练的backbone在下游任务取得好的效果。

对预训练模型采用finetune和linear probing(最后一层)两种方式,finetune的效果更好,一个反常识的地方是采用高达75%的mask ratio,认为图片信息的冗余很大,增大mask ratio可以强迫ViT学习图像的抽象信息。


3D Human Digitization

SMPL FPN U-NET FCN对比

DATASET

body pose LSP 3DPW 3DHP

hand pose Freihand HO-3D MTC STD stereo hand pose tracking RHD MPII

Mesh Graphormer

结合GCNN+Transformer,利用HRNet提取grid feature,然后利用graphormer encoder提取出3D joints和vertices(SMPL 6890)

其中在hm36等数据上预训练,在3DPW上面finetune的模型效果最好(EXP)

image-20220314152311481

ROMP

one shot 单目多人3D mesh回归,三个head同时回归出body center ,camera map和SMPL map,

提出CAR(Collision-Aware Representation)解决歧义问题,使得人体中心能够分开

loss包括body center loss和mesh parameter loss,

Mediapipe Hands

分为两个stage,第一个阶段使用palm detector(FPN结构),原因更好检测,并且正方形可以减少anchor数量,数据上除了wild数据还构建了不同光影和背景的仿真数据:

image-20220210145237180

第二部分是hand landmark model,提供21点x,y,z,以及手部出现概率和左右手分类结果,

手部出现概率用于重置tracking状态(tracking也是mediapipe提速的利器)

FrankMoCap

MocapNETs

image-20220228162725575

基于mocapnetv1和v2,先回归2D joints,然后回归到3D BVH文件

基于NSRM方式改进为eNSRM,用于表示全身关键点的旋转矩阵

运动优化使用 Hierarchical Coordinate Descen(HCD)方法

用到的数据集包括 手语数据集SIGNUM 运动图片 Leeds Sport Dataset STB已失效

imGHUM

google实现的,第一个同时回归全身pose和shape的模型,模型可以学术申请

image-20220228164644345

S2HAND

利用mano模型回归3d信息,然后3d映射2d,利用标注的2d joints进行监督训练。

同时额外训练一个2d joints回归分支,辅助监督;一个render图片loss辅助监督

image-20220318102612323

HMR

CNN+SMPL,使用2D进行监督,辅助一个Discriminator分支

image-20220322113548990


Physics-based Human Motion Estimation

通过运动学优化方法构建pose estimation的训练集,来代替实际动捕数据。

代码未开源,实际效果较好。

loss:

image-20220207161720461

针对约40s的视频序列,做离线处理,其中pose是常见的姿态估计loss,smooth使用kinematic acceleration penalty使运动流畅

physics物理优化loss包括三个部分:

image-20220207161743207

通过inverse dynamics计算的广义力与实际力相似:

广义力 = 关节内力 + 地面接触力

image-20220207161754416

在脚与地面接触时,每个接触点要尽可能接近地面:

image-20220207161816222

穿透地面的惩罚:

image-20220207161832527

预先提供了人体序列坐标和接触力ft^c(其中地面接触力可能是标注获得)


阅读论文笔记合集-2022
http://example.com/posts/65394/
作者
ykk648
发布于
2022年1月7日
许可协议