阅读论文笔记合集-2022 - ykk648's hub

2022年论文阅读笔记合集

Classification

ConvNeXt

基于ResNet50，仿照Swin Transformer进行网络结构和trick的修改，使得conv结构再次超越transformer结构，证明ViT的精度提升大部分来自于更现代的trick，而非来自于transformer本身。

核心理论是conv可以替代transformer结构，自注意力可以被dw conv替代。

但是7*7的卷积在边缘设备（轻量级模型）上不友好，同时transformer中的MHSA(multi head self-attention)在INT8量化中不友好，所以实际上今年conv和transformer的改进对工业界影响都很有限，更多的变成了一个google和meta堆卡的比赛。

Hand Estimate

MANO

Image Generate

DaGAN

自监督训练人脸深度网络，使用该模型指导精准人脸关键点提取，利用人脸关键点、深度网络，做多模态注意力机制

ViT Transfomer

MAE

何凯明，基于ViT思想，仿照BERT的完形填空思路，提出一种简单的masked autoencoder，使用非对称的encoder-decoder结构，通过对image进行shuffle mask，encoder学习可见区域，decoder对图像进行重建，作为自监督预训练模型，作为预训练的backbone在下游任务取得好的效果。

对预训练模型采用finetune和linear probing(最后一层)两种方式，finetune的效果更好，一个反常识的地方是采用高达75%的mask ratio，认为图片信息的冗余很大，增大mask ratio可以强迫ViT学习图像的抽象信息。

3D Human Digitization

SMPL FPN U-NET FCN对比

DATASET

body pose LSP 3DPW 3DHP

hand pose Freihand HO-3D MTC STD stereo hand pose tracking RHD MPII

Mesh Graphormer

结合GCNN+Transformer，利用HRNet提取grid feature，然后利用graphormer encoder提取出3D joints和vertices（SMPL 6890）

其中在hm36等数据上预训练，在3DPW上面finetune的模型效果最好（EXP）

ROMP

one shot 单目多人3D mesh回归，三个head同时回归出body center ，camera map和SMPL map,

提出CAR（Collision-Aware Representation）解决歧义问题，使得人体中心能够分开

loss包括body center loss和mesh parameter loss，

Mediapipe Hands

分为两个stage，第一个阶段使用palm detector（FPN结构），原因更好检测，并且正方形可以减少anchor数量，数据上除了wild数据还构建了不同光影和背景的仿真数据：

第二部分是hand landmark model，提供21点x,y,z，以及手部出现概率和左右手分类结果，

手部出现概率用于重置tracking状态（tracking也是mediapipe提速的利器）

FrankMoCap

MocapNETs

基于mocapnetv1和v2，先回归2D joints，然后回归到3D BVH文件

基于NSRM方式改进为eNSRM，用于表示全身关键点的旋转矩阵

运动优化使用 Hierarchical Coordinate Descen（HCD）方法

用到的数据集包括手语数据集SIGNUM 运动图片 Leeds Sport Dataset STB已失效

imGHUM

google实现的，第一个同时回归全身pose和shape的模型，模型可以学术申请

S2HAND

利用mano模型回归3d信息，然后3d映射2d，利用标注的2d joints进行监督训练。

同时额外训练一个2d joints回归分支，辅助监督；一个render图片loss辅助监督

HMR

CNN+SMPL，使用2D进行监督，辅助一个Discriminator分支

Physics-based Human Motion Estimation

通过运动学优化方法构建pose estimation的训练集，来代替实际动捕数据。

代码未开源，实际效果较好。

loss：

针对约40s的视频序列，做离线处理，其中pose是常见的姿态估计loss，smooth使用kinematic acceleration penalty使运动流畅

physics物理优化loss包括三个部分：

通过inverse dynamics计算的广义力与实际力相似：

广义力 = 关节内力 + 地面接触力

在脚与地面接触时，每个接触点要尽可能接近地面：

穿透地面的惩罚：

预先提供了人体序列坐标和接触力ft^c（其中地面接触力可能是标注获得）

Notes

#Essays

阅读论文笔记合集-2022

http://example.com/posts/65394/

作者

ykk648

发布于

2022年1月7日

许可协议

airtest/lamda/qinglong自动化实践上一篇

阅读论文笔记合集-2021 下一篇