您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 姿态识别 >

Dense Pose FaceBook 3D 三维立体 姿态识别 AI 动作学习模型

发布时间:2019-07-21 00:35 来源:未知 编辑:admin

  实现从 2D 图像到 3D 表面的对应在很多方面都有极具价值的应用前景。近日,FAIR 发布了一篇研究论文,介绍了他们通过人工方式标注的图像到表面密集对应数据集 DensePose-COCO 以及基于此训练的 DensePose-RCNN 架构,得到了一个能实时地得到高准确度结果的系统。该研究发布后得到了广泛的关注,机器之心在此对该论文进行了摘要介绍,更多详情请参阅原论文和项目网站。

  本研究的目标是通过建立从人体的 2D 图像到基于表面的 3D 表征的密集对应(dense correspondence)来进一步推进人类对图像的理解。我们可以认为这个任务涉及到一些其它问题,比如物体检测、姿态估计、作为特例或前提的部位和实例分割。在图形处理、增强现实或人机交互等不只需要平面关键特征位置标记的问题中,这一任务的解决将能实现很多应用,并且还能助力实现通用型的基于 3D 的物体理解。

  建立从图像到基于表面的模型的密集对应的任务已经在可使用深度传感器的设置中基本得到了解决,比如在 [41] 的 Vitruvian 流形中、指标回归森林 [33] 或最近 [44] 提出的密集点云对应。相对而言,我们的情况则是考虑使用单张 RGB 图像作为输入,然后我们基于此来构建表面点和图像像素之间的对应。

  最近也有一些其它研究想要以无监督的方式恢复 RGB 图像配对 [3] 或集合 [48,10] 之间的密集对应。最近,[42] 使用了同变性原理(equivariance principle)来将图像集对齐到一个共同坐标系,同时也遵循了分组图像对齐的一般思想,比如 [23,21]。

  尽管这些研究都针对的是一般类别,但我们的研究关注的可以说是最重要的视觉类别——人类。对于人类而言,可以通过使用参数可变形表面模型(parametric deformable surface model)来简化这一任务,比如 [2] 的 Skinned Multi-Person Linear(SMPL)模型或最近的 [14] 中通过精心控制 3D 表面获取而得到的 Adam 模型。对于图像到表面映射的任务,[2] 中的作者提出了一种两阶段方法:首先通过一个 CNN 检测人类关键特征位置,然后通过迭代式最小化为该图像拟合一个参数可变形表面模型。与我们的研究同时进行的 [20] 对 [2] 的方法进行了发展,使之能以端到端的方式工作,其在用于恢复 3D 相机姿态和低维身体参数化的深度网络中整合了一个模块——迭代式重投射误差最小化(iterative reprojection error minimization)。

  我们的方法与这些研究都不一样,我们采用了一种全面的监督学习方法并收集了人体的图像与详细准确的参数表面模型 [27] 之间的真实对应数据:我们没有在测试时间使用 SMPL 模型,而是将其用作在训练阶段定义我们的问题的一种方法。我们的方法可以被理解成是 [26, 1, 19, 7, 40, 18, 28] 中用于人类的标准的下一步延伸工作。Fashionista [46]、PASCAL-Parts [6] 和 Look-Into-People (LIP) [12] 数据集中已经提供了人体部位分割掩码;这些可以被看作是提供了图像到表面对应的粗糙版本,其中没有连续的坐标,而是可以预测离散的部位标签。在表面层面的监督直到最近才被 [43] 引入合成图像,同时 [22] 中一个包含 8515 张图像的数据集标注上了 3D 模型到图像的关键点和半自动拟合。本研究没有损伤我们的训练集的范围和真实性,而是引入了一种全新的标注流程,让我们可以为 COCO 数据集的 5 万张图像收集真实的对应,进而得到了我们新的 DensePose-COCO 数据集。

  我们的工作在思想上最接近于近期的 DenseReg 框架 [13],其中训练的 CNN 能成功构建自然场景中的 3D 模型和图像之间的密集对应关系。那项工作主要关注的是人脸,并且只在姿态变化适中的数据集上评估了他们的结果。但是,由于人体具有更高的复杂度和灵活性,同时姿态也存在更大的变化,所以我们这里还面临着新的难题。我们采用了合适的架构设计来解决这些难题,详见第 3 节;该架构相比于 DenseReg 类型的全卷积架构有显著的提升。通过将我们的方法与近期的 Mask-RCNN 系统 [15] 相结合,我们表明通过鉴别式方法训练的模型能实时地为涉及数十人的复杂场景恢复高准确度的对应场:我们的系统在一个 GTX 1080 GPU 上能以每秒 20-26 帧的速度处理 240×320 图像或以每秒 4-5 帧的速度处理 800×1100 图像。

  我们的贡献可以总结为三点。首先,如第 2 节所述,我们通过收集 SMPL 模型 [27] 和 COCO 数据集中的人物外观之间的密集对应而为该任务引入了第一个人工收集的真实数据集。这是通过在标注过程中使用一种利用了 3D 表面信息的全新标注流程实现的。

  第二,如第 3 节所述,通过在任何图像像素对人体表面坐标进行回归,我们使用所得到的数据集训练了可以得到自然环境中密集对应的基于 CNN 的系统。我们实验了依赖于 Deeplab [4] 的全卷积架构和依赖于 Mask-RCNN [15] 的基于区域的系统,并观察到了基于区域的模型相比于全卷积网络的优越性。我们还考虑了我们的方法的级联变体,并在已有的架构上实现了进一步提升。

  我们探索了利用我们构建的真实信息的不同方法。我们的监督信号是在每个训练样本中随机选择的图像像素子集上定义的。我们使用了这些稀疏对应来训练一个「教师(teacher)」网络,其可以「修补(inpaint)」图像其余区域的监督信号。不管是与稀疏点相比还是与其它任何已有的数据集相比,使用这种修复后的信号能够得到明显更好的表现,第 4 节通过实验证明了这一点。

  我们的实验表明密集的人体姿态估计在很大程度上是可以实现的,但仍还有改善的空间。我们使用一些定性结果和表明该方法发展潜力的方向而对我们的论文进行了总结。我们将通过我们的项目网站公开提供代码和数据:。

  图 1:密集姿态估计的目标是将 RGB 图像上的所有人类像素映射成 3D 的人体表面。我们引入了一个大规模真实数据集 DensePose-COCO,其中包含人工标注的 5 万张 COCO 图像的图像到表面对应数据;我们还训练了 DensePose-RCNN,能以每秒多帧的速度在每个人体区域内密集回归特定部位的 UV 坐标。左图:图像及通过 DensePose-RCNN 所得到的回归后的对应。中图:DensePose-COCO 数据集标注。右图:身体表面的分割和 UV 参数化。

  图 2:通过让标注者将图像分割成形义区域然后再在任何渲染的部位图像上为每个被采样的点定位其对应的表面点,我们标注了图像和 3D 表面模型的密集对应关系。红色叉号表示当前被标注的点。渲染后视图的表面坐标在 3D 模型上定位收集到的 2D 点。

  图 3:用于收集每个部位的对应标注的用户界面:我们向标注者提供了人体部位的 6 个预渲染的视角,这样整个部位表面都是可见的。一旦标注了目标点,该点就会同时显示在所有渲染过的图像上。

  图 4:标注的可视化:图像(左)、收集到的点的 U 值(中)和 V 值(右)

  图 7:DensePose-RCNN 架构:我们使用了区域提议生成和特征池化的级联,之后跟着一个全卷积网络,用于密集地预测离散部位标签和连续表面坐标。

  图 8:交叉级联架构:图 7 中 RoIAlign 模块的输出送入 DensePose 网络以及用于其它任务(掩码、关键点)的辅助网络。一旦从所有任务获得了第一阶段的预测,它们就将被组合起来送入每个分支的第二阶段细化。

  图 9:我们首先使用我们的稀疏的、人工收集的监督信号训练一个「教师网络」,然后使用该网络来「修补」用于训练我们的基于区域的系统的密集监督信号。

  图 10:SMPLify [2] 的基于模型的单人姿态估计和我们的基于 FCN 的结果的定性比较,包含了具有遮挡(「All images」)和不含遮挡(「Full-body images」)的情况。

  图 11:使用不同类型的监督信号进行训练的单人表现:DensePose 得到了比其它数据集显著更准确的结果。DensePose∗在训练和测试时都使用了 figure-ground oracle

  图 12:多人密集对应标注的结果。这里我们在包含多人的真实 COCO 数据集图像上比较了我们提出的 DensePose-RCNN 系统与全卷积方法的表现,其中这些图像在尺寸、姿态和背景上具有较高的多样性。

  图 14:用于纹理迁移的定性结果:在上面一行中所提供的纹理根据估计的对应映射成了图像像素。完整视频请访问:。

  摘要:在本研究中,我们构建了人体的 RGB 图像与基于表面的表征之间的密集对应,我们将这个任务称为密集人体姿态估计。首先,我们通过引入一种有效的标注流程而收集了 COCO 数据集中 5 万张人类外观的密集对应。然后我们使用我们的数据集训练了能够在自然环境中(in the wild)得到密集对应的基于 CNN 系统,也就是说环境中存在背景、遮挡和尺度变化等情况。通过训练一个可以填补缺失真实值的「修补」网络,我们提升了我们的训练集的有效性;并且相比于过去所能实现的最好结果有明显的提升。我们使用全卷积网络和基于区域的模型进行了实验,并观察到了后者的优越性;我们通过级联进一步提升了准确度,得到了一个能实时地得到高准确度结果的系统。我们的项目网站还提供了补充材料和视频:/p>

  3D人体姿态识别数据集

  最近看3D人体姿态识别方面论文,在数据处理阶段,3D比2D复杂很多。2D人体姿态识别在dataset和model方面都比3D成熟,2Dmodel也有很多户外,自然界的dataset,但是3D的data...博文来自:华仔的博客

  密集人体姿势估计是指将一个RGB图像中的所有人体像素点映射到人体的3D表面。我们介绍了DensePose-COCO数据集,这是一个大型ground-truth数据集,在50000张COCO的图像上手工...博文来自:weixin_40581617的博客

  一,人体姿态识别数据集1,2D数据集:LSP地址:样本数:2K关节点个数:14全身,单人FLIC地址:博文来自:的博客

  关于2D视频动作识别,请移步这两篇博客1,博客23D骨架动作识别,现在主要有两种方法,一是用LSTM进行时序上的记忆,二是将骨架坐标转换成特殊的图片,用卷积网络进行特征提取以及记忆。目前使用的最大最全...博文来自:liudiudiu

  DensePose文章内容模型目的:将人体2D图像转化成一个3D图像使用数据库:COCOdataset具体操作:1.先手动标注,在COCOdataset上语义分割,然后均匀取点,人工标注出每个点在三维...博文来自:SUNSHITONG144315的博客

  三维栗子发自凹非寺 量子位报道公众号QbitAI△ 死亡效应2搭建3D人体模型,早已是AI驾(le)轻(bu)就(si)熟(shu)的一项工作,不论是在VR里,电影里,还是时尚圈。不过,执行这项任务...博文来自:量子位

  (1)问题描述:在Unity中,有些工作需要注重人物姿态、而忽略人物的触碰体积和刚体属性,这时适合将其抽象为简单的点线模型(火柴人模型)。这种模型具有结构简单、直观、响应速度快等优点。在这里笔者用一个...博文来自:BenJamin_Blue的博客

  摘要:利用深度卷积网络的成功,当下效果最好的方法对于人体姿态估计来说主要关注在深度端对端系统上,给定原始图像像素来预测3d关节定位。这方法不容易理解系统遗留的错误是来自受限的2d姿势(可视)理解,或者...博文来自:poilkj110的博客

  圆栗子编译整理量子位出品公众号QbitAI大家可能还记得,今年2月Facebook发布的,人体姿势实时识别系统DensePose。现在,代码开源了。撒花。10......博文来自:量子位

  这篇文章是使用深度学习网络处理人体关节点定位的第一篇文章,发表于2014,August20.作者使用了级联的卷积神经网络来预测人体关节点。1研究背景人体姿态识别被定义为人体关键点的定位问题,一直以来是...博文来自:专注!切记浮躁

  个人的一些拙见,欢迎批评指正,欢迎互相交流…一、概述预览DensePose估计旨在完成从RGB图像中所有的人体像素到人体3D表面的映射。相关构成,用文中的话即为(Mask-RCNN+DenseReg)...博文来自:的博客

  最近在做一个人体康复训练的项目,一开始考虑到人体康复训练需要肢体的细微动作,所以先使用人体姿态估计识算法提取骨骼点,再根据人体骨骼点来识别动作(后来发现也不一定这样),并组合成一个端对端的模型,正好找...博文来自:浪浪的博客

  OpenPose人体姿态识别项目是美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以caffe为框架开发的开源库。可以实现人体动作、面部表情、手指运动等姿态估计。适用于单人和多人,具有极好的鲁...博文来自:diyun的博客

  基于深度学习的三维点云识别一、什么是三维物体识别​ 随着三维成像技术的发展,结构光测量、激光扫描、ToF等技术趋于成熟,物体表面的三维坐标能够精准而快速的获取,从而生成场景的三维数据,能够更好地感知和...博文来自:pikachu_777的专栏

  ××××××××××××××××××××××××××××××××××××××××××××××××××交代一下本机的环境××××××××××××××××××××××××RTX2070××××××××××...博文来自:FatMigo的博客

  目录0、简介1、2D人体姿态估计2、3D人体姿态估计3、其他知识                     这是一个简单的资源仅供参考0、简介姿态估计的目标是在RGB图像或视频中描绘出人体的形状,这是一...博文来自:chenyuping333的博客

  densepose是一个比较先进的3D姿态估计模型,很厉害,具体可以见官网:了解链接:博文来自:的博客

  转自:个人的一些拙见,欢迎批评指正,欢迎互相交流…一、概述预览DensePose估计...博文来自:lanyuxuan100的博客

  一:背景知识   姿态估计的目标是在RGB图像或视频中描绘出人体的形状,这是一种多方面任务,其中包含了目标检测、姿态估计、分割等等。有些需要在非水平表面进行定位的应用可能也会用到姿态估计,例如图形、增...博文来自:Julia_deeplearning的博客

  OpenPose可以实现人体动作、面部表情、手指运动等姿态估计,是卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以caffe为框架开发的开源库。适用于单人和多人,具有极好的鲁棒性。是世界上首个基...博文来自:同济子豪兄

  关于姿态的论文下载及意义的有关说明(2017年11月23日):链接1–(较为概括但简略)首先是知乎有一个2017年姿态方面的论文/相关工作的一个总结。所以直接照搬过来,一个比较高屋建瓴的综述性的文章。...博文来自:daniaokuye的专栏

  暑期学习正式拉开帷幕。昨天看了看imac的使用,感觉不错,网址推荐一下。这几天准备学学DLL:主要参考资料,还有个比较好的资料。上午小小写了写静态链接库的使用。资料相当详细吖,记录下自己的收获。1.对...博文来自:Usopp

  微软的kinect和华硕的xtion在RGBD物体识别上用得比较多,一般来说都是通过openni来采集的,pcl里io模块可以直接调用这个接口。但是对于之前接触图像和opencv比较多的同学来说,使用...博文来自:heroacool的专栏

  LSP地址:样本数:2K关节点个数:14全身,单人FLIC地址:博文来自:青青韶华

  Researchquestion:在一张RGB图片和一个曲面模型上建立对应。RGB图片来自COCO数据集(本文筛选出含有人物的图片),除此之外,由一个人体的表面模型(这个模型应该是立体的)为24个体块...博文来自:pan2635376816的博客

  lisimin52043:楼主有没有常识用过他的那个3D模式,我现在有原视频。我想识别出3D。但总之报错说找不到摄像头,我看他文档里面也是有讲如何用视频,生成3D的啊。我用的是openposedemo.exe 。如果能实现的话,请教一下 实例代码。

  :你好,我在使用densepose开发姿势识别的项目,可否加个联系方式 讨论讨论

http://gardenerus.com/zitaishibie/214.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有