台湾三少年让谷歌AI秀异彩大脸畸变一键还原 - 禁闻网

交流评论、关注点赞

台湾三少年让谷歌AI秀异彩大脸畸变一键还原

2019年06月25日 11:25 PDF版分享转发

合照的时候，没有谁喜欢站在最边上。

因为脸会被镜头无情地拉扯，不止变得宽广，还会有些歪斜：△97°视场角

不过，谷歌刚刚推出了一门法术，可以让广角照片里的人脸，不用再扭曲变形：左一的妹子，右一的妹子，脸型都显得更加对称自然了。

那么，增加一波难度。

带上墨镜，带上帽子，拉长的脸依然可以复原：△103°视场角

用手挡住半张脸，AI还是没有被迷惑：△103°视场角

不止是这样，AI把人脸调正的同时，也不会扭曲了背景。

比如下图，中间是DxO Viewpoint的人脸修正，后面的栏杆被挤成了一条弧线；而右边是谷歌算法，修好了人脸，栏杆依然直挺：团队说，整个修复过程都是AI自动完成，并且在移动端也可以运行。

这只善良又聪颖的AI，登上了顶会SIGGRAPH2019。

也在Reddit论坛收获了1.9k的热度：有人说，Pixel的广角前置镜头已经用上了这个算法，拍完之后点开照片预览，发现自己的脸已经收窄了。

现在就来看看，人物和背景，到底是怎样兼顾的吧。

互补才是完美谷歌说，从前想要纠正镜头畸变，总是需要职业的修图士。

Ad：美好不容错过，和家人朋友一起享受愉快时光，现在就订票

因为，让机器自动完成的话，常常是修好了一处扭曲，又制造了另一处新的扭曲。

不过，团队也正是从这些不完美的算法之间，发现了新世界的大门：先看透视投影(Perspective Projection)。从一个投射中心出发，把一个3D物体投在2D表面上。忠于透视原理，近大远小。

这种投影一定有失真，比如站在边上的人，离投射中心比较远，脸就大了起来。不过，它拉伸的主要是人脸，背景并不容易发生扭曲。

而球极平面投影(Stereographic Projection)就不同了。把一个球面投射到平面上，并不忠实反映距离，却十分忠实地反映角度。就像这张地图。

这种投影也一定有失真，但对一张照片来说，主要是背景里的直线会变弯，而人脸不易被拉伸。

如此说来，两种投影愉快地互补了。

观察到这个美丽的现实，研究人员当然要把它们的优点，用优雅的方式结合起来。

一句话概括，就是让透视投影去处理背景，球极平面投影去处理局部(人脸)。

当然，要让两种原本冲突的投影方式和平共处，并不是一句话的事。具体说来：△97°视场角

输入的照片如上，已经先用透视投影处理过。

第一步，找出目标区域：人脸，包括头发。

这里，要用人物分割算法，给输入图像里的人类做个Mask；再用人脸检测器，标出脸部的边界框。最后，把Mask和边界框的交集，用绿色标注出来。

第二步，为输入的(透视投影)照片，算出一个球极平面投影。

如果把这个投影可视化，会发现边角的人脸已经修好，只是背景里，左边的窗棱和右边的墙弯了(下图)。

所以就有了关键的下一步：第三步，用上前两步的数据，算出一个网格(Mesh)。这个网格依然是做球极平面投影，但只要调整人脸区域，背景尽量保持原样。

为了不影响背景，这里用到了能量最小化(Energy Minimization)方法，来平息两种投影之间的冲突，促成更加平滑的过渡。

这样，就有了一个兼顾人脸和背景的、优化过的网格：第四步，用这个网格来捏那张输入的照片，得到的就是最终答案：右下角的人脸自然了，背景里的直线也还是直线。

团队说，这个方法可以胜任70°-120°的视场角。

并且，几乎不受场景的限制：单人自拍可以，多人合照可以。

△103°视场角

△97°视场角室内户外都表现稳定；光线明暗也不影响AI的发挥。

△114°视场角

△104°视场角

除了开头提到的帽子、墨镜、手遮脸，这些没有难倒AI的因素之外，脸朝侧面也不会给算法造成困惑。

△103°视场角

还要注意的是，团队是为了移动端的应用，才开发了这只AI。它的运行速度，足以支持手机上相机App的正常交互：即时修图，即时分享。

如果说有什么缺憾，大概就是在捏脸的同时，还不能把身体一起捏好。

而人在角落，身体也可能被拉伸，如果只把脸修到正常的形状和大小，身体有时候就显得太大：即便这样，AI也已经满足了广角人像拍摄的大部分需求。

大家一起自拍的时候，就算拿着手机的那个人是你，也不用再担心自己的脸被拉宽拉长了。

三个少年AI的爸爸，三位谷歌少年，全部来自宝岛。

一作名叫施易昌(YiChang Shih)，本科念台大，硕博都在麻省理工，实习经历遍布Adobe、谷歌研究院、微软研究院等等。

2015年，从闪耀的CSAIL实验室拿到博士学位，如今已是谷歌的高级软件工程师(Senior Software Engineer)，主攻移动设备上的计算摄影。

二作是赖威昇(Wei-Sheng Lai)，本科硕士都在台大，现在是加州大学默塞德分校博四的学生。曾经在Adobe和英伟达实习，不久前刚刚结束在谷歌作为学生研究员的历程。

三作叫梁家恺(Chia-Kai Liang)，本科和博士都在台大。2008年博士毕业，现在是谷歌的高级专家软件工程师(Senior Staff Software Engineer)。

One More Thing虽然，三位作者里有两位都曾经在Adobe实习。

但这支团队孕育的AI，画风温柔善解人意。

比起一周前Adobe发布的“反向PS”利器，那只能把P过的美照打回原形的AI(如下)，这广角人像的修复师AI，大概算得上爱的奉献了。

来源：量子位

喜欢、支持，请转发分享↓Follow Us 责任编辑：刘钰

热门禁书

本文标签：博士学位, 台湾, 英伟达, 谷歌, 谷歌AI, 软件工程师