交流评论、关注点赞

  • Facebook Icon脸书专页
  • telegram Icon翻墙交流电报群
  • telegram Icon电报频道
  • RSS订阅禁闻RSS/FEED订阅

台湾三少年 让谷歌AI秀异彩 大脸畸变一键还原

2019年06月25日 11:25 PDF版 分享转发

合照的时候,没有谁喜欢站在最边上。

因为脸会被镜头无情地拉扯,不止变得宽广,还会有些歪斜:△97°视场角

不过,刚刚推出了一门法术,可以让广角照片里的人脸,不用再扭曲变形:左一的妹子,右一的妹子,脸型都显得更加对称自然了。

那么,增加一波难度。

带上墨镜,带上帽子,拉长的脸依然可以复原:△103°视场角

用手挡住半张脸,AI还是没有被迷惑:△103°视场角

不止是这样,AI把人脸调正的同时,也不会扭曲了背景。

比如下图,中间是DxO Viewpoint的人脸修正,后面的栏杆被挤成了一条弧线;而右边是谷歌算法,修好了人脸,栏杆依然直挺:团队说,整个修复过程都是AI自动完成,并且在移动端也可以运行。

这只善良又聪颖的AI,登上了顶会SIGGRAPH2019。

也在Reddit论坛收获了1.9k的热度:有人说,Pixel的广角前置镜头已经用上了这个算法,拍完之后点开照片预览,发现自己的脸已经收窄了。

现在就来看看,人物和背景,到底是怎样兼顾的吧。

互补才是完美谷歌说,从前想要纠正镜头畸变,总是需要职业的修图士。

Ad:美好不容错过,和家人朋友一起享受愉快时光,现在就订票

因为,让机器自动完成的话,常常是修好了一处扭曲,又制造了另一处新的扭曲。

不过,团队也正是从这些不完美的算法之间,发现了新世界的大门:先看透视投影(Perspective Projection)。从一个投射中心出发,把一个3D物体投在2D表面上。忠于透视原理,近大远小。

这种投影一定有失真,比如站在边上的人,离投射中心比较远,脸就大了起来。不过,它拉伸的主要是人脸,背景并不容易发生扭曲。

而球极平面投影(Stereographic Projection)就不同了。把一个球面投射到平面上,并不忠实反映距离,却十分忠实地反映角度。就像这张地图。

这种投影也一定有失真,但对一张照片来说,主要是背景里的直线会变弯,而人脸不易被拉伸。

如此说来,两种投影愉快地互补了。

观察到这个美丽的现实,研究人员当然要把它们的优点,用优雅的方式结合起来。

一句话概括,就是让透视投影去处理背景,球极平面投影去处理局部(人脸)。

当然,要让两种原本冲突的投影方式和平共处,并不是一句话的事。具体说来:△97°视场角

输入的照片如上,已经先用透视投影处理过。

第一步,找出目标区域:人脸,包括头发。

这里,要用人物分割算法,给输入图像里的人类做个Mask;再用人脸检测器,标出脸部的边界框。最后,把Mask和边界框的交集,用绿色标注出来。

第二步,为输入的(透视投影)照片,算出一个球极平面投影。

如果把这个投影可视化,会发现边角的人脸已经修好,只是背景里,左边的窗棱和右边的墙弯了(下图)。

所以就有了关键的下一步:第三步,用上前两步的数据,算出一个网格(Mesh)。这个网格依然是做球极平面投影,但只要调整人脸区域,背景尽量保持原样。

为了不影响背景,这里用到了能量最小化(Energy Minimization)方法,来平息两种投影之间的冲突,促成更加平滑的过渡。

这样,就有了一个兼顾人脸和背景的、优化过的网格:第四步,用这个网格来捏那张输入的照片,得到的就是最终答案:右下角的人脸自然了,背景里的直线也还是直线。

团队说,这个方法可以胜任70°-120°的视场角。

并且,几乎不受场景的限制:单人自拍可以,多人合照可以。

△103°视场角

△97°视场角室内户外都表现稳定;光线明暗也不影响AI的发挥。

△114°视场角

△104°视场角

除了开头提到的帽子、墨镜、手遮脸,这些没有难倒AI的因素之外,脸朝侧面也不会给算法造成困惑。

△103°视场角

还要注意的是,团队是为了移动端的应用,才开发了这只AI。它的运行速度,足以支持手机上相机App的正常交互:即时修图,即时分享。

如果说有什么缺憾,大概就是在捏脸的同时,还不能把身体一起捏好。

而人在角落,身体也可能被拉伸,如果只把脸修到正常的形状和大小,身体有时候就显得太大:即便这样,AI也已经满足了广角人像拍摄的大部分需求。

大家一起自拍的时候,就算拿着手机的那个人是你,也不用再担心自己的脸被拉宽拉长了。

三个少年AI的爸爸,三位谷歌少年,全部来自宝岛。

一作名叫施易昌(YiChang Shih),本科念台大,硕博都在麻省理工,实习经历遍布Adobe、谷歌研究院、微软研究院等等。

2015年,从闪耀的CSAIL实验室拿到,如今已是谷歌的高级(Senior Software Engineer),主攻移动设备上的计算摄影。

二作是赖威昇(Wei-Sheng Lai),本科硕士都在台大,现在是加州大学默塞德分校博四的学生。曾经在Adobe和实习,不久前刚刚结束在谷歌作为学生研究员的历程。

三作叫梁家恺(Chia-Kai Liang),本科和博士都在台大。2008年博士毕业,现在是谷歌的高级专家软件工程师(Senior Staff Software Engineer)。

One More Thing虽然,三位作者里有两位都曾经在Adobe实习。

但这支团队孕育的AI,画风温柔善解人意。

比起一周前Adobe发布的“反向PS”利器,那只能把P过的美照打回原形的AI(如下),这广角人像的修复师AI,大概算得上爱的奉献了。

来源:量子位

喜欢、支持,请转发分享↓Follow Us 责任编辑:刘钰