不止能換臉，神經網絡還能讓你看到 1896 年的「4K」電影

由砍柴網發佈 2020-02-05T05:43:43+00:00

不少用戶在使用過ZAO 後，對神經網絡產生了「技術恐懼」，擔心 ZAO 會對自己的肖像權產生侵害，ZAO 也因為種種原因迅速下架，成為技術應用的「負面典型」。

來源：愛范兒作者：李浩然

說到神經網絡，你第一個想到的什麼，有不少人第一個想到的應該是前段時間大火的換臉 APP 「 ZAO 」，神經網絡在圖片領域堪稱「魔法」的應用第一次展現在每一個普通用戶面前。

不少用戶在使用過 ZAO 後，對神經網絡產生了「技術恐懼」，擔心 ZAO 會對自己的肖像權產生侵害，ZAO 也因為種種原因迅速下架，成為技術應用的「負面典型」。

但神經網絡還有另一種用法，那就是對圖像進行增強。

1895 年的電影《火車進站》圖片來自：wiki

神經網絡翻新老電影

最近，國外一個 YouTuber 發布了通過神經網絡增強的 1895 年拍攝的紀錄片《火車進站》，整部電影只有 45 秒長度，由路易 · 盧米埃和奧古斯特 · 盧米埃拍攝於法國一沿海城市。

經過神經網絡增強的《火車進站》電影

傳說放映到火車駛向鏡頭的時候，大量觀眾驚恐的從劇院跑出，展現了當時人們對新技術的好奇和恐懼。當然，這些往事都已經成為了都市傳說。

不過由「新技術」的神經網絡對這部電影進行翻新，也有著深遠的意義。

1895 年拍攝的《火車進站》採用 35mm 格式膠片製作，由於當時的放映機由手搖進行驅動，我們可以粗略的認為其原始幀率在 16 幀到 24 幀之間。

1895 年拍攝的《火車進站》原片

由於當時的膠片技術尚未成熟，我們可以看到畫面景物都是比較模糊的，火車在駛來的同時還帶有明顯的拖影。

但經過了神經網絡的畫面解析度增強和插幀之後，這部老電影獲得了 4K ~ 60fps 的畫質。如果不是電影黑白的畫面和膠片電影獨有的畫面抖動，畫面流暢度和清晰度幾乎可以與現在的智慧型手機相媲美。

是什麼讓神經網絡在圖像增強和插幀上有著這樣的效果呢？

我們知道，數字視頻的清晰度一般由解析度和幀率決定（暫且不考慮影響圖像壓縮質量的碼率）。神經網絡對視頻的增強，也主要集中在這兩種參數上。

解析度增強

首先我們來談談解析度增強，想要將一張低解析度的圖片變成高解析度的圖片，我們就需要猜測放大產生的未知像素。通常情況下，我們會採用某種插值算法進行計算，在圖像邊緣的模糊和鋸齒間獲得平衡，這種計算通常無法增加圖像細節，即使放大了圖像，依舊顯得很模糊。

waifu2x SRCNN 算法與傳統算法的對比

神經網絡在增強解析度上就有著獨到的優勢，或許你之前曾經聽說過一個軟體 waifu2x ，動漫愛好者們經常用它來放大動漫插圖。當然，它同樣可以用作照片放大。

waifu2x 的核心方法就是通過機器學習，訓練一個端到端的網絡，使用低解析度的圖像作為輸入得到對應的高解析度結果圖像，最後得到的結果在圖像的鋸齒與模糊程度有較好表現，其訓練的原理類似於 FCN 模型。

不同算法在視頻解析度增加上的效果圖片來自：download.co.jp

在效果上，waifu2x 的 SRCNN （超解析度卷積神經網絡）要好於傳統的雙三次插值算法。

當然，waifu2x 的算法僅能在靜態圖片上使用。不過方法都是相同的，madvr 中放大視頻解析度的 ngu 算法也是類似的原理。

視頻插幀

對於視頻插幀來說，神經網絡也有自己的用武之地，之前英偉達發布了一個叫做 Super SloMo 的神經網絡，能通過聯合建模的運動解釋和遮擋推理配合光流算法生成中間幀。

這種技術能將原本 30 幀的視頻放慢到 240 幀，並在其中添加畫面的運動細節。

華為 Mate 30 Pro 的 7680 幀慢動作，也是通過神經網絡對 1080P/960fps 的視頻插幀生成的。可見類似的神經網絡插幀算法確實有很高的使用價值。

寫在最後：技術是一把雙刃劍

可以看到，神經網絡對圖像的處理（也就是常說的 AI 圖像）並不是一個很可怕技術，它是一把雙刃劍，如果你用它來給視頻換臉，侵犯他人肖像權，它就是不好的技術。

但如果我們能將其用在老電影翻新、手機超級慢動作、和實時視頻增強，那它就是好技術。

或許那位翻新《火車進站》的 YouTuber，也正是想用這部電影的傳奇故事告訴我們，「不要恐懼新技術的到來。」