- GAN实战
- (英)雅各布·朗格尔 (美)弗拉基米尔·博克
- 1020字
- 2025-02-22 11:11:44
序
我在2015年首次接触到GAN的时候,便立刻爱上了它。我确信,它就是我在机器学习其他内容中总是错过的能自我批评的机器学习系统。人们会不断地制订可行的计划,然后分辨出“莽撞地冲向一扇门”并不是最好的主意。其他机器学习系统做不到这样,但是GAN可以。GAN真的很有意义——要进入更高层次的人工智能阶段,我们就应该利用好自动学习的表达和机器学习的反馈循环。毕竟数据非常昂贵,计算却越来越便宜。
GAN让我为之着迷的另外一点在于它的增长曲线,尽管这一点是我在后来才意识到的。机器学习的其他内容都没有这么“新颖”。大多数计算机视觉技术是在1998年之前发明的,而GAN在2014年才开始发挥作用。从2014年到我撰写本文时,GAN一直保持着不间断的指数增长。
到目前为止,我们已经取得了包括生成猫咪表情包在内的很多成就。第一篇GAN论文的引用次数是原版TensorFlow论文的2.5倍以上,而且GAN还常被麦肯锡咨询公司(McKinsey & Company)和主流媒体讨论,由此可见其影响远远不止于技术层面。
这是一个充满可能性的迷人新世界,能和诸位读者一起分享,我感到既荣幸又兴奋。本书的筹划已近两年,希望广大读者见到它会和我们一样兴奋,非常期待你们的反馈!
——Jakub Langr
用著名科幻小说家Arthur C. Clarke的话来说,“任何足够先进的技术,都与魔法无异。”——这在我早年探索计算机科学领域那些“不可能的问题”时激励了我。然而经过在机器学习领域多年的学习和工作,我发现自己对机器智能的进步已经不敏感了。2011年,当IBM的新型智能机器人Watson在美国老牌智力问答节目Jeopardy中战胜人类对手时,我印象深刻;然而在2016年,当谷歌的AlphaGo在围棋中又一次战胜人类时(从计算方面上讲应是更令人惊异的成就),我几乎没有什么特别的感觉。这项成就让人感觉有些平凡—— 甚至是预料之中的——魔法消失了。
此时,GAN登场了。
我最初接触GAN是在微软研究院的一个研究项目中。那是2017年,我和团队成员厌倦了一遍遍地听Despacito(当时非常流行的西班牙语歌曲),开始试着用频谱(声音数据的视觉编码)对音乐进行生成建模。显而易见,GAN的数据合成能力远远优于其他技术,其他算法产生的频谱图只不过是白噪声,而GAN的输出简直和我们平时听的音乐别无二致。看到机器在目标明确的领域取得成功是一回事(如智力问答和围棋),而目睹一种算法独立地创造出新颖而又真实的东西可真是另外一回事了!
希望当读者阅读本书时,不仅能感受到我对GAN的热情,更能由此重新发现AI的魔力。Jakub和我力求使这一前沿领域变得更加普及和全面。我们希望读者会发现本书有趣又丰富——而其中的幽默又恰到好处。
——Vladimir Bok