AI 얼굴 합성 기술「딥페이크」8년 진화사

AI로 위조한 이미지와 영상, 즉 딥페이크가 최근 고도화되며 큰 주목을 받았습니다. 본문에서는 이 역사를 깊이 탐구하고 중요한 이정표들을 돌아봅니다.

위 이미지 속 얼굴들의 공통점은 무엇일까요? 답은 하나도 없다는 것입니다. 전부 AI가 허구로 만들어낸 것입니다. 더 정확히 말하면 AI는 수백만 장의 픽셀 이미지로부터 학습한 후, 실제와 구분하기 어려운 결과물을 만들어냅니다.

생성적 적대 신경망(GAN) 기술

이러한 고품질 위조 이미지 뒤에는「생성적 적대 신경망」(GAN) 기술이 자리 잡고 있습니다. 이런 네트워크는 두 개의 AI 에이전트로 구성됩니다. 하나는 이미지를 위조하고, 다른 하나는 이미지가 진짜인지 탐지합니다. 탐지 AI가 위조를 발견하면 생성 AI는 계속 실력을 높여나갑니다.

이 방식으로 두 에이전트는 학습 과정에서 각각 더 강력한 능력을 갖추게 됩니다. 그 결과 생성 AI는 인간이 거의 구분할 수 없는 허구 이미지를 만들어낼 수 있게 됩니다.

GAN마다 성능은 천차만별

실제로 원본 GAN의 결과물과 현재 GAN 변형들의 결과물은 매우 다릅니다.

이언 굿펠로우와 GAN의 발전

최근 애플 AI 책임자로 임명된 이언 굿펠로우(Ian Goodfellow)는 트위터에 딥페이크 기술의 지난 몇 년간 발전 과정에 대한 글을 게재했습니다. 그는 GAN 구조를 최초로 발명한 인물로 널리 알려져 있습니다.

지난 4년 반 동안 GAN이 얼굴 생성 분야에서 이룬 발전을 살펴보겠습니다.

GAN 발전 약사

굿펠로우 링크 속 학술 논문을 살펴보면 새로운 AI 아키텍처, 대규모 데이터셋, 강력한 연산 능력이 함께 작용하며 딥페이크 기술이 빠르게 발전해온 과정을 명확히 알 수 있습니다.

2014년: 딥페이크의 탄생 원년

굿펠로우와 동료들은 GAN을 소개하는 세계 최초의 과학 논문을 발표했고, 이것이 GAN AI의 탄생을 의미합니다. GAN의 등장이 있었기에 오늘날 우리가 아는 딥페이크가 점차 탄생할 수 있었습니다.

이미 2014년 당시 GAN이 실제와 매우 흡사한 얼굴을 생성할 가능성이 있다는 징후가 나타났습니다.

2015년: GAN, 한 단계 더 발전하다

연구자들은 GAN과 이미지 인식에 최적화된 다층 합성곱 신경망(CNN)을 결합하기 시작했습니다. CNN은 대량의 데이터를 병렬 처리할 수 있고 그래픽 카드에서 매우 효율적으로 동작합니다. 이 조합이 기존의 단순한 GAN 에이전트 기반 네트워크를 대체하고 결과물의 신뢰도를 새로운 수준으로 끌어올렸습니다.

합성곱 신경망 구조가 복잡할수록 생성되는 위조 얼굴은 더욱 믿을 만해집니다. 하지만 2015년 시점에서는 사실적인 스타일의 이미지는 아직 등장하지 않았습니다.

2016년: 딥페이크 안경과 얼굴 처리

연구자들은 두 개의 GAN을 결합했습니다. 서로 다른 네트워크의 에이전트가 정보를 공유할 수 있게 된 것입니다. 이를 통해 병렬 학습이 가능해졌습니다.

각 에이전트는 학습 데이터를 약간씩 수정합니다. 예를 들어 하나의 에이전트는 선글라스를 쓴 얼굴과 쓰지 않은 얼굴을 각각 생성할 수 있습니다. 이때 생성된 얼굴은 더욱 믿을 만해졌지만 한눈에 봐도 가짜라는 느낌은 여전했습니다.

결합 GAN을 통해 위조 인물에도 선글라스나 장신구를 착용시킬 수 있게 되었습니다. 하지만 얼굴 자체에는 여전히 결함이 많았고 한눈에 봐도 가짜라는 문제가 남아있었습니다.

2017년: 엔비디아가 품질 비약을 이끌다, 첫 딥페이크 영상 등장

엔비디아 연구진은 기존 GAN의 주요 문제를 성공적으로 해결하며 품질 면에서 큰 비약을 이루었습니다.

이미지 해상도가 낮을수록 탐지 에이전트가 진위를 판단하기 어려워지므로 생성 에이전트는 흐릿한 이미지를 만들려는 경향이 있었습니다. 선명할수록 실수하기 쉽기 때문이죠. AI도 상당히 영리하게 군 것입니다.

엔비디아는 여기에 해법을 제시했습니다. 네트워크를 단계적으로 학습시키는 것입니다. 먼저 위조 AI가 저해상도 이미지를 생성하는 법을 배우고, 점차 해상도를 높여가는 방식입니다.

GAN에 단계적으로 고해상도 생성 능력을 도입했습니다.

이렇게 만들어진 GAN은 전례 없는 품질의 위조 초상화를 만들어내기 시작했습니다. 이미지에 여전히 결함은 있었지만 자세히 관찰하지 않으면 빠르게 구분하기 어려워졌습니다.

2017년에 생성된 얼굴은 기존 수준을 훨씬 뛰어넘었고 일부는 실제로 진위를 구분하기 어려울 정도였습니다.

엔비디아가 자사 GAN을 계속 개선하는 동안 레딧 사용자「deepfakes」가 이 기술을 대중화하기 시작했습니다. 2017년 가을,「deepfakes」라는 이름으로 최초의 음란 이미지가 등장했는데, 포르노 배우의 얼굴을 다른 유명 여성의 얼굴로 바꾼 내용이었습니다.

음란물 악용으로 인한 큰 문제

이후 딥페이크라는 용어가 AI 생성 이미지와 영상의 대명사가 되었습니다. 여기서「deep」는 신경망 내에 많은 중간층을 갖는다는 의미, 즉 딥러닝 방식으로 이미지를 생성한다는 뜻입니다.

딥페이크 음란 영상도 여전히 한눈에 봐도 가짜라는 문제가 있었지만 제작 비용이 매우 저렴했기 때문에 수많은 이용자가 레딧 등 온라인 플랫폼에 몰려들어 노골적이고 기이한 영상을 시청했습니다. 미국 유명 배우 스칼렛 요한슨은 AI 음란물의 단골 대상이 되었고, 이후 이 인터넷 현상을「암흑의 웜홀」이라고 부르게 되었습니다.

2018년: GAN 제어력 강화, 딥페이크 유튜브 채널 등장

이런 파장에 맞서 엔비디아 연구진은 다시 한번 GAN 제어 능력을 높였습니다. 초상화에서「검은 머리」「미소」같은 단일 이미지 특징을 개별적으로 조정할 수 있게 된 것입니다.

이 방식으로 학습 이미지의 특징을 AI 생성 이미지에 의도적으로 전달할 수 있게 되었습니다. 이 기법은「스타일 전이」라고 불리며 이후 수많은 AI 연구 프로젝트의 중요한 요소가 되었습니다.

스타일 전이는 이미지 AI를 제어하는 데 사용될 수 있습니다. 예를 들어 미소 짓는 초상화만 생성하는 식입니다.

물론 GAN 원리는 얼굴에만 적용되는 것은 아닙니다. AI 자체는 출력되는 픽셀 구조가 무엇인지 신경 쓰지 않고 해당 학습 데이터만 필요로 합니다. 2018년 말 AI 거주 딥마인드는 AI가 생성한 음식, 풍경, 동물 이미지를 선보였으며 화면 속 내용은 매우 사실적이고 인상적이었습니다.

Deep Video Portrait 소프트웨어는 GAN을 활용해 영상 처리 능력을 개선하려 시도했고, 이를 계기로 딥페이크를 다루는 최초의 유튜브 채널이 정식으로 출발했습니다. 이제는 위조 음란물을 넘어 정치인이나 헐리우드 스타의「마개조」버전이 잇달아 등장했습니다. 이 시점부터 AI가 고인 배우를 부활시킬 수 있는지에 대한 논의가 시작되었습니다.

그와 동시에 딥페이크 음란물은 쇠퇴하기 시작했습니다. 2018년 1분기에 Pornhub, Twitter, Gfycat, 레딧 등 플랫폼이 잇달아 이런 영상을 금지했습니다. 널리 쓰이던 딥페이크 애플리케이션 웹사이트 상당수도 함께 서비스를 종료했습니다.

FaceShifter(가장 오른쪽 이미지는 흐릿한 원본 이미지도 믿을 만한 위조 화면으로 처리할 수 있으며, 이전 가장 강력한 딥페이크 알고리즘 FSGAN(오른쪽에서 두 번째 이미지)보다 우수한 성능을 보였습니다.

뛰어난 딥페이크 성능, 디즈니도 사용하다

엔터테인먼트 거주 디즈니는 영화 제작용 딥페이크 기술 개발에 착수했고, 이를 통해 최초의 백만 화소급 딥페이크 툴이 탄생했습니다. 1024×1024 픽셀 이미지를 생성할 수 있는 이 특허는 DeepFaceLab 같은 비슷한 툴의 초라한 256×256 해상도를 압도적으로 능가합니다. 2021년 초 DeepFaceLab 2.0도 최대 448×448 픽셀까지만 지원했습니다.

장기적으로 디즈니의 딥페이크 기술은 기존 특수 효과 제작 방식을 대체하고, 몇 초 분량 화면을 렌더링하는 데 몇 달이 걸리는 기존 문제를 해소할 것으로 기대됩니다.

디즈니 팬들도 이 기술을 기다리고 있습니다. 최근 방영된 스타워즈 시리즈「만달로리안」은 아직 백만 화소 딥페이크 기능을 사용하지 않았지만, 유튜브에는 같은 장면을 딥페이크로 제작한 영상이 디즈니 CGI 아티스트보다 더 뛰어난 결과물을 보여주고 있습니다.

2021년: 딥페이크 순회, 라이브 방송 및 얼굴 임대

이 해의 뉴스는 톰 크루즈 딥페이크 영상으로 시작됩니다. 틱톡에서 최초로 공개된 이 영상은 너무나 사실적이어서 꼼꼼히 분석해야만 허점을 발견할 수 있었습니다. 뛰어난 효과로 바이럴 확산을 일으켰고 관련 채널「Deeptomcruise」는 순식간에 수십만 구독자를 모으며 톰 크루즈 팬들의 큰 주목을 받았습니다. 채널 제작자는 시각 효과 전문가 크리스 우메(Chris Umé)로, 각 영상 제작에 몇 주씩 걸렸다고 밝혔습니다.

그 후 얼마 지나지 않아 Wombo AI 앱이 네트워크를 정복했습니다. 몇 번의 클릭만으로 임의 인물 사진을 유명 노래를 부르는 짧은 영상으로 만들 수 있었습니다. Wombo AI는 실제 가수가 촬영한 영상에서 학습한 후 사진 속 인물 얼굴을 원본 가수의 표정과 매칭해 영상을 제작합니다.

WOMBO AI 진짜 대박이에요 ㅎㅎ

디즈니는 유튜브에서 유명한 딥페이크 크리에이터도 고용했고, 이에 따라 앞으로 자사 영화 및 시리즈에 더 많은 딥페이크 캐릭터가 등장할 것이라는 소문이 돌았습니다. 실제로 2021년 말 공개된「보바 펫의 책」시리즈가 이 추측을 확인시켜주었습니다.

소셜 미디어와 대중 매체 속 딥페이크

디즈니 외에도 브루스 윌리스 얼굴이 러시아 상업 광고에 등장했습니다. 한 스타트업이 그의 실제 얼굴 사용 권한을 구매한 후 딥페이크 기술을 활용해 마케팅 콘텐츠로 제작했습니다. 엔비디아는 2021년에 Alias-Free GAN을 출시했는데, StyleGAN2의 개선 버전으로 시점 변화 장면에서 더욱 일관된 생성 효과를 제공합니다. 몇 달 후 최적화 버전인 StyleGAN3도 빠르게 공개되었습니다.

DeepFaceLab 제작자는 2021년에 DeepFaceLive를 최초로 선보였습니다. 이 프로그램은 적절한 학습 또는 사전 학습된 AI 모델을 적용하면 실시간 영상에서 얼굴을 교환할 수 있습니다. 하지만 이런 실시간 얼굴 합성 기능을 사용하려면 최신 AAA 게임을 구동할 수 있는 고사양 그래픽 카드가 필요합니다.

2021년에는 소위 확산 모델도 이미지 품질 면에서 그간 독보적이었던 GAN을 처음으로 따라잡았습니다. 이 기술은 아직 딥페이크에 사용되지는 않았지만 2021년 말 출시된 OpenAI GLIDE 이미지 생성 툴의 기반이 되었습니다.

2022년: 3D GAN, DALL-E 2 그리고 젤렌스키 딥페이크

올해 1월에는 GAN의 인상적인 개선 사례 두 가지가 잇달아 등장했습니다. 텔아비브 대학교 AI 연구진은 StyleGAN2의 변형 버전을 선보였는데, 별도의 추가 학습 없이 짧은 영상 시퀀스에서 얼굴을 쉽게 조작할 수 있었습니다. 예를 들어 미소 짓게 하거나 캐릭터를 날씬하게 만드는 등입니다.

엔비디아와 스탠포드 대학교 연구진은 효율적인 기하 인식 3D 생성적 적대 신경망(EG3D)을 구현하는 방법을 선보였습니다. 이 방식을 이용하면 AI가 다양한 시점에서 일치하는 3D 형태의 인물(또는 고양이) 이미지를 생성할 수 있습니다.

이와 마찬가지로 3D GAN은 실제 이미지 한 장으로도 3D 모델을 복원할 수 있습니다. 따라서 EG3D가 생성한 위조 이미지는 다양한 관점에서도 인물이 일관성을 유지하므로 더욱 사실적으로 보입니다.

2022년 스탠포드 인터넷 천문대 연구진은 2주간의 연구에서 링크드인에서 1,000개 이상의 의심스러운 위조 프로필을 발견했습니다. 70개 이상의 기업이 이 위조 프로필을 실제 인물로 인증했고 대부분 유망한 잠재 고객으로 간주했습니다. 일단 연락이 성공하면 실제 인물이 즉시 개입해 위조 인물 명의로 계속 소통했습니다.

최근 전 세계적인 주목을 받은 우크라이나-러시아 분쟁에서도 역사적인 딥페이크 사건이 발생했습니다.

영상에서는 위조된 우크라이나 대통령 젤렌스키가 국민에게 무기를 내려놓을 것을 촉구했습니다. 영상 해상도가 낮고 위조 품질이 좋지 않았기 때문에 별다른 영향은 미치지 못했습니다. 현재까지 AI 생성 영상이라는 확실한 증거는 없지만 많은 매체와 전문가들은 기본적으로 딥페이크 영상이라고 판단하고 있습니다.

2022년 4월 OpenAI는 텍스트 설명으로 이미지를 생성하는 AI 시스템인 DALL-E 2를 선보였습니다. 정식 버전은 2022년 여름에 출시될 예정이었습니다.

DALL-E 2와 기반 확산 모델은 딥페이크에 사용되지 않았으며 OpenAI는 이 기술로 얼굴을 생성하는 것을 명시적으로 금지했습니다. 하지만 이 기술은 앞으로 합성 이미지의 최종 품질을 더욱 향상시킬 것입니다.

결론

GAN 기술 발명자 굿펠로우가 2014년 처음으로 자신의 연구 결과를 선보였을 때, 자신의 성과가 AI 위조 이미지의 급속한 발전을 이끌 것이라고는 상상하지 못했을 것입니다. 오늘날 그는 직접 경고합니다. 앞으로 사람들은 인터넷에 퍼지는 이미지와 영상을 당연히 진짜라고 믿을 수 없게 될 것이라고.

결국 아무리 정교한 안티 딥페이크 알고리즘도 최신 딥페이크 결과물을 식별할 수 없게 될 수 있으며, 이는 필연적으로 소셜, 엔터테인먼트 등 각 분야에 혁신적인 변화를 가져올 것입니다. 딥페이크 전문가 리 하오(Hao Li)는 이런 추측이 전혀 지나친 걱정이 아니라고 생각합니다. 이미지는 결국 적절한 색상을 더한 픽셀에 불과하기 때문입니다. AI가 완벽한 배열 방식을 찾는 것은 시간문제일 뿐입니다.

또한 딥페이크가 유튜브, Reface, Impressions 등 플랫폼에서 빠르게 확산함에 따라 위조 이미지도 우리 일상에 빠르게 스며들고 있습니다. 예전 인류는 영상과 사진이 없던 암흑 시대에 정보를 얻고 의견을 형성하는 방법을 터득했지만, 새로운 기술이 빛으로 통하는 이 문을 닫고 있는 것처럼 보입니다. 굿펠로우는 이렇게 탄식했습니다.「이런 관점에서 보면 AI는 우리 세대가 세상을 바라보는 눈을『멀게』만들고 있는 것일지도 모릅니다.」

AI 얼굴 합성 기술「딥페이크」8년 진화사