YOUTUBE URL: https://youtu.be/vnGkR5JWym8
중국 AI 비디오 생성기의 혁신과 바이트댄스의 웨어러블 야망: 미래 콘텐츠 제작의 판도를 바꿀 기술들
최근 중국에서 ‘지구상에서 가장 강력한 AI 비디오 생성기’라고 불리는 기술이 등장하며 콘텐츠 제작 시장에 큰 파장을 일으키고 있습니다. 2천 2백만 명이 넘는 사용자를 확보한 이 기술은 비디오 제작 방식을 완전히 새롭게 정의하고 있습니다. 뿐만 아니라 바이트댄스는 메타에 대항하기 위해 AI 스마트 글래스 개발에 비밀리에 착수했으며, 립싱크 기술은 너무나 현실적이어서 섬뜩할 정도입니다.
우리가 영상을 촬영하고, 착용하고, 심지어 가짜로 만들어내는 모든 방식이 AI에 의해 재정의되고 있습니다. 지금부터 중국 AI 비디오 생성기의 혁신과 바이트댄스의 웨어러블 야망에 대해 자세히 알아보겠습니다.
콰이쇼의 Cling AI 2: 세계에서 가장 강력한 AI 비디오 생성기?
콰이쇼(Kuaishou)는 중국 최대의 숏폼 비디오 플랫폼 중 하나로, 중국 내에서 바이트댄스의 틱톡(TikTok)의 주요 경쟁자로 알려져 있습니다. 콰이쇼는 최근 자체 AI 기술 개발에 박차를 가하며, 새롭게 업그레이드된 비디오 생성 모델인 Cling AI 2를 선보였습니다.
콰이쇼는 Cling AI 2를 ‘세계에서 가장 강력한’ 모델이라고 주장하며 자신감을 드러내고 있습니다. 콰이쇼의 수석 부사장 가이 쿤(Guy Kun)은 Cling AI가 이미 전 세계적으로 2천 2백만 명 이상의 사용자를 확보했으며, 이들이 총 1억 6천 8백만 개 이상의 비디오 클립과 3억 4천 4백만 장의 이미지를 생성했다고 발표했습니다. 이러한 수치는 콰이쇼의 주장을 뒷받침하는 강력한 증거입니다.
Cling AI 2는 이전 버전에 비해 명령어 이해도, 프롬프트 이해도, 이미지 품질, 캐릭터 움직임의 부드러움, 전반적인 현실감 등 모든 면에서 개선되었습니다. 특히 짧은 비디오 콘텐츠의 핵심인 ‘펀치력’이 강화되어 사용자들의 시선을 사로잡는 데 효과적입니다.
타사 서비스인 Artificial Analysis에 따르면, Cling AI의 이전 버전은 이미 이미지-비디오 성능에서 최고 순위를 차지했으며, 텍스트-비디오 작업에서는 구글 딥마인드의 V2에 이어 2위를 기록했습니다. 이러한 강력한 기반을 바탕으로 Cling AI 2는 콰이쇼를 더욱 앞서나가게 할 것으로 기대됩니다.
치열한 경쟁: 바이트댄스, 알리바바, 텐센트 그리고 스타트업들
중국 AI 시장은 콰이쇼 외에도 바이트댄스, 알리바바, 텐센트 등 거대 기업들과 제푸 AI(Zepu AI), 셩수 테크(Shengshu Tech)와 같은 전문 스타트업들이 치열한 경쟁을 벌이고 있습니다. 각 기업들은 더 새롭고 화려한 AI 모델과 기능을 만들기 위해 모든 노력을 기울이고 있습니다.
이러한 경쟁 환경은 모든 기업이 끊임없이 혁신하도록 압력을 가하며, 그렇지 않으면 경쟁자에게 뒤쳐질 위험이 있습니다. 예를 들어, 바이트댄스는 자체 제품을 제공하고 있으며, 알리바바도 연구소에서 무언가를 개발 중입니다. 텐센트는 AI 연구에 투자를 늘리고 있으며, 제푸 AI와 같은 유니콘 기업들은 성공적인 결과를 바탕으로 올해 IPO를 준비하고 있습니다.
콰이쇼는 최근 NextG 프로젝트를 발표하여 아티스트들에게 자금, 기술 및 홍보 지원을 제공할 계획입니다. 이는 크리에이터들이 Cling AI 2 또는 다른 새로운 기술을 활용하여 영화 품질의 콘텐츠를 제작할 수 있도록 돕기 위한 것입니다.
AI 비디오 도구의 비즈니스 모델: 프리미엄 전략
AI 비디오 도구의 비즈니스 모델은 흥미로운 방식으로 진화하고 있습니다. 단순히 모든 기능을 무료로 제공하는 대신, 많은 기업들이 ‘프리미엄’ 접근 방식을 채택하고 있습니다. 기본적인 기능은 무료로 제공되지만, 더 높은 해상도, 빠른 처리 속도 또는 고급 편집 도구를 사용하려면 프리미엄 구독료를 지불해야 합니다.
이러한 모델은 중국 챗봇에서 많이 사용되었으며, 비디오 도구에도 적용될 수 있습니다. 사람들은 무료 기능을 좋아하지만, 전문 크리에이터는 고급 도구를 원하며, 혼잡한 소셜 플랫폼에서 돋보이는 데 도움이 된다면 기꺼이 비용을 지불할 것입니다. 이는 기업과 사용자 모두에게 윈-윈(win-win) 전략이 될 수 있습니다.
바이트댄스의 AI 스마트 글래스: 메타에 도전하는 웨어러블 야망
콰이쇼가 Cling AI 2로 주목받는 동안, 바이트댄스는 자체 AI 스마트 글래스 개발에 힘쓰고 있는 것으로 알려졌습니다. 바이트댄스는 메타의 레이밴드 스마트 글래스와 같은 제품에 대항하기 위해 웨어러블 시장에 더 깊이 진출하려는 것으로 보입니다.
소식통에 따르면, 바이트댄스는 배터리 수명을 크게 저하시키지 않으면서 괜찮은 품질의 비디오 및 이미지 캡처를 구현할 수 있는 방법을 찾기 위해 공급업체와 논의 중입니다. 고급 AI 처리 또는 고품질 비디오 녹화를 시작하면 장치가 더 많은 전력을 요구하기 때문에 배터리 문제는 웨어러블 기기의 주요 과제 중 하나입니다.
바이트댄스는 작년 내에 이 프로젝트를 시작했으며, 이미 사양, 기능 및 가격 책정에 적극적으로 참여하고 있습니다. 바이트댄스는 퀄컴과의 협력을 통해 차세대 VR 헤드셋을 개발하고 있으며, 이는 숏폼 비디오 이상의 것을 추구하겠다는 의지를 보여주는 것으로 해석됩니다.
2021년 바이트댄스가 Pico를 인수한 것은 VR 제조 역량을 강화하는 데 도움이 되었습니다. 바이트댄스는 VR 헤드셋부터 잠재적인 AI 글래스까지, 웨어러블 및 확장 현실 시장에서 메타에 도전하기 위한 전체 생태계를 구축하고 있는 것으로 보입니다. 만약 바이트댄스가 디자인 또는 배터리 성능 면에서 눈에 띄는 제품을 출시한다면, 메타의 레이밴드 스마트 글래스가 아직 주류를 차지하지 못하고 있는 상황에서 큰 반향을 일으킬 수 있을 것입니다.
Omnihuman 1: 바이트댄스의 현실적인 립싱크 기술
바이트댄스의 또 다른 프로젝트인 Omnihuman 1은 드레이나(Draina) 플랫폼에서 사용할 수 있는 고급 립싱크 도구입니다. 이미 립싱크 도구가 많이 존재하지만, Omnihuman 1의 가장 큰 장점은 뛰어난 현실감입니다.
단 하나의 참조 이미지(예: 사진 한 장)를 입력하면 AI가 오디오에 맞춰 입술 움직임을 매우 정확하게 생성하는 비디오를 만들 수 있습니다. 텍스트 음성 변환 또는 사용자 정의 오디오 업로드도 가능합니다. 이는 실제 영상을 많이 촬영하지 않고도 코미디 스케치부터 진지한 내레이션까지 다양한 콘텐츠를 제작하려는 크리에이터에게 유용합니다.
Omnihuman 1은 클로즈업 장면과 노래 장면에서 특히 뛰어난 성능을 보여줍니다. 다른 립싱크 도구는 카메라가 입에 가까워지거나 복잡한 음악 공연을 처리할 때 실패할 수 있지만, 바이트댄스에 따르면 Omnihuman 1은 이러한 유형의 콘텐츠에서 새로운 업계 표준을 제시합니다.
완벽하지는 않지만 정적인 배경에서 가장 잘 작동합니다. 따라서 역동적인 장면 변화나 여러 캐릭터가 움직이는 장면에는 적합하지 않을 수 있습니다. 그러나 말하는 머리, 노래 공연 또는 클로즈업 시나리오에는 매우 효과적입니다.
경쟁 심화: Hedra, Clink AI 그리고 미래의 AI 비디오 제작
립싱크 AI 시장이 더욱 경쟁적으로 변하면서 Hedra 및 Clink AI와 같은 다른 주요 업체들도 자체 제품을 선보이고 있습니다. Hedra는 장면 프롬프팅과 역동적인 움직임에 강점을 가지고 있지만, Omnihuman 1은 현재 이 분야에서 더 나은 성능을 보입니다. 반면에 Hedra는 측면 프로필과 노래를 Omnihuman 1만큼 잘 처리하지 못합니다.
Clink AI는 역동적인 배경을 생성하는 데 중점을 두고 있지만, 립싱크 정확도는 다소 떨어집니다. 따라서 화려한 배경이나 멋진 전환 효과가 필요하다면 Clink AI가 좋은 선택일 수 있지만, 입술과 오디오의 싱크로율은 다소 희생해야 할 수 있습니다.
결론적으로, AI 도구는 비디오 생성 및 립싱크 분야에서 놀라운 발전을 이루고 있지만, 여러 캐릭터가 움직이거나 제스처를 취하는 장면을 애니메이션으로 만드는 데 어려움을 겪고 있습니다. 바이트댄스의 Omnihuman 1은 클로즈업 및 노래 장면에서 뛰어나지만, 사람들이 너무 많이 움직이는 경우에는 어려움을 겪습니다.
콰이쇼, OpenAI, 구글 딥마인드, 알리바바, 텐센트 및 여러 스타트업들이 서로를 능가하기 위해 경쟁하고 있습니다. 바이트댄스는 메타의 레이밴드에 대항하기 위해 AI 스마트 글래스를 개발하고 있으며, 콰이쇼의 Cling AI 2는 수백만 명의 사용자를 확보하며 세계에서 가장 강력한 모델이라고 자랑하고 있습니다. 텐센트, 백 놀왈, AI 유니콘 제푸와 같은 소규모 기업들도 화제를 불러일으키고 있습니다.
마치 인터넷 초창기와 같이 모든 것이 빠르게 진화하고 있습니다. 그렇다면 우리가 보는 대부분의 비디오가 완전히 AI로 생성되거나, 휴대폰 대신 스마트 글래스를 착용하는 시대가 얼마나 남았을까요?