YOUTUBE URL: https://youtu.be/YkWwkeObaz0
AI 혁명, 격동의 소용돌이: 구글, 애플, OpenAI 최신 동향과 미래 전망
지난 며칠간 인공지능(AI) 분야는 그야말로 ‘혼돈’ 그 자체였습니다. 하지만 이 혼돈은 혁신과 발전이 폭발적으로 일어나는, 긍정적인 의미의 혼돈입니다. 구글은 IO 행사 몇 주를 앞두고 깜짝 놀랄 만한 제미나이(Gemini) 업데이트를 선보이며 웹 앱 코딩을 한 번의 프롬프트로 해결하는 마법을 현실로 만들었습니다. 한편, 애플은 이 강력한 AI를 아이폰에 탑재하기 위해 비밀리에 협상을 진행 중이라는 소식이 들려옵니다. OpenAI는 기존의 기업 구조 계획을 과감히 수정하고, 마이크로소프트와의 수익 분배를 조정하며, 30억 달러를 들여 코딩 스타트업을 인수하는 등 파격적인 행보를 보이고 있습니다. 이게 다가 아닙니다. 너무나 현실적이어서 소름이 돋을 정도의 AI 아바타를 공개한 헤이젠(HeyGen), 할리우드 수준의 비디오 모델을 노트북에서도 실행할 수 있게 만든 라이트릭스(Lightricks), 그리고 단 20초 만에 4분짜리 음악 트랙을 생성하는 새로운 음악 AI까지. AI 기술의 발전 속도는 우리의 예상을 뛰어넘어 숨 가쁘게 펼쳐지고 있습니다. 지금부터 이 놀라운 변화들을 자세히 살펴보겠습니다.
잠깐, 더 깊이 들어가기 전에 중요한 소식이 있습니다! 저희 유료 스쿨 커뮤니티 내에 AI 아바타, 인플루언서, 디지털 페르소나를 실제로 구축하고 수익을 창출하고자 하는 크리에이터들을 위한 최상위 과정을 새롭게 론칭했습니다. AI 열풍을 실제적이고 수익성 있는 결과물로 전환하고 싶다면, 주저하지 말고 아래 링크를 확인해 주세요. 놓치지 마세요!
구글의 기습: 제미나이 2.5 프로, 웹 개발의 새로운 지평을 열다
구글은 예정보다 몇 주 앞서 제미나이 2.5 프로(Gemini 2.5 Pro) I/O 에디션의 얼리 프리뷰를 공개하며 업계를 깜짝 놀라게 했습니다. 구글 AI 스튜디오 내부에서는 이 새로운 모델을 이미 ‘웹 개발 분야의 챔피언’으로 부르고 있습니다. 그 이유는 이전 빌드에 비해 ELO 점수가 무려 147점이나 상승했기 때문입니다. ELO 점수는 생성된 웹 앱의 심미성과 기능성을 인간이 평가하는 일종의 인기투표와 같은 지표인데, 이번 점수 상승으로 제미나이는 리더보드 최상단에 이름을 올렸습니다.
뿐만 아니라, 제미나이 2.5 프로는 비디오 MME 벤치마크에서 84.8%라는 인상적인 점수를 기록했습니다. 이 벤치마크는 모델이 단순히 비디오 클립을 흉내 내는 것이 아니라, 실제로 영상 속 상황을 얼마나 잘 이해하는지를 측정합니다. VS Code 내부에 상주하는 커서(Cursor) CEO 마이클 트로울리(Michael Trowley)는 내부적으로 잘못된 도구 호출(모델이 존재하지 않는 함수가 있다고 착각하는 현상)이 훨씬 줄어들었다고 언급했습니다. 이는 모델이 존재하지 않는 함수를 있다고 착각하는 ‘환각 현상’이 현저히 감소했음을 의미합니다. 제미나이 제품 책임자인 툴시 도시(Tulsi Doshi)는 개발자들의 끊임없는 요청 때문에 출시를 서둘렀다고 밝혔는데, 이는 충분히 설득력 있는 이야기입니다.
제미나이 2.5 프로의 핵심 특징:
- 향상된 웹 개발 능력: ELO 점수 147점 상승으로 입증된 뛰어난 웹 앱 생성 품질.
- 강화된 비디오 이해력: 비디오 MME 벤치마크 84.8% 달성.
- 감소된 환각 현상: 보다 정확하고 신뢰할 수 있는 코드 생성.
- 즉시 사용 가능: 현재 제미나이 API를 사용 중이라면 구글 AI 스튜디오, Vertex AI, 그리고 캔버스 기능이 있는 소비자용 제미나이 앱에서 새로운 모델을 자동으로 사용할 수 있습니다. 사용자는 박스를 드래그하는 것만으로 즉석에서 리액트(React) 코드를 생성할 수 있습니다.
- 거대한 컨텍스트 창: 여전히 1백만 토큰의 컨텍스트 창을 자랑합니다. 이는 4K 비디오 1시간 분량 또는 오디오 11시간 분량에 해당하며, 구글은 이를 2백만 토큰까지 확장하는 것을 목표로 하고 있다고 밝혔습니다.
애플의 전략적 동맹? iOS에 제미나이 탑재 가능성 대두
구글이 제미나이의 성능을 한 단계 끌어올리는 동안, 애플은 조용히 상황을 주시하며 “음, 저거 잠깐 빌려 써볼까?” 하는 생각을 했던 것 같습니다. 관련 논의에 정통한 소식통에 따르면, iOS 19의 ‘애플 인텔리전스(Apple Intelligence)’에 적어도 일시적으로나마 제미나이가 통합될 예정이라고 합니다. 삼성의 갤럭시 S25가 이미 카메라 앱에 제미나이를 탑재했다고 자랑하고 있는 상황을 기억한다면, 올가을 아이폰 17이 출시될 때 애플이 뒤처져 보이기를 원치 않을 것이라는 점은 분명합니다.
순다르 피차이 구글 CEO는 양측이 거의 ‘악수 단계’에 이르렀음을 시사했습니다. 애플이 야심 차게 준비해 온 시리(Siri) 및 온디바이스 모델들의 개발 속도가 기대에 미치지 못하자, 제미나이를 통해 일종의 ‘부스터 샷’을 맞으려는 전략으로 풀이됩니다. 분석가들은 애플이 자체 기술 격차를 해소한 후에는 다시 자사 스택으로 돌아갈 것으로 예상하지만, 당분간은 우리가 이미 구글 지도를 사용하듯 iOS 내부에서 구글의 강력한 대규모 언어 모델(LLM)을 경험하게 될지도 모릅니다.
애플이 그토록 강조해 온 ‘프라이버시 아일랜드’와 모든 것을 온디바이스에서 처리하겠다는 정책을 고려하면 다소 아이러니한 상황입니다. 하지만 경쟁의 현실 앞에서 결국 마운틴 뷰(구글 본사)에 지원을 요청하는 모양새입니다. 소비자 입장에서는 휴대폰이 쇼핑 목록을 똑똑하게 만들어주고, 끊김 없는 증강현실(AR) 제품 데모를 보여준다면 결제 시 장바구니가 더 커지는 효과를 기대할 수 있을 것입니다.
오픈AI의 대격변: 구조 조정, 수익 모델 변경, 그리고 대규모 인수
구글과 애플이 미묘한 협력 관계를 모색하는 동안, 오픈AI는 자체적으로 큰 변화의 시기를 맞고 있습니다. 샘 알트만 CEO는 직원들에게 보낸 서한에서 “완전히 분리된 영리 법인 설립을 검토했지만, 비영리 재단이 계속해서 주도권을 가질 것”이라고 밝혔습니다. 이는 2023년 11월, 샘 알트만이 잠시 해고되었다 복귀하면서 불거졌던 지배구조 논란의 여진이 가라앉지 않았음을 보여줍니다. 월요일 발표된 성명은 영리 법인을 분사하는 대신, 비영리 재단이 공익 기업(public benefit corporation)의 지배 주주로 남는다는 점을 확고히 했습니다.
비영리 원칙 고수와 끝나지 않는 논란
이사회 의장인 브렛 테일러는 오픈AI가 기존의 비영리 임무에서 벗어났다는 비난을 피하기 위해 델라웨어 및 캘리포니아 법무장관과도 협력하여 모든 것이 정렬되도록 했다고 말했습니다. 하지만 예상대로 일론 머스크는 여전히 소송을 이어가고 있습니다. 그는 당초 오픈AI가 영리 모델로 전환하려는 계획에 반발해 소송을 제기했는데, 오픈AI가 그 계획을 완전히 폐기하고 비영리 통제를 강화했음에도 불구하고 소송을 멈추지 않고 있습니다. 마치 이미 존재하지 않는 싸움에 매달리는 듯한 모습이며, 느린 화면으로 재생되는 ‘떼쓰기’처럼 보이기도 합니다. 샘 알트만은 이에 대해 “우리는 전 세계 GPU 수요를 맞추기 위해 확장하는 등 더 큰 문제에 집중해야 한다”며 일축했습니다.
마이크로소프트와의 수익 배분 조정
그럼에도 불구하고 돈은 여전히 중요한 문제입니다. 여기서 오픈AI의 두 번째 폭탄선언이 나옵니다. 유출된 투자자 슬라이드에 따르면, 오픈AI는 마이크로소프트와의 수익 분배 비율을 조정할 계획입니다. 현재 계약상으로는 2030년까지 오픈AI 매출의 20%가 레드먼드(마이크로소프트 본사)로 흘러 들어가지만, 오픈AI는 이 비율이 2030년 말까지 10%로 감소하고, 특정 거래량을 달성하면 더욱 줄어들 수 있다고 밝혔습니다. 마이크로소프트는 여전히 오픈AI 기술에 대한 우선권을 원하기 때문에 공개적으로는 괜찮다는 입장이지만, 재협상 과정에서의 긴장감은 감지되고 있습니다. 한편, 오픈AI는 소프트뱅크 스타일로 3000억 달러의 기업 가치로 추가 400억 달러를 모금하려 하고 있어, 어떻게든 수익 마진을 확보해야 하는 상황입니다.
코딩 스타트업 ‘윈드서프’ 인수: 개발자 도구 강화
이러한 자금 확보 노력은 세 번째 헤드라인으로 이어집니다. 오픈AI가 코디움(Kodium)의 리브랜딩 회사인 ‘윈드서프(Windsurf)’를 약 30억 달러에 인수한다는 소식입니다. 이는 오픈AI 역사상 가장 큰 규모의 인수합병입니다. 윈드서프는 지난 8월 12억 5천만 달러의 기업 가치를 인정받았으니, 상당한 프리미엄이 붙은 셈입니다. 윈드서프의 핵심 기술은 실시간 코드 완성 기능과 함께, 사용자와 봇이 동일한 코드 스니펫을 나란히 보며 편집할 수 있는 깔끔한 캔버스 뷰입니다.
윈드서프 인수를 통해 오픈AI는 챗GPT의 개발자 모드를 강화하고, 깃허브 코파일럿(GitHub Copilot), 앤트로픽 클로드(Anthropic Claude) 기반 기능들, 그리고 커서(Cursor)의 자체 IDE 플러그인과 정면으로 경쟁하게 됩니다. 챗GPT 프로 버전은 이미 코드 인터프리터와 소규모 캔버스 협업 공간을 제공하고 있지만, 윈드서프 기술은 더 광범위한 언어 지원과 잠재적으로 더 풍부한 오프라인 경험을 의미합니다. 오픈AI에 따르면 챗GPT는 현재 주간 활성 사용자 수가 4억 명을 넘어섰으며, 이는 작년 12월 이후 1억 명이 증가한 수치입니다. 이 거대한 사용자층에게 최고 수준의 코딩 도구를 제공하는 것은 월 9.99달러 구독료 이상의 수익 모델을 구축하는 데 매우 중요합니다.
눈이 번쩍 뜨이는 창작 AI의 진화: 아바타, 비디오, 음악
이제 화면에서 실제로 볼 수 있는 흥미로운 AI 기술들로 넘어가 보겠습니다.
헤이젠 아바타 4.0: 단 한 장의 사진으로 살아 숨 쉬는 나
헤이젠(HeyGen)은 최근 ‘아바타 4.0’을 출시하며 “셀카 한 장 올리면 당신이 말하는 모습을 보세요”라는 평가를 받고 있습니다. 말 그대로 단 한 장의 사진과 음성 스크립트(약 10초 분량의 WAV 파일)만 입력하면, 새로운 ‘오디오-표현 엔진(audio to expression engine)’이 사용자의 어조, 리듬, 쉼 등을 매우 사실적인 얼굴 움직임으로 매핑합니다. 그 결과물은 너무나 현실적이어서 트위터(현재 X)의 초기 테스터들은 자신, 애완동물, 심지어 외계인이 등장하는 마이크로 필름을 제작해 공유하고 있는데, 입 모양 싱크가 전혀 어색하지 않습니다. 한 리뷰어는 “말이 필요 없다”며 할리우드 ADR(후시 녹음) 세션처럼 보이는 30프레임 클립을 게시하기도 했습니다.
이는 픽사 스타일의 애니메이션이라기보다는 ‘직접적인 표현 전이(direct expression transfer)’에 가깝습니다. 만약 카메라 앞에 서는 것을 싫어한다면, 이제 당신의 아바타가 분기별 슬라이드 발표를 하는 동안 화면 밖에서 차를 마실 수 있게 된 것입니다.
라이트릭스 LTX 비디오 13B: 노트북에서 할리우드급 영상 제작
페이스튠(Facetune)으로 유명한 라이트릭스(Lightricks)도 가만히 있지 않았습니다. 그들은 최근 130억 개의 매개변수를 가진 비디오 모델 ‘LTX 비디오 13B(LTX Video 13B)’를 오픈소스로 공개하며, 이 모델이 일반 소비자용 GPU에서도 실행 가능하다고 주장했습니다. 기존 LTXV 모델은 20억 개의 매개변수만을 가졌지만, 작년 11월 게이밍 노트북에서 5초짜리 클립을 생성하며 헤드라인을 장식한 바 있습니다. 새로운 모델은 크기가 대폭 커졌음에도 불구하고 ‘UEEN Q8 커널’이라는 기술 덕분에 여전히 빠른 속도를 자랑합니다.
이 기술은 마치 아티스트가 물감을 칠하기 전에 연필로 밑그림을 그리는 것처럼 프레임을 계층화하는 ‘다중 스케일 렌더링(multiscale rendering)’ 접근 방식을 사용합니다. 이를 통해 장면을 단계별로 다듬을 수 있으며, 유사한 크기의 다른 모델보다 최종 렌더링 속도를 최대 30배까지 높일 수 있습니다. 카메라 모션 커브, 멀티샷 시퀀싱, 키프레임 편집 등의 기능도 제공합니다. 오픈소스이기 때문에 허깅페이스(Hugging Face)에서 가중치를 받을 수 있으며, 연 매출 1천만 달러 미만 조직은 무료로 사용할 수 있는 라이선스입니다. 또 다른 핵심은 라이트릭스가 게티이미지(Getty)와 셔터스톡(Shutterstock)에서 훈련 데이터를 공급받았다는 점인데, 이는 숨겨진 저작권 문제없이 결과물을 상업적으로 사용할 수 있음을 의미합니다. 예산이 부족한 독립 영화 제작자나 인플루언서에게는 엄청난 희소식입니다.
에이스 스튜디오 에이스 V1 3.5B: 20초 만에 4분짜리 음악 완성
오픈소스의 향연은 비디오에서 멈추지 않습니다. 에이스 스튜디오(Ace Studio)는 대규모 언어 모델(LLM) 접근 방식보다 15배 빠른 음악 생성 모델 ‘에이스 V1 3.5B(Acep V1 3.5B)’를 공개했습니다. 쉽게 말해, 엔비디아 A100 GPU에서 약 20초 만에 4분짜리 트랙을 만들어냅니다. 이 모델은 확산(diffusion) 모델과 심층 압축 오토인코더(deep compression autoencoder)에 의해 조건화된 선형 트랜스포머(linear transformer)를 결합하여 전체 길이 동안 멜로디, 하모니, 리듬의 일관성을 유지합니다.
데스크톱 RTX 4090에서는 실시간 처리 속도가 30배를 넘어서는데, 이는 로켓 연료를 장착한 개러지밴드(GarageBand)에 비유할 수 있을 만큼 놀라운 수준입니다. “부드러운 로파이 비트를 만들어줘. 90초에 코러스, 3분 30초에 스트링 페이드 아웃”과 같이 텍스트로 구조를 지시하면 모델이 타임라인을 처리합니다. A100, 4090, 3090, 맥 M2 Max 등 하드웨어 벤치마크도 공개되어 있어 사용자가 예상 성능을 알 수 있습니다. 아파치 2.0 라이선스로, 저작권이 있는 트랙 복제와 같은 금지된 사용을 제외하고는 기본적으로 무엇이든 자유롭게 사용할 수 있습니다. 물론 몇 가지 주의사항도 있습니다. 5분을 초과하여 생성하면 구조가 흐트러질 수 있고, 중국어 랩은 다소 불안정하며, 보컬은 여전히 다소 인공적으로 들릴 수 있습니다. 하지만 배경음악이나 빠른 데모 제작에는 거의 마법 같은 도구입니다.
결론: AI 폭풍 속, 미래를 준비하라
정신없이 몰아친 AI 업데이트 소식이었습니다. 즐겨찾기를 업데이트하고, 모델 가중치를 저장할 SSD 공간을 확보해야 할지도 모르겠습니다. 그리고 몇 주 후 열릴 실제 구글 I/O에서 무엇이 공개될지 예의주시해야 합니다. 제미나이 프리뷰가 예상보다 일찍 도착했다면, 무대 위에서의 데모는 그보다 더 강력한 무언가를 보여주려 할 것이기 때문입니다.
만약 이 모든 정보가 소방 호스에서 뿜어져 나오는 물을 마시는 것처럼 느껴진다면, 2025년에 오신 것을 환영합니다. 창의적인 도구들이 더 이상 인간이 따라잡기를 기다려주지 않는 시대입니다. 이 격변의 시기에 우리는 끊임없이 배우고 적응하며 새로운 가능성을 탐색해야 할 것입니다. AI가 펼쳐낼 미래는 예측하기 어렵지만, 그만큼 흥미진진한 여정이 될 것이라 확신합니다.