YOUTUBE URL: https://youtu.be/oaGA5gFyo5U
바이두의 가격 파괴 vs 엔비디아의 수학 정복: AI 거인들의 격돌
인공지능(AI) 분야의 경쟁이 그 어느 때보다 뜨겁습니다. 글로벌 빅테크 기업들은 연일 새로운 모델과 기술을 발표하며 기술 패권을 차지하기 위해 치열한 경쟁을 벌이고 있습니다. 최근 중국의 바이두(Baidu)와 미국의 엔비디아(Nvidia)가 각기 다른 전략으로 AI 시장에 큰 파장을 일으키고 있어 주목됩니다. 바이두는 파격적인 가격 정책과 멀티모달 성능을 앞세워 시장 확장에 나선 반면, 엔비디아는 기존 거대 언어 모델(LLM)의 약점이었던 복잡한 수학 문제 해결 능력에 집중하며 기술적 깊이를 더하고 있습니다. 이 두 거인의 행보를 자세히 살펴보겠습니다.
바이두의 야심: 어니 4.5 터보 & X1 터보 공개
바이두는 지난 4월 25일, 자사의 대표적인 AI 모델 시리즈인 어니(Ernie)의 최신 버전, ‘어니 4.5 터보(Ernie 4.5 Turbo)’와 ‘어니 X1 터보(Ernie X1 Turbo)’를 공식 출시하며 중국 AI 시장의 판도를 뒤흔들 준비를 마쳤습니다. 이는 단순한 모델 업데이트를 넘어, 가격과 성능 두 마리 토끼를 모두 잡아 시장 지배력을 강화하려는 바이두의 전략적인 움직임입니다.
파격적인 가격 정책: 중국 시장 장악 노린다
이번 어니 터보 모델들의 가장 눈에 띄는 특징은 바로 ‘가격’입니다. 바이두는 경쟁 모델 대비 현저히 낮은 가격을 책정하며 사용자 확보에 공격적으로 나서고 있습니다.
- 어니 4.5 터보: 1백만 입력 토큰당 단 11센트, 출력 토큰당 44센트. 이는 이전까지 강력한 경쟁자로 여겨졌던 딥시크(DeepSeek) V3 모델 가격의 약 40% 수준에 불과합니다.
- 어니 X1 터보: 입력 토큰당 14센트, 출력 토큰당 55센트로 약간 더 높지만, 여전히 딥시크 R1 모델보다 약 25% 저렴합니다.
이러한 파격적인 가격 정책은 더 많은 개발자와 기업들이 바이두의 AI 모델을 채택하도록 유도하여 시장 점유율을 빠르게 확대하려는 전략으로 풀이됩니다. 바이두의 AI 인프라는 이미 하루 15억 건 이상의 API 호출을 처리하고 있으며, 이는 사용량이 7.5배 증가했음을 의미합니다. 저렴한 가격은 이러한 성장세를 더욱 가속화할 것으로 예상됩니다.
성능은 기본, 멀티모달 능력 강화
가격만 저렴한 것이 아닙니다. 어니 4.5 터보와 X1 터보는 성능 면에서도 강력한 모습을 보여줍니다. 특히 멀티모달 작업 벤치마크 테스트에서 어니 4.5 터보는 평균 77.68점을 기록했는데, 이는 큰 기대를 모았던 OpenAI의 GPT-4o(72.76점)를 능가하는 수치입니다.
이 모델들은 멀티모달 이해, 논리적 추론, 창의적 글쓰기, 이미지 분석 등 다양한 실제 업무에 즉시 투입될 수 있도록 설계되었습니다. 바이두의 ‘치엔판(Qianfan)’ 플랫폼을 통해 도구 및 API와 원활하게 통합되어 개발자, 기업, 연구자 모두에게 매력적인 선택지를 제공합니다. 특히 X1 터보는 4.5 터보 위에 구축된 강화된 ‘두뇌’로서, 연쇄적 사고(Chain-of-Thought) 능력과 도구 호출 기능을 향상시켜 심층적인 추론 작업에 특화되어 있습니다.
바이두의 창립자 로빈 리(Robin Li)는 ‘바이두 크리에이트 2025’ 개발자 컨퍼런스에서 올바른 기반 모델을 선택하고 실제 애플리케이션에 맞게 미세 조정하는 것의 중요성을 강조하며, 순수 텍스트 모델의 시대는 가고 멀티모달 모델이 미래라고 역설했습니다. 이에 발맞춰 두 터보 모델 모두 텍스트, 이미지, 로직 기반 입력을 지원하며 교육, 금융, 헬스케어 등 다양한 시나리오에 최적화되었습니다.
중국 AI 전략의 핵심 플레이어
바이두의 이러한 행보는 2030년까지 중국을 글로벌 AI 리더로 만들려는 중국 정부의 국가 AI 전략과 밀접하게 연계되어 있습니다. 바이두는 단순한 기술 기업이 아니라, 중국 딥러닝 국가 공학 연구소를 이끌도록 선정된 핵심 플레이어입니다. 이러한 정부 지원은 자금뿐만 아니라 데이터 접근성, 연구 인력, 장기적인 정책 지원까지 포함합니다.
중국의 생성형 AI 분야 민간 투자는 2023년 6억 5천만 달러에서 2024년 31억 달러 이상으로 폭발적으로 증가했으며, 바이두는 이 폭풍의 중심에 있습니다. 현재 중국 전역에서 4,300개 이상의 AI 기업이 활동하고 있으며, AI 시장 가치는 700억 달러를 넘어섰습니다. 알리바바, 텐센트와 같은 거대 기술 기업들도 자체 고급 모델(예: 텐센트의 훈위안 T1)을 출시하며 치열한 경쟁을 벌이고 있습니다. 바이두는 가격 인하를 통해 단기적으로 사용자 기반을 확대하고, 차세대 모델에 투자하여 장기적인 시장 지배력을 확보하려는 투트랙 전략을 구사하고 있습니다.
현실과 가상의 경계: 바이두 ‘휴 복싱’ 디지털 앵커
바이두는 언어 모델 외에도 공상 과학 영화에서나 나올 법한 기술을 선보였습니다. 바로 어니 모델 기반의 초현실적인 디지털 앵커 시스템 ‘휴 복싱(Hugh Boxing)’입니다. 이 기술은 단 2분 분량의 비디오 녹화만으로 사용자 자신이나 다른 사람을 복제하여 라이브 방송을 진행할 수 있는 AI 기반 아바타를 생성합니다.
이 디지털 앵커는 단순히 화면에 나타나는 것을 넘어, 실시간으로 생각하고 반응하며 표정, 감정, 제스처를 표현합니다. 방송 중 목소리 톤을 바꾸고, 시각 자료를 보여주며, 심지어 역할을 전환할 수도 있습니다. 이론적으로 한 명의 운영자가 AI 앵커의 도움을 받아 전체 마케팅 팀의 역할을 수행할 수 있게 됩니다. 뷰티 제품 라이브 커머스, 교육 채널 운영, 게임 프로모션 등 다양한 분야에서 전환율과 사용자 유지율을 극대화하도록 설계되었습니다. 이 역시 바이두의 핵심 언어 모델을 구동하는 것과 동일한 딥 멀티모달 아키텍처에 기반합니다.
엔비디아의 선택: 수학 문제 해결에 집중하다
바이두가 멀티모달 기능과 디지털 클론으로 아시아 시장의 주목을 받는 동안, 미국에서는 엔비디아가 전혀 다른 방향으로 큰 도약을 이루었습니다. 엔비디아는 범용 AI 경쟁 대신, 오랫동안 연구자들을 좌절시켜 온 ‘수학적 추론’ 문제 해결에 깊이 파고들었습니다.
대부분의 거대 언어 모델은 대화나 이야기 생성, 코딩 인터뷰 통과 등에는 능숙하지만, 여러 단계를 거쳐야 하는 복잡한 수학 문제를 푸는 데는 어려움을 겪습니다. 엔비디아는 이 문제에 정면으로 도전하여 새로운 ‘OpenMath NeMoTron’ 시리즈를 선보였습니다.
OpenMath NeMoTron: 수학 경시대회 문제로 단련된 AI
엔비디아는 두 가지 모델을 출시했습니다. ‘OpenMath NeMoTron 32B’와 더 작고 효율적인 버전인 ’14B Kaggle 모델’입니다. 두 모델 모두 Quinn 2.5 아키텍처를 기반으로 하며, 실제 수학 경시대회(AIM, 하버드-MIT 수학 토너먼트, HLE 수학 시리즈 등)에서 가져온 어려운 문제들로 가득 찬 ‘Open Math Reasoning’ 데이터셋을 사용하여 미세 조정되었습니다. 이는 단순한 방정식이 아니라, 여러 논리적 단계와 고급 개념에 대한 깊은 이해를 요구하는 문제들입니다.
압도적인 성능: AIME 벤치마크 신기록
32B 모델은 328억 개의 매개변수를 가진 강력한 모델로, 엔비디아 하드웨어에 최적화되어 BF16 텐서 연산을 사용하여 메모리 사용량을 효율적으로 관리하면서 성능을 극대화했습니다. 추론 과정에서 외부 도구를 사용할 수 있는 ‘도구 통합 추론’ 모드에서 AIM 24 벤치마크 ‘Pass@1’ 정확도 78.4%를 기록했습니다. 다수결 투표 기법(Majority Voting)을 사용했을 때는 무려 93.3%의 정확도를 달성하며 현재까지 이 분야에서 업계 최고 성능을 보여주었습니다.
모든 사람이 고성능 GPU 클러스터에 접근할 수 있는 것은 아닙니다. 이를 위해 엔비디아는 148억 개의 매개변수를 가진 14B Kaggle 모델을 출시했습니다. 이 모델은 상대적으로 가볍지만, 경쟁적인 성능을 발휘하도록 설계되었으며, 실제로 고급 수학 문제 해결에 초점을 맞춘 ‘AIMO2 Kaggle’ 대회에서 우승했습니다. 모델이 단계별로 풀이 과정을 보여주는 ‘연쇄적 사고(Chain-of-Thought)’ 모드에서 AIME 24 벤치마크 73.7%를 기록했고, 여러 답변을 생성하여 가장 일관성 있는 것을 선택하는 ‘Gen Select’ 모드에서는 86.7%까지 성능을 끌어올렸습니다.
투명성과 개방성: NeMo Skills 프레임워크
두 모델의 또 다른 강점은 완전한 투명성입니다. 엔비디아는 ‘NeMo Skills’ 프레임워크를 통해 데이터 생성, 훈련 단계, 벤치마크 테스트, 추론 구성에 이르기까지 전체 훈련 파이프라인을 오픈소스로 공개했습니다. 이는 차세대 수학 튜터를 개발하거나 과학 워크플로우에 형식 추론을 통합하려는 개발자들에게 엔비디아의 성과를 기반으로 구축할 수 있는 모든 도구를 제공합니다.
또한, Ampere부터 최신 Hopper GPU까지 엔비디아의 하드웨어 생태계 전반에서 실행되도록 최적화되었으며, Triton 추론 서버, CUDA 라이브러리, TensorRT 최적화를 지원하여 실시간 시스템이나 배치 작업에서 큰 지연 시간 손실 없이 모델을 배포할 수 있습니다. 단계별 추론의 투명성이 필요할 때는 ‘연쇄적 사고’ 모드를, 외부 문제 해결 도구가 필요할 때는 ‘도구 통합 추론’ 모드를, 답변의 정밀도를 극대화하고 싶을 때는 ‘Gen Select’ 모드를 선택하는 등 사용 방식의 유연성도 뛰어납니다.
바이두 vs. 엔비디아: AI 발전의 두 갈래 길
이처럼 바이두와 엔비디아는 AI 개발에서 서로 다른 길을 걷고 있습니다. 바이두는 가격 경쟁력과 광범위한 멀티모달 애플리케이션, 심지어 디지털 휴먼 기술을 통해 시장 점유율 확대에 주력하는 반면, 엔비디아는 LLM의 근본적인 약점 중 하나인 수학적 추론 능력을 해결하는 데 집중하며 기술의 깊이를 더하고 오픈소스 생태계를 통해 연구 커뮤니티에 기여하고 있습니다.
한쪽에서는 인간을 닮은 AI가 라이브 방송을 진행하고, 다른 한쪽에서는 AI가 복잡한 수학 올림피아드 문제를 풀고 있습니다. 이는 AI 기술이 얼마나 다양한 방향으로 빠르게 발전하고 있는지를 보여주는 단적인 예입니다. 바이두의 디지털 앵커가 보편화된다면, 우리가 즐겨보던 스트리머가 실제 사람이 아닐 수도 있다는 사실을 어떻게 받아들여야 할까요? 놀라움과 동시에 우려가 드는 지점입니다.
AI 기술의 미래는 예측하기 어렵지만, 바이두와 엔비디아 같은 거인들의 행보는 앞으로 AI가 우리 삶과 사회를 어떻게 변화시킬지에 대한 중요한 단서를 제공합니다. 여러분은 이 두 기업의 전략과 AI의 미래에 대해 어떻게 생각하시나요?