하이에나 엣지(Hyena Edge): 트랜스포머를 넘어선 온디바이스 AI의 혁명



YOUTUBE URL: https://youtu.be/yvtmCHdP4os



하이에나 엣지(Hyena Edge): 트랜스포머를 넘어선 온디바이스 AI의 혁명

하이에나 엣지(Hyena Edge): 트랜스포머를 넘어선 온디바이스 AI의 혁명

최근 AI 분야에 또 하나의 거대한 소식이 전해졌습니다. 단순한 업그레이드가 아닌, 완전히 새로운 개념의 기술입니다. MIT에서 분사한 보스턴 스타트업 Liquid AI가 싱가포르에서 열리는 ICLR 2025 컨퍼런스 직전인 4월 25일, ‘하이에나 엣지(Hyena Edge)’를 공개했습니다. 이름처럼, 마치 사자를 비웃는 하이에나같이, 기존 AI 모델의 느린 속도를 비웃기라도 하듯 등장했습니다. 하이에나 엣지는 강력한 AI를 바로 여러분의 스마트폰과 같은 엣지 디바이스에서, 기존보다 훨씬 빠르고 가볍게 실행하도록 설계되었습니다. 이는 어쩌면 우리가 수년간 의존해 온 트랜스포머(Transformer) 아키텍처 시대에 균열이 가기 시작했다는 첫 번째 명확한 신호일지도 모릅니다.

트랜스포머의 시대와 엣지 AI의 도전 과제

지난 몇 년간 AI 분야는 트랜스포머 아키텍처와 깊은 사랑에 빠져 있었습니다. 2017년 Vaswani 등이 소개한 병렬 처리 가능한 ‘어텐션(Attention)’ 메커니즘 덕분에 우리는 놀라운 기술적 돌파구를 경험했습니다. GPT 시리즈를 비롯한 거대 언어 모델(LLM)의 눈부신 발전은 대부분 트랜스포머 덕분이라고 해도 과언이 아닙니다.

하지만 이 강력한 기술에는 치명적인 단점이 있었습니다. 바로 ‘무거움’입니다. 거대한 트랜스포머 모델을 스마트폰과 같은 소형 기기에 탑재하는 것은 배터리를 순식간에 소모시키거나 제한된 RAM을 집어삼키는 고통스러운 과정이었습니다. 대부분의 엣지 최적화 모델(예: Phi-2, Llama 3 소형 버전 등)조차도 여전히 표준적인 어텐션 블록에 의존하며, 데이터센터급 GPU에서는 훌륭하게 작동하지만 우리 주머니 속 스냅드래곤 칩에서는 효율이 떨어지는 커널을 사용합니다. 즉, 클라우드 서버의 강력한 연산 능력 없이는 제 성능을 발휘하기 어려웠습니다.

이것이 바로 온디바이스 AI(On-device AI) 구현의 가장 큰 걸림돌이었습니다. 온디바이스 AI는 데이터를 외부 서버로 보내지 않고 기기 내부에서 직접 처리하므로, 응답 속도가 빠르고 인터넷 연결 없이도 작동하며 개인 정보 보호에 유리하다는 장점이 있습니다. 하지만 트랜스포머 모델의 높은 연산 요구량과 메모리 사용량은 이러한 장점을 상쇄시키곤 했습니다.

새로운 대안의 등장: 하이에나 엣지(Hyena Edge)

Liquid AI는 이러한 문제에 정면으로 도전합니다. “무거운 어텐션의 상당 부분을 버리고 더 가벼운 방식으로 처리하면 어떨까?”라는 질문에서 하이에나 엣지가 탄생했습니다. 하이에나 엣지는 ‘컨볼루션(Convolution)’ 기반의 멀티 하이브리드 모델입니다.

컨볼루션 기반 하이브리드 아키텍처: 가벼움과 효율성을 찾아서

컨볼루션 연산 자체는 새로운 것이 아닙니다. 이미지 처리와 같은 컴퓨터 비전 분야에서는 이미 지배적인 기술입니다. 하지만 언어 모델에 이를 적극적으로 도입한 것은 주목할 만합니다. 하이에나 엣지는 Michael Poli 그룹이 몇 년 전 시작한 ‘하이에나(Hyena)’라는 더 넓은 연산자 계열의 일부입니다.

엣지 버전은 여기서 한 걸음 더 나아가, 최상위 트랜스포머 모델 내부의 그룹화된 쿼리 어텐션(Grouped Query Attention, GQA) 연산의 약 3분의 2를 ‘하이에나 하위 계열(Hyena sub-family)’의 게이트된 컨볼루션(gated convolutions)으로 대체합니다. 이 교체만으로도 상당한 메모리 오버헤드를 줄이고, 어텐션 메커니즘이 야기하는 입력 시퀀스 길이에 따른 연산량의 제곱적 증가(quadratic time blow-up) 문제를 피할 수 있습니다. 컨볼루션 연산은 시퀀스 길이에 따라 선형적으로(linearly) 확장되므로, 긴 텍스트를 처리할 때 연산 효율성이 비약적으로 향상됩니다.

실제 스마트폰에서의 놀라운 성능 검증

Liquid AI는 단순히 데스크톱 GPU에서의 추상적인 벤치마크 결과만으로 성공을 선언하지 않았습니다. 그들은 실제 삼성 갤럭시 S24 Ultra 스마트폰(아마 여러분 중 누군가의 주머니에 있을 바로 그 폰)에서 전체 모델을 실행하고, 동일한 파라미터 수로 구성된 GQA 기반 트랜스포머 모델(Transformer++)과 성능을 비교했습니다.

결과는 놀라웠습니다.

  • 프리필(Prefill) 지연 시간: 모델이 입력을 처음 처리하는 속도입니다. 하이에나 엣지는 모든 시퀀스 길이에서 더 빨랐으며, 특히 긴 컨텍스트(입력 텍스트)에서는 최대 30% 더 빠른 성능을 보였습니다.
  • 디코딩(Decode) 지연 시간: 모델이 응답을 생성하는 속도입니다. 여기서도 비슷한 결과가 나타났습니다. 특히 256개 토큰 이상의 시퀀스 길이부터는 컨볼루션 기반 접근 방식의 장점이 두드러지기 시작했습니다.
  • 메모리 사용량: 측정된 모든 시퀀스 길이에서 하이에나 엣지의 메모리 사용량이 더 낮았습니다. 이는 스마트폰처럼 메모리가 제한적인 환경에서 매우 중요한 이점입니다. Spotify, TikTok, 그리고 고양이 사진 앨범 사이에서 AI 앱이 사용할 수 있는 메모리는 한정적이기 때문입니다.

이러한 결과는 실험실 환경이 아닌, 실제 사용 환경에 가까운 디바이스에서의 직접적인 테스트를 통해 얻어졌다는 점에서 더욱 의미가 깊습니다.

속도와 정확도, 두 마리 토끼를 잡다

물론, 아무리 빨라도 모델이 문맥을 이해하지 못하고 엉뚱한 답변을 생성한다면 아무 소용이 없습니다. Liquid AI는 이 점을 간과하지 않았습니다. 그들은 하이에나 엣지와 비교 대상인 트랜스포머 모델 모두 동일한 1000억 개의 토큰 데이터셋으로 학습시킨 후, 표준 언어 모델 벤치마크 테스트를 진행했습니다.

결과는 다음과 같습니다 (낮을수록 좋은 Perplexity, 높을수록 좋은 Accuracy):

  • WikiText-103 (Perplexity): 17.3 (Transformer) -> 16.2 (Hyena Edge)
  • LAMBADA (Accuracy): 10.8% -> 9.4% (Perplexity 개념, 낮을수록 좋음) *원문은 정확도(Accuracy)로 언급했으나 LAMBADA는 보통 Perplexity로 측정, 문맥상 개선을 의미*
  • Piqa (Accuracy): 71.1% -> 72.3%
  • HellaSwag (Accuracy): 49.3% -> 52.8%
  • WinoGrande (Accuracy): 51.4% -> 54.8%
  • ARC Easy (Accuracy): 63.2% -> 64.4%
  • ARC Challenge (Accuracy): 53.34% -> 55.2%

재미있는 사실은, Pi QA의 다른 변형 테스트에서는 두 모델이 31.7%로 동점을 기록했다는 것입니다. 하이에나가 모든 면에서 압도적인 승리를 거둔 것은 아니지만, 어떤 벤치마크에서도 뒤처지지 않았습니다. 이는 하이에나 엣지가 속도 향상과 메모리 절약을 달성하면서도, 예측 성능은 기존 트랜스포머 모델과 동등하거나 오히려 더 우수하다는 것을 의미합니다. 이는 온디바이스 AI가 추구하는 궁극적인 목표, 즉 ‘성능 저하 없는 효율성 향상’을 달성한 것입니다.

STAR: 최적 아키텍처를 자동으로 찾아내는 똑똑한 설계자

그렇다면 Liquid AI는 어떻게 이 혁신적인 하이에나 엣지 아키텍처를 설계했을까요? 여기에는 ‘STAR(Synthesis of Tailored Architectures)’라는 매우 흥미로운 프레임워크가 사용되었습니다. STAR는 2024년 12월 Liquid AI가 공개한 기술로, 마치 실험실 가운을 입은 진화 알고리즘과 같습니다.

STAR의 작동 방식은 다음과 같습니다:

  1. 다양한 기본 연산자(building blocks)를 입력합니다. (예: 여러 종류의 컨볼루션, 어텐션 등)
  2. 목표 하드웨어(여기서는 갤럭시 S24 Ultra)에서의 지연 시간(latency) 및 메모리 사용량과 같은 제약 조건을 설정합니다.
  3. 선형 시스템 이론(linear systems theory)을 활용하여 성능을 예측하고 최적화합니다.
  4. 이 정보를 바탕으로 여러 세대에 걸쳐 최적의 아키텍처를 ‘진화’시킵니다. 마치 자연선택처럼, 주어진 환경(제약 조건)에서 가장 성능이 좋은 아키텍처가 살아남아 다음 세대로 이어지는 방식입니다.

하이에나 엣지 개발 과정에서 STAR는 16개의 초기 후보 모델로 시작했습니다. 24세대에 걸쳐, 필터 길이가 3에서 128까지 다양한 18가지 컨볼루션 옵션(Hyena Full, Hyena X, Hyena Y 등), 여러 종류의 GQA, SwiGLU 피드포워드 레이어 등을 조합하며 최적의 구조를 탐색했습니다.

중요한 것은, 각 후보 모델의 잠재적 메모리 사용량과 지연 시간을 임의의 데스크톱 카드가 아닌 실제 갤럭시 S24 Ultra에서 프로파일링했다는 점입니다. 또한, 각 미니 모델을 50억 개의 토큰으로 실제로 학습시켜 실시간으로 Perplexity 점수를 확인하며 진화 과정을 진행했습니다.

진화 과정이 진행됨에 따라 ‘하이에나 Y(Hyena Y)’ 연산자가 점점 더 두각을 나타냈습니다. 이 변형은 Hyena Full보다 내부 컨볼루션 오버헤드가 적고 Hyena X보다 가벼운 게이팅 설정을 가지면서도 충분한 표현력을 제공하는 최적의 균형점을 찾아냈습니다. Liquid AI가 공개한 시각화 자료를 보면, 세대가 거듭될수록 셀프 어텐션 블록의 비중은 줄어들고 하이에나 Y 블록의 비중이 늘어나며, 지연 시간 곡선이 점점 아래로 향하는 것을 볼 수 있습니다. 마치 유전자 대신 코드 블록으로 이루어진 자연선택 과정을 보는 것과 같습니다.

최종 세대에서 STAR는 하이에나 엣지의 최종 설계를 도출했습니다. 32개의 레이어, 4096의 너비(width), 64의 어텐션 헤드 크기를 가지며, 기존 GQA의 3분의 2가 하이에나 Y 기반의 게이트된 컨볼루션으로 대체된 구조입니다. 이는 인간의 직관이나 ‘감’에 의존한 미세 조정이 아닌, 철저하게 자동화된 탐색 과정을 통해 얻어진 결과입니다. 그리고 이 설계가 실제 스케일에서도 초기 예측대로 작동하는지 다시 한번 스마트폰에서 직접 테스트하여 검증했습니다.

하이에나 엣지만의 특별한 강점들

짧은 프롬프트에서도 빛나는 응답성

엣지 AI 애플리케이션, 특히 음성 비서와 같은 서비스는 종종 20개 토큰 미만의 매우 짧은 사용자 입력을 처리해야 합니다. 이런 상황에서는 밀리초 단위의 지연 시간 단축도 사용자 경험에 큰 영향을 미칩니다. 기존 하이브리드 모델들이 짧은 프롬프트에서 약점을 보이는 경우가 많았지만, 하이에나 엣지는 가장 짧은 시퀀스에서도 프리필 지연 시간의 우위를 보여줍니다. 이는 사용자가 모델과 상호작용할 때 느끼는 ‘첫인상’을 개선하며, 입력 컨텍스트가 길어질수록 그 격차는 더욱 벌어집니다. 단 한 문장의 질문을 던지더라도 하이에나 엣지는 트랜스포머 기반 모델보다 더 빠르게 응답할 수 있습니다.

단순 최적화를 넘어선 근본적인 변화: GQA 대체

GQA(Grouped Query Attention) 자체도 여러 쿼리가 키-값 헤드를 공유하게 함으로써 풀 어텐션(Full Attention)보다 가볍게 만들어진 최적화 기법입니다. 하지만 본질적으로는 여전히 어텐션 메커니즘에 속합니다. 하이에나 엣지는 이러한 GQA 헤드의 ‘대부분’을 완전히 컨볼루션으로 대체함으로써, 어텐션의 고질적인 문제인 제곱적 연산량 증가 문제를 근본적으로 해결합니다. 512개 또는 1024개 토큰처럼 시퀀스가 길어질수록 컨볼루션의 선형적 확장성은 엄청난 연산량 절감 효과를 가져옵니다.

컨볼루션의 약점 극복: 장거리 의존성 포착

과거의 컨볼루션 기반 언어 모델들은 문장 내에서 멀리 떨어진 단어 간의 관계, 즉 ‘장거리 의존성(long-range dependencies)’을 포착하는 데 어려움을 겪었습니다. 이는 어텐션 메커니즘의 가장 큰 장점 중 하나였습니다. 하지만 Liquid AI는 게이트된 컨볼루션 설계를 통해 이러한 약점을 극복했습니다. 무거운 어텐션에 의존하지 않고도 장거리 의존성을 효과적으로 학습하여, 앞서 살펴본 벤치마크 결과처럼 높은 정확도를 유지하거나 개선할 수 있었습니다.

오픈 소스 공개와 미래: 모두를 위한 온디바이스 AI

Liquid AI는 이 혁신적인 기술을 독점하지 않을 계획입니다. 그들은 하이에나 엣지와 함께 ‘리퀴드 파운데이션 모델(Liquid Foundation Models)’ 시리즈를 앞으로 몇 달 안에 오픈 소스로 공개할 것이라고 발표했습니다. 이는 개발자 커뮤니티에 마치 크리스마스 선물과 같은 소식입니다.

오픈 소스 공개는 개발자들이 클라우드 구독이나 고성능 충전기 없이도 갤럭시 S24 Ultra, 어쩌면 아이폰 16 Pro, 심지어 라즈베리 파이와 같은 다양한 기기에서 네이티브로 실행할 수 있는 턴키(turnkey) 모델을 손에 넣게 된다는 것을 의미합니다. 그리고 오픈 소스 생태계의 특성상, 수많은 파생 프로젝트(fork)가 등장할 것입니다. 누군가는 4비트로 양자화(quantization)하여 모델을 더욱 경량화할 것이고, 다른 누군은 코딩 지원을 위해 미세 조정(fine-tuning)할 것이며, 또 다른 팀은 워치OS(watchOS)에 이식할지도 모릅니다. 가능성은 무궁무진합니다.

더 넓은 관점에서 보면, 이는 우리가 ‘포스트 트랜스포머(post-Transformer)’ 시대, 또는 최소한 다양한 아키텍처가 공존하는 ‘폴리 아키텍처(poly-architecture)’ 생태계로 진입하고 있음을 시사합니다. 물론, 대규모 GPU 클러스터를 활용하는 무거운 작업에서는 여전히 트랜스포머가 강력한 성능을 발휘할 것입니다. 하지만 배터리 한 방울, 메모리 한 바이트가 중요한 엣지 디바이스 환경에서는 컨볼루션, 순환 신경망(RNN), 상태 공간 모델(SSM)과 같은 하이브리드 및 대체 아키텍처들이 드디어 빛을 발할 기회를 얻고 있습니다.

특히 STAR와 같은 자동화된 아키텍처 탐색 도구의 발전은 과거의 수동적인 미세 조정 방식으로는 상상할 수 없었던 속도로 혁신을 가속화하고 있습니다. 무엇보다 중요한 것은, 이 모든 과정이 실험실의 GPU가 아닌 실제 스마트폰과 같은 최종 사용자 기기에서 직접 테스트되고 검증된다는 점입니다. 이론적으로만 가능했던 일이 이제 우리 손안에서 현실이 되고 있습니다.

결론: 주머니 속 강력한 AI, 현실이 되다

현재 스마트폰에는 강력한 NPU(신경망 처리 장치)가 탑재되고 있으며, 노트북에는 놀라운 AI 가속기가 장착되어 출시되고 있습니다. 동시에 개인 정보 보호에 대한 우려로 인해 AI 연산을 로컬에서 처리하려는 요구도 커지고 있습니다. 이런 상황에서 LAMBADA와 같은 벤치마크에서 뛰어난 성능(Perplexity 9.4)을 보이면서도 더 적은 RAM을 사용하고 30% 더 빠르게 응답하는 하이에나 엣지와 같은 모델은 온디바이스 AI 시대를 앞당기는 결정적인 역할을 할 수 있습니다.

모든 것을 기기 내에서 처리하는 것은 사용자 경험 측면에서도 명확한 이점을 제공합니다. 지연 시간 없는 즉각적인 반응, 클라우드 의존성 탈피, 인터넷 연결 없이도 사용 가능, 그리고 민감한 개인 데이터 유출 위험 감소 등은 온디바이스 AI가 가져올 매력적인 미래입니다.

Liquid AI의 하이에나 엣지는 트랜스포머가 지배하던 시대에 과감한 도전장을 내밀었습니다. 자동화된 아키텍처 탐색과 실제 디바이스 기반 검증을 통해, 속도, 효율성, 그리고 정확도라는 세 마리 토끼를 모두 잡을 수 있음을 증명했습니다. 그리고 오픈 소스 공개를 통해 이 혁신의 과실을 모두와 나누려 하고 있습니다.

클라우드 연결 없이도 강력한 AI가 우리 주머니 속에서 바로 실행되는 미래, 이것이 과연 너무 이른 꿈일까요? 하이에나 엣지의 등장은 그 꿈이 생각보다 가까이 와 있음을 보여주는 강력한 증거입니다. 앞으로 펼쳐질 온디바이스 AI의 새로운 지평을 기대해 봅니다.



Leave a Reply

Your email address will not be published. Required fields are marked *