Windows Agent Arena: AI 에이전트 자동화 벤치마킹의 미래

서론

이번 포드캐스트에서는 Microsoft에서 활동하는 두 명의 AI 에이전트 전문가와 실제 작업을 AI 에이전트로 자동화하는 방법, 推論 모델인 OAN이 미치는 영향, 그리고 그들이 업무에 어떤 AI 에이전트를 사용하는지에 대해 이야기를 나누었습니다.

Windows 에이전트 아레나

Windows 에이전트 아레나는 Windows 운영 체제에 일반적으로 설치되는 광범위한 응용 프로그램에 액세스할 수 있는 데스크톱 또는 PC 제어 에이전트로, 이러한 대부분은 일종의 정적인 시스템입니다. 이러한 대화형 applicazioni에서는 일반적으로 llm(대규모 언어 모델) 또는 모델, 챗봇에게 질문을 하고, llm은 응답을 제공하여 사용자가 지속적으로 llm을 프롬프트할 수 있도록 합니다. 반면 에이전트는 일종의 자율적으로 움직이는 시스템으로, 작업을 에이전트에게 전달하면 에이전트는 해당 작업을 해석하고 최소한의 추가 지침 또는 거의 지침이 없이도 자체적으로 작업을 수행하여 작업을 완료하게 됩니다. 이때 이 Windows 에이전트 아레나는 이러한 llm과 다중 모드 모델이 실제 작업과 컴퓨팅 환경에서 에이전트로서 얼마나 잘 작동하는지 테스트하기 위한 벤치마크입니다.

수행 가능성

대부분의 사람들이 알고 있는 mlu와 같은 벤치마크는 기억력을 기반으로 합니다. 즉, 일반적으로 더 많은 교육 데이터가 더 나은 점수를 가져옵니다. 하지만 일반인들은 이러한 정보에는 관심이 없으며 AI가 그들에게 어떤 일을 할 수 있는지에 관심이 있습니다. 매직은 AI 모델이 이미 프로그래밍되거나 유명하지 않은 응용 프로그램과 함께 작동할 수 있을 때 발생할 것입니다. 예를 들어, 수만 명의 사용자가 있는 앱의 경우 이러한 유형의 에이전트가 얼마나 멀리 왔는지 생각해 보세요.

LM의 한계

현재 많은 벤치마크에서와 같이 많은 성과 숫자는 그들이 측정하려는 대상에 매우 구체적입니다. 에이전트는 독립적으로 작동하고, 추론하고, 계획하고, 필요한 모든 조치를 취해야 합니다. 마인드웹, 웹 아레나, 비주얼 웹 아레나와 같은 새로운 에이전트 벤치마크가 등장하고 있습니다. 또한 UFO와 같은 다른 벤치마크와 OS 월드, 안드로이드 월드와 같은 다른 벤치마크도 있습니다.

에이전트의 미래

Windows 운영 체제가 얼마나 쉽게 사용될 수 있는지에 따라 수많은 회사들이 특정 도메인에 초점을 맞추고 있습니다. 예를 들어, 특정 브라우저 내에서만 작동하는 유사한 자율적인 에이전트를 개발하는 스타트업 기업이 많이 있습니다. 우리가 하려는 것과 복잡한 것은 전체 컴퓨터에서 작업하는 것입니다. 이는 웹에 국한되지 않으며, 어떤 운영 체제가 이를 가장 잘 수행하는지에 따라 무엇을 구매할지 결정할 때 하드웨어만큼이나 소프트웨어가 중요해졌습니다. 예를 들어, Windows가 이를 실현한다면 이미 소비자 기술 분야에서 가장 인기 있는 것일지라도 더 많은 수용이 증가할 것입니다. 이를 통해 매주 몇 시간을 절약할 수 있다면 사람들은 진정한 가치를 인정하고 사전에 내장된 에이전트와 AI 자동화가 있는 기기를 위해 프리미엄을 지불할 의향이 있을 것입니다.

결론

Windows 에이전트 아레나는 에이전트와 AI 에이전트의 미래에 대한 통찰력을 제공하는 유망한 벤치마크입니다. 이 기술은 향후 몇 년 동안 지속적으로 발전할 것이며 업무와 일상 생활에 중요한 영향을 미칠 것입니다.