추론 | TED를 읽다

대규모 언어 모델의 추론 한계: GPT-4 및 GPT-5의 진실

10/14/2024 in 인공지능, 자연어 처리, 추론

### 문제가 뭔가? ### 근래에 애플 연구진이 GPT-4, GPT-5 프리뷰, GPT-5 미니의 수학적 추론 한계에 대한 연구를 발표했습니다. 이 논문의 결론은 충격적입니다. 이 최신 모델들은 벤치마크 문제에 대해서는 훌륭한 성능을 보이지만 조금만 문제의 형식을 바꾸면 성능이 크게 저하됩니다. 구체적으로 애플 연구진은 GSM8K 벤치마크를 사용하여 모델의 성능을 평가했습니다. 이 벤치마크는 일반적인 시사 상식 시험이나 자격증 시험을 기반으로 한 문제 유형의 데이터셋입니다. 연구 결과에 따르면 모든 최첨단 모델에서 성능이 최대 65%까지 저하되었습니다. ### 왜 이게 문제인가? ### 이러한 성능 저하가…

Tags: GPT-4, GPT-5, 대규모 언어 모델, 추론, 한계

Windows Agent Arena: AI 에이전트 자동화 벤치마킹의 미래

10/10/2024 in AI, 벤치마킹, 에이전트, 자동화, 컴퓨팅

서론 이번 포드캐스트에서는 Microsoft에서 활동하는 두 명의 AI 에이전트 전문가와 실제 작업을 AI 에이전트로 자동화하는 방법, 推論 모델인 OAN이 미치는 영향, 그리고 그들이 업무에 어떤 AI 에이전트를 사용하는지에 대해 이야기를 나누었습니다. Windows 에이전트 아레나 Windows 에이전트 아레나는 Windows 운영 체제에 일반적으로 설치되는 광범위한 응용 프로그램에 액세스할 수 있는 데스크톱 또는 PC 제어 에이전트로, 이러한 대부분은 일종의 정적인 시스템입니다. 이러한 대화형 applicazioni에서는 일반적으로 llm(대규모 언어 모델) 또는 모델, 챗봇에게 질문을 하고, llm은 응답을 제공하여 사용자가 지속적으로…

Tags: AI, LLM, Windows Agent Arena, 계획, 에이전트, 자율성, 추론, 행동

Tag: 추론

대규모 언어 모델의 추론 한계: GPT-4 및 GPT-5의 진실

Windows Agent Arena: AI 에이전트 자동화 벤치마킹의 미래