-
대규모 언어 모델의 추론 한계: GPT-4 및 GPT-5의 진실
### 문제가 뭔가? ### 근래에 애플 연구진이 GPT-4, GPT-5 프리뷰, GPT-5 미니의 수학적 추론 한계에 대한 연구를 발표했습니다. 이 논문의 결론은 충격적입니다. 이 최신 모델들은 벤치마크 문제에 대해서는 훌륭한 성능을 보이지만 조금만 문제의 형식을 바꾸면 성능이 크게 저하됩니다. 구체적으로 애플 연구진은 GSM8K 벤치마크를 사용하여 모델의 성능을 평가했습니다. 이 벤치마크는 일반적인 시사 상식 시험이나 자격증 시험을…
-
Windows Agent Arena: AI 에이전트 자동화 벤치마킹의 미래
서론 이번 포드캐스트에서는 Microsoft에서 활동하는 두 명의 AI 에이전트 전문가와 실제 작업을 AI 에이전트로 자동화하는 방법, 推論 모델인 OAN이 미치는 영향, 그리고 그들이 업무에 어떤 AI 에이전트를 사용하는지에 대해 이야기를 나누었습니다. Windows 에이전트 아레나 Windows 에이전트 아레나는 Windows 운영 체제에 일반적으로 설치되는 광범위한 응용 프로그램에 액세스할 수 있는 데스크톱 또는 PC 제어 에이전트로, 이러한 대부분은…