GPT-01 모델의 계획 능력 평가: 성취 가능성, 최적성, 일반화 가능성###

Published on 10/11/2024 in 계획, 인공 지능, 자연어 처리 by Editor

소개

LLM은 공간적 추론에 여전히 어려움을 겪고 있습니다. 이 연구에서는 GPT-4와 01 미니/프리뷰 모델을 대상으로 계획 능력을 평가하여 성취 가능성, 최적성, 일반화 가능성을 살펴보았습니다.

성취 가능성

GPT-4에 비해 01 미니/프리뷰 모델은 계획 수립 능력이 향상되었습니다.
그러나 복잡한 공간적 추론이 필요한 태스크에서는 여전히 어려움을 보였습니다.

최적성

01 프리뷰는 종종 실행 가능한 계획을 생성했지만 최적의 해결책을 제공하지 못했습니다.
블록 월드 시험에서 불필요한 단계를 추가하여 비최적의 솔루션을 제시했습니다.

일반화 가능성

01 프리뷰는 규칙 구조가 일관된 태스크에서 일반화 능력을 보였습니다.
그러나 액션과 툴이 임의의 기호로 대체된 경우 성능이 크게 저하되었습니다.

결론

01 모델은 규칙 준수와 상태 관리 능력이 향상되었습니다.
그러나 공간적 추론과 일반화 능력은 여전히 개선이 필요합니다.
연구에서는 최적성과 일반화 가능성을 개선하기 위한 방법을 제시했습니다.