GPT-01 모델의 계획 능력 평가: 성취 가능성, 최적성, 일반화 가능성###
소개 LLM은 공간적 추론에 여전히 어려움을 겪고 있습니다. 이 연구에서는 GPT-4와 01 미니/프리뷰 모델을 대상으로 계획 능력을 평가하여 성취 가능성, 최적성, 일반화 가능성을 살펴보았습니다. 성취 가능성 GPT-4에 비해 01 미니/프리뷰 모델은 계획 수립 능력이 향상되었습니다. 그러나 복잡한 공간적 추론이 필요한 태스크에서는 여전히 어려움을 보였습니다. 최적성 01 프리뷰는 종종 실행 가능한 계획을 생성했지만 최적의 해결책을 제공하지 못했습니다. 블록 월드 시험에서 불필요한 단계를 추가하여 비최적의 솔루션을 제시했습니다. 일반화 가능성 01 프리뷰는 규칙 구조가 일관된 태스크에서 일반화 능력을 보였습니다. 그러나 액션과 툴이 임의의 기호로 대체된 경우 성능이 크게 저하되었습니다. 결론 01 모델은…