GPT-01 모델의 계획 능력 평가: 성취 가능성, 최적성, 일반화 가능성###


소개

LLM은 공간적 추론에 여전히 어려움을 겪고 있습니다. 이 연구에서는 GPT-4와 01 미니/프리뷰 모델을 대상으로 계획 능력을 평가하여 성취 가능성, 최적성, 일반화 가능성을 살펴보았습니다.

성취 가능성

  • GPT-4에 비해 01 미니/프리뷰 모델은 계획 수립 능력이 향상되었습니다.
  • 그러나 복잡한 공간적 추론이 필요한 태스크에서는 여전히 어려움을 보였습니다.

최적성

  • 01 프리뷰는 종종 실행 가능한 계획을 생성했지만 최적의 해결책을 제공하지 못했습니다.
  • 블록 월드 시험에서 불필요한 단계를 추가하여 비최적의 솔루션을 제시했습니다.

일반화 가능성

  • 01 프리뷰는 규칙 구조가 일관된 태스크에서 일반화 능력을 보였습니다.
  • 그러나 액션과 툴이 임의의 기호로 대체된 경우 성능이 크게 저하되었습니다.

결론

  • 01 모델은 규칙 준수와 상태 관리 능력이 향상되었습니다.
  • 그러나 공간적 추론과 일반화 능력은 여전히 개선이 필요합니다.
  • 연구에서는 최적성과 일반화 가능성을 개선하기 위한 방법을 제시했습니다.


Leave a Reply

Your email address will not be published. Required fields are marked *