-
Benchmarks: Running Large Language Models on a 14-inch MacBook Pro M2 Pro###
We tested the performance of Lama 3.1, Lama 3.2, Mistol, Gemma 1, Gemma 2, 53, and Quen 2.5, on a 14-inch MacBook Pro M2 Pro with 48GB of RAM. Our goal was to determine how fast these models could run on this computer and assess their storytelling capabilities. We used a text prompt to generate…
-
GPT-01 모델의 계획 능력 평가: 성취 가능성, 최적성, 일반화 가능성###
소개 LLM은 공간적 추론에 여전히 어려움을 겪고 있습니다. 이 연구에서는 GPT-4와 01 미니/프리뷰 모델을 대상으로 계획 능력을 평가하여 성취 가능성, 최적성, 일반화 가능성을 살펴보았습니다. 성취 가능성 GPT-4에 비해 01 미니/프리뷰 모델은 계획 수립 능력이 향상되었습니다. 그러나 복잡한 공간적 추론이 필요한 태스크에서는 여전히 어려움을 보였습니다. 최적성 01 프리뷰는 종종 실행 가능한 계획을 생성했지만 최적의 해결책을 제공하지…