Tag: LLMs

Benchmarks: Running Large Language Models on a 14-inch MacBook Pro M2 Pro###

We tested the performance of Lama 3.1, Lama 3.2, Mistol, Gemma 1, Gemma 2, 53, and Quen 2.5, on a 14-inch MacBook Pro M2 Pro with 48GB of RAM. Our goal was to determine how fast these models could run on this computer and assess their storytelling capabilities. We used a text prompt to generate a 500-word story about how AI took John's job…

GPT-01 모델의 계획 능력 평가: 성취 가능성, 최적성, 일반화 가능성###

소개 LLM은 공간적 추론에 여전히 어려움을 겪고 있습니다. 이 연구에서는 GPT-4와 01 미니/프리뷰 모델을 대상으로 계획 능력을 평가하여 성취 가능성, 최적성, 일반화 가능성을 살펴보았습니다. 성취 가능성 GPT-4에 비해 01 미니/프리뷰 모델은 계획 수립 능력이 향상되었습니다. 그러나 복잡한 공간적 추론이 필요한 태스크에서는 여전히 어려움을 보였습니다. 최적성 01 프리뷰는 종종 실행 가능한 계획을 생성했지만 최적의 해결책을 제공하지 못했습니다. 블록 월드 시험에서 불필요한 단계를 추가하여 비최적의 솔루션을 제시했습니다. 일반화 가능성 01 프리뷰는 규칙 구조가 일관된…