대규모 언어 모델(LLM)의 급속한 발전은 인공지능 분야에 혁신을 가져오며, 기계가 이해하고 생성할 수 있는 범위를 확장하고 있습니다. GPT-4와 그 이상의 모델들은 과거에는 수년이 걸릴 것이라 예상했던 능력들을 이미 보여주고 있습니다. 그러나 이러한 빠른 발전은 전통적인 벤치마킹 방법의 한계를 부각시키며, 복잡한 모델들을 어떻게 평가할 것인지에 대한 재고가 필요하게 되었습니다. 이번 글에서는 LLM 벤치마크가 왜 변화하고 있는지, 최근 평가 동향, 새로운 벤치마킹 접근 방식, 그리고 미래 개발을 위한 주요 고려사항에 대해 알아보겠습니다.

왜 LLM 벤치마크가 변화하는가

LLM 역량의 급속한 발전

구식화된 벤치마크: LLM이 더욱 고도화됨에 따라 기존의 벤치마크는 모델들을 충분히 도전하지 못하고 있습니다. 과거에는 어려웠던 작업들이 이제는 쉽게 처리되어, 고성능 모델 간의 구분이 어려워지고 있습니다.

더 큰 도전의 필요성: 현대의 LLM의 실제 역량과 한계를 정확히 평가하려면, 더욱 복잡하고 미묘한 도전을 제시하는 벤치마크가 필요합니다.
전통적인 벤치마크의 한계

정적인 데이터셋: 많은 전통적인 벤치마크는 고정된 데이터셋에 의존하여, 과적합(overfitting)의 위험이 있습니다. 모델은 이러한 데이터셋에서 잘 동작할 수 있지만, 실제로는 새로운 데이터에 일반화하지 못할 수 있습니다.

깊이의 부족: 전통적인 벤치마크는 표면적인 언어 이해에 초점을 맞추는 경우가 많아, 심층적인 추론, 맥락적 이해, 모호하거나 복잡한 질의 처리 능력을 놓칠 수 있습니다.
데이터 오염

훈련 데이터 중복: 방대한 인터넷 데이터를 학습한 LLM은 의도치 않게 벤치마크 데이터셋의 일부를 포함할 수 있습니다. 이러한 중복은 성능 지표를 부풀려 모델의 일반화 능력에 대한 잘못된 인식을 줄 수 있습니다.
변화하는 실제 세계 적용 분야

맥락적 관련성: 전문적인 이메일 작성, 코딩, 법률 및 의료 상담 등 실제 응용 분야에서 모델이 어떻게 동작하는지 평가할 필요성이 증가하고 있습니다.

통합 테스트: 평가의 초점이 개별 작업이 아닌 기존 시스템 및 워크플로우에 모델이 얼마나 잘 통합되는지로 이동하고 있습니다.

Benchmark categories.png

LLM 평가의 최근 동향

동적이고 적응적인 벤치마크

지속적인 업데이트: 벤치마크는 새로운 데이터와 작업을 정기적으로 포함하여 모델이 특정 테스트 세트에만 최적화되지 않도록 합니다.

실시간 데이터 통합: 현재 사건과 최신 개발 사항을 포함하여 모델이 최신 지식으로 테스트되도록 합니다.
복합적이고 다면적인 평가

다중 작업 평가: 다양한 작업에서 모델을 동시에 평가하여 일반적인 지능과 다재다능함을 파악합니다.

전체적인 지표: 정확도뿐만 아니라 추론 능력, 창의성, 윤리적 고려 사항 등을 포함하여 포괄적인 평가를 제공합니다.
위험 및 안전성 평가

편향 및 공정성 테스트: 유해한 편향을 식별하고 완화하여 다양한 사용자 그룹에서 공평한 성능을 보장하기 위한 체계적인 평가가 이루어집니다.

윤리적 준수: 부적절하거나 유해한 콘텐츠 생성을 피하는 데 초점을 맞추어 모델의 윤리적 지침 준수를 평가합니다.
비용 및 효율성 고려사항

자원 활용: 계산 효율성과 에너지 소비를 고려하여 더 지속 가능한 AI 관행을 촉진합니다.

확장성: 더 많은 데이터와 사용자 상호 작용으로 확장될 때 모델이 어떻게 동작하는지 평가하는 것이 중요해지고 있습니다.
사용자 중심 평가

인간의 피드백: 사용자 만족도와 피드백을 포함하여 모델이 실제 사용자 요구와 선호도를 충족하는지 확인합니다.

사용성 테스트: 명확성, 유용성, 참여도를 중심으로 모델이 사용자 인터페이스 내에서 어떻게 동작하는지 평가합니다.

주목해야 할 새로운 벤치마크

허깅페이스(Hugging Face)와 같은 조직은 Open LLM Leaderboard v2에서 LLM의 역량을 더욱 포괄적으로 평가하기 위해 여러 새로운 벤치마크를 도입했습니다.