swe (1) 썸네일형 리스트형 SW 엔지니어를 대체하기 위한 AI 개발: SWE-Bench를 통한 실전 GitHub 문제 해결 능력 평가 언어 모델(LLM)의 성능이 급속히 발전하면서 이를 정확하게 평가하는 방법론의 필요성이 대두되었습니다. 기존의 벤치마크는 언어 모델의 능력을 충분히 반영하지 못하고 있으며, 실전 문제를 다룰 수 있는 보다 도전적인 평가 기준이 요구됩니다. 이러한 요구에 부응하기 위해 등장한 SWE-Bench는 실전 소프트웨어 엔지니어링을 위한 현실적이고 지속 가능한 테스트 환경을 제공하여 언어 모델의 한계를 평가하고 향후 발전 방향을 제시합니다.SWE-Bench의 개요SWE-Bench는 실제 소프트웨어 엔지니어링 문제를 다루는 언어 모델 평가 프레임워크로, GitHub의 12개 인기 Python 오픈소스 저장소에서 가져온 2,294개의 실제 문제로 구성됩니다. 이 문제들은 주로 버그 보고나 새로운 기능 요청과 관련된 G.. 이전 1 다음