수학·논술풀이 20점대 그쳐
챗GPT·딥시크 등 76~92점
국가대표 인공지능(AI)을 표방하는 국내 대형언어모델(LLM)들이 대학수학능력시험(수능) 수학·논술 문제 풀이에서 낙제 수준의 성적을 기록한 것으로 나타났다. 해외 모델들과 비교해 성능 격차가 커 국내 ‘소버린 AI’의 갈 길이 멀다는 평가가 나온다.
15일 김종락 서강대 수학과 교수 연구팀은 ‘독자 파운데이션 AI 모델 개발사업’에 참여 중인 국내 컨소시엄 5개 팀의 LLM과 미국 챗GPT 등 해외 5개 모델을 대상으로 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 공개했다. 연구팀은 수능 수학 공통과목과 확률과 통계, 미적분, 기하에서 가장 어려운 문항을 5개씩 선정해 총 20문제를 구성했다. 논술은 국내 10개 대학의 기출 문제와 인도 대학 입시 문제 10문제, 일본 도쿄대 공대 대학원 입시 수학 문제 10문제 등 총 30문제를 뽑아 총 50개 문제를 10개 모델에게 풀게 했다.
이번 실험에 국내 모델 가운데 △업스테이지의 솔라 프로-2 △LG AI연구원의 엑사원 4.0.1 △네이버의 HCX-007 △SK텔레콤의 A.X 4.0(72B) △엔씨소프트의 라마 바르코 8B 인스트럭트가 참여했다. 해외 모델은 오픈AI의 GPT-5.1·구글 제미나이 3 프로 프리뷰·앤스로픽의 클로드 오푸스 4.5·xAI의 그록 4.1 패스트·중국의 딥시크 V3.2 등이었다. 평가 결과 해외 모델은 76∼92점을 받은 반면 국내 모델은 솔라 프로-2만 58점을 기록했고 나머지는 20점대에 그쳤다. 라마 바르코 8B 인스트럭트는 2점으로 최저점을 기록했다.
연구팀은 또 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 ‘엔트로피매스’ 100문제 가운데 10문제를 선별해 동일한 방식으로 평가했다. 이 시험에서도 해외 모델은 82.8∼90점을 기록했지만, 국내 모델은 7.1∼53.3점에 머물렀다. 김 교수는 “국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다”고 설명했다.
구혁 기자, 박준희 기자주요뉴스
이슈NOW
기사 추천
- 추천해요 0
- 좋아요 0
- 감동이에요 0
- 화나요 0
- 슬퍼요 0