한국교육신문

AI 서·논술형 채점 발전했지만 과제 여전

2026.04.20 15:12:56

한국교육과정평가원 연구리포트
자동채점 모델·교과별 성능 차이
학습용 DB·채점 설명력 확보 필요

서·논술형 평가 확대 흐름 속에서 인공지능(AI) 기반 자동채점 도입 가능성이 확인됐다. 다만 교과별 성능 차와 함께 학습용 데이터 구축, 채점 기준 설계 등 해결 과제가 동시에 드러났다.

한국교육과정평가원(KICE, 원장 김문희)은 17일 ‘교과 서·논술형 평가 자동채점을 위한 인공지능 모델 적용 방안 연구(Ⅱ)’ 결과를 발표했다.

이번 연구는 서·논술형 평가의 학교 현장 안착을 지원하기 위해 자동채점 AI 모델 적용 가능성과 성능을 검증하는 데 초점을 두고 학습용 데이터 구축과 채점자질 분석, 기계학습 기반 모델 고도화를 중심으로 진행됐다.

연구에서는 국어, 사회, 수학, 과학, 기술 교과를 대상으로 학생 응답 데이터를 수집하고 채점 라벨링을 수행해 1만 건 이상 규모의 학습용 데이터를 구축했다. 이를 바탕으로 자동채점 모델 성능을 비교·분석한 결과, 적용 방식과 교과 특성에 따라 성능 차이가 나타나는 것으로 확인됐다.

특히 여러 알고리듬을 결합한 앙상블 계열 모델이 상대적으로 높은 정확도를 보였으며, 단일 알고리듬 기반 모델은 성능이 낮은 경향을 보였다. 또 형태소 중심 분석보다 핵심 키워드나 혼합형 채점 기준을 적용한 경우 보다 안정적인 채점 결과가 나타났다.

교과별 차이도 확인됐다. 수학, 과학 등 비교적 구조화된 답안을 요구하는 영역에서는 안정적인 성능이 나타난 반면, 서술과 논증이 복합적으로 요구되는 논술형 문항에서는 채점 결과의 편차가 상대적으로 크게 나타났다.

연구진은 “서·논술형 평가는 역량 중심 교육을 실현하기 위한 평가 방식이지만 채점 부담 등으로 현장 적용에 어려움이 있다”며 “자동채점 기술 도입이 필요하다”고 밝혔다. 이어 “자동채점 AI 모델 성능은 알고리듬 자체보다 학습용 데이터의 질과 채점 기준 설계에 크게 영향을 받는다”고 설명했다.

또 생성형 AI와 대규모 언어모델 적용 가능성도 검토됐지만 설명 가능성, 데이터 보안, AI 오작동 등 주요 쟁점이 해결돼야 한다는 점도 함께 제기됐다. 특히 채점 결과에 대한 근거를 제시할 수 있는 설명 가능성이 확보되지 않을 경우 학교 현장 적용에는 한계가 있을 것으로 분석됐다.

연구는 향후 과제로 자동채점 AI 모델 고도화와 학습용 데이터 구축 확대, 교과 특성을 반영한 채점 기준 정교화, 기관 간 협력 체계 마련 등을 제시했다.

정수진 KICE 국가평가관리센터 부연구위원은 “이번 연구는 AI를 활용한 평가 혁신의 기반을 마련했다는 데 의의가 있다”고 밝혔다. 이어 연구 성과가 실제 학교 현장에 적용되기 위해서는 지속적인 검증과 지원이 필요하다고 덧붙였다.