이 연구는 말하기 수행평가의 측정 상황에서 오차를 최소화하고 피험자에게 안정적인 점수를 부여하기 위한 측정 조건이 무엇인가를 탐색하기 위한 연구이다. 이를 위해 말하기 모의 평가의 결과를 가지고 예비 채점의 결과와 두 차례 채점자 워크숍의 채점 결과는 단변량 일반화가능도 분석으로, 그리고 본 채점의 결과는 다변량 일반화가능도 이론으로 분석하여 각 채점 단계에서 채점자 수와 과제의 수를 조정하는 방법으로 어떻게 신뢰도 계수가 변화하는지를 살펴보았다. 평가 구인의 타당도를 살펴보기 위하여 예비채점의 경우 3개로, 채점자 워크숍의 경우 1차는 5개, 2차는 3개로 설정하였는데 일반화가능도 분석 결과 세 시험 모두 채점 구인에 따른 의존도 계수의 변동 기울기는 상대적으로 완만하게 나타나 채점 조건의 신뢰도에 미치는 영향이 크지 않은 것을 확인할 수 있었다. 본 채점은 채점의 경제성과 효율성을 고려하여 3개의 채점 구인을 고정 국면으로 설정한 다변량 일반화 가능도 분석을 실시하였는데 그 결과 채점 구인보다는 채점자 수의 영향력이 더 높게 나타났다. 그리고 피험자의 분산성분이 차지하는 비중이 높게 나타나 피험자의 말하기 실력에 따라 점수가 달라진 것이 확인되어 시험의 신뢰도와 타당도가 높은 것으로 나타났다. 또한 공분산 분석 결과 구인 사이의 공분산이 높게 나타나 각 구인이 말하기 능력을 측정하는 서로 다른 구인임을 알 수 있었으며 이를 통해 시험의 타당도가 높다는 것을 재확인할 수 있었다. 3개의 구인 7개의 과제로 구성된 본 채점의 경우 의존도 계수는 0.85516으로 적정 수준의 신뢰도를 보이고 있었으며 채점자 수를 증가시키는 것이 과제 수를 증가시키는 것보다 안정성 있는 결과를 보였다.
This study covers those measurement conditions that are important to minimize errors and give participants more accurate score in the Korean speaking proficiency test.
This study looked at how the index of dependability changed by adjusting the number of raters and the number of tasks at each scoring stage using the generalizability theory approach. The preliminary scoring results and the two scoring workshops’ results for the raters were analyzed by single-variable generalizability theory.
However, the scoring results of the actual simulated test were analyzed by multivariate generalizability theory.
After the analysis, it appears that the variation in the index of dependability due to the construct of scores was not significant. Indeed, the number of constructs did not have a significant impact on the reliability of the scoring. On the one hand, the number of constructs is not significant.
On the other hand, the number of raters had a higher influence on the results than did the number of constructs. Furthermore, after analysis, it appears that the proportion of participants’ variance components according to their speaking skills is high. In fact, the score varies depending on the participant’s speaking skills.
In a nutshell, the covariance analysis also showed a high covariance among the constructs, confirming that each construct measured the different abilities of speaking, which means that the test has a high validity.
Moreover, regarding the actual simulated test, the index of dependability was 0.85516, with a high reliability. Last but not the least, by increasing the number of raters, we can obtain a more stable result than by increasing the number of tasks.