평균 낼 수 없는 걸 평균을 냈으니···

별점 5점이란 환상: 배달의민족 평가 점수 평균과 내가 느낀 만족이 다른 이유


Image result for 별점
Retrived from https://xetown.com/topics/1105861

배달 음식 가게 리뷰를 보다 보면 별점 5점 평가를 자주 접하곤 한다. 그런데 별점 평가가 평균이 돼 있다. 단지 “만족합니까?” 한 가지 질문을 하고는 무엇에 만족해서 높은 점수는 줬는지는 모를 평가로 다른 사람의 응답을 평균을 계산하는 식이다. 그도 그럴 것이 무엇이 만족스러웠는지도 묻지 않는다.

Image result for 별점 배달의민족
Retrived from https://ryun1004.tistory.com/680

이러한 방식을 Likert scaling이라 부른다. 정확히는 별점 평가가 결코 Likert scaling이라 할 수 없음에도.

5점 평가의 정확성?

별점 평가가 정확할까? 아니다. 부정확하다. 5점 평가는 동양에서 부정확하게 동작한다. 그렇다면 7점 평가로 늘리면 더 정확한가? 아니다. 역시 부정확하다. 동양권에서 실험한 바로는 그렇다. 선택지를 늘리면 정확할 거 같지만 선택지를 늘리면 늘릴 수록 더 부정확해졌다. 가장 정확한 응답이 이루어졌던 건 4점 척도 조건이었다.

그래서 각종 만족도 조사에서 1점부터 5점을 매기라고 하고 있지만, 이상하게도 정확한 측정이 불가능하다. 맥락에 따라 “보통이다” 혹은 “매우 만족”을 선택할 테니까. “보통이다”를 선택하는 응답 경향성을 중심 응답 경향성(MRS: Middle Response Style), “매우 만족”을 선택하는 응답 경향성을 “극단 응답 경향성”(ERS: Extreme Response Style)이라 부른다.

Retrived from http://www.jeenoo.co.kr/bbs/board.php?bo_table=check1&wr_id=4165&page=&page=

특히 여러 연구에서 보고된 바를 정리한 결과를 따르면, 동아시아권 국가에서 실제 인식보다 더 강하게 응답하는 경향(극단 응답 경향성)이 다른 국가에 비해 강했다. 이러한 결과가 “매우 만족”평가만을 원하는 상황이 되었고, 평가가 보상 문제와 엮이면서 더 상황을 악화하는 것 아닐까.

근본 질문: 근데 별점이 평균 낼 수 있는 거였나?

그런데 근본 질문을 놓치면 안 된다. Likert scaling으로 얻은 답변을 평균을 낼 수 있었나? Likert scaling은 원래 서열 척도(ordinal scale)로 질문을 한다. 그래서 원래는 서열 척도로 받은 응답을 수치로 변환하는 계산 방식이 있다. 그런데 어쩌다 보니 후대 연구자가 계산이 편하도록 1부터 5라는 숫자를 부여하게 되었고 지금까지 문제 의식 없이 사용해 왔다. 즉, 별점은 평균 내선 안 된다. 이게 원칙이다. 최근 연구는 5점 이하의 척도는 반드시 서열 척도로 취급하여 계산을 해야 한다 보고했다.

그리고 한 가지 더. Likert scaling 자체가 부정확한 상황이 있다. 질문에 어떤 의도가 있어 만족을 묻거나, ‘만약에’라는 말이 붙거나 두 가지 이상의 조건이 붙어서 질문이 애매모호한 경우다. 이런 상황에 빠지면 단순 합산한 평가 점수가 높다 하더라도 이를 믿을 수 없고 실제로는 중간 어딘가 평가를 한 사람의 의견이 더 중요해진다.

이러느니 차라리 좋아요 버튼이 낫다!

사람은 생각보다 대충 판단하는 존재다. 4점 척도 조건을 주었을 때 5점과 7점보다 더 정확했음을 상기해 본다면, 선택지를 좀 줄여 줄 필요가 있다. 그런데 3점을 준다면 중심 응답 경향성이 나타날 가능성이 있다. 애매모호하면 ‘보통’이라 하는 현상이다. 그러면 결국엔 남는 건 만족 또는 불만족이다. 정말 Likert scaling처럼 점수를 계산하고 싶다면 차라리 좋아요 버튼 하나면 된다. 업데이트 후 종료에서 누적 기제(cumulative response process)와 전개 기제(ideal response process)를 설명할 수는 없지만 실험 결과는 분명하다. 예 또는 아니오로 구성된 자료가 훨씬 분석하기에 좋았다.

나쁜 평가에 더 귀 기울이는 사회가 되려면 피드백 기술이 필요하다.

좋은 평가에는 상세한 이유가 없으나, 나쁜 평가에는 상세한 이유가 있다. 무엇인가 더 잘 해 낼 수 있을 거 같은데 기대보다 결과가 안 좋은 경우 충분히 그럴 수 있다. 그런데 나쁜 걸 기술 없이 말하면 상대는 듣지 않는다. 나쁜 걸 악평을 쏟아내기 보다는 잘 할 수 있을만한 걸 어떻게 하면 될지 강점을 중심으로 조곤조곤 말해 보는 게 어떨까.

평가는 성장과 도약을 위해 존재해야 하지, 누군가를 망하게 해서는 안 된다.

Böckenholt, U. (2017). Measuring response styles in Likert items. Psychological Methods, 22(1), 69–83. https://doi.org/10.1037/met0000106
Braga, J. N., Ferreira, M. B., & Sherman, S. J. (2015). The effects of construal level on heuristic reasoning: The case of representativeness and availability. Decision, 2(3), 216–227. https://doi.org/10.1037/dec0000021
Cao, M., Drasgow, F., & Cho, S. (2015). Developing Ideal Intermediate Personality Items for the Ideal Point Model. Organizational Research Methods, 18(2), 252–275. https://doi.org/10.1177/1094428114555993
Carter, N. T., & Dalal, D. K. (2010). An ideal point account of the JDI Work satisfaction scale. Personality and Individual Differences, 49(7), 743–748. https://doi.org/10.1016/j.paid.2010.06.019
Drasgow, F., Chernyshenko, O. S., & Stark, S. (2010). 75 Years After Likert: Thurstone Was Right! Industrial and Organizational Psychology, 3, 465–476. https://doi.org/10.1111/j.1754-9434.2010.01273.x
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 22(140), 1–55.
Plieninger, H., & Meiser, T. (2014). Validity of Multiprocess IRT Models for Separating Content and Response Styles. Educational and Psychological Measurement, 74(5), 875–899. https://doi.org/10.1177/0013164413514998
Rhemtulla, M., Brosseau-Liard, P. É., & Savalei, V. (2012). When can categorical variables be treated as continuous? A comparison of robust continuous and categorical SEM estimation methods under suboptimal conditions. Psychological Methods, 17(3), 354–373. https://doi.org/10.1037/a0029315
Schoonees, P. C., van de Velden, M., & Groenen, P. J. F. (2015). Constrained Dual Scaling for Detecting Response Styles in Categorical Data. Psychometrika, 80(4), 968–994. https://doi.org/10.1007/s11336-015-9458-9
Tay, L., Ali, U. S., Drasgow, F., & Williams, B. (2011). Fitting IRT Models to Dichotomous and Polytomous Data: Assessing the Relative Model–Data Fit of Ideal Point and Dominance Models. Applied Psychological Measurement, 35(4), 280–295. https://doi.org/10.1177/0146621610390674
Tutz, G., & Berger, M. (2016). Response Styles in Rating Scales: Simultaneous Modeling of Content-Related Effects and the Tendency to Middle or Extreme Categories. Journal of Educational and Behavioral Statistics, 41(3), 239–268. https://doi.org/10.3102/1076998616636850
Voerman, L., Korthagen, F. A. J., Meijer, P. C., & Simons, R. J. (2014). Feedback revisited: Adding perspectives based on positive psychology. Implications for theory and classroom practice. Teaching and Teacher Education. https://doi.org/10.1016/j.tate.2014.06.005
Wakita, T. (2004). Assessment of the distance between categories in rating scales by using item response model. The Japanese Journal of Psychology, 75(4), 331–338. https://doi.org/10.4992/jjpsy.75.331
Wakita, T., Ueshima, N., & Noguchi, H. (2012). Psychological Distance Between Categories in the Likert Scale: Comparing Different Numbers of Options. Educational and Psychological Measurement, 72(4), 533–546. https://doi.org/10.1177/0013164411431162
Yang, Y., Harkness, J. A., Chin, T., & Villar, A. (2010). Response Styles and Culture. In J. A. Harkness, M. Braun, B. Edwards, T. P. Johnson, L. E. Lyberg, P. P. Mohler, … T. W. Smith (Eds.), Survey Methods in Multinational, Multiregional, and Multicultural Contexts (pp. 203–223). Hoboken, NJ, USA: John Wiley & Sons, Inc. https://doi.org/10.1002/9780470609927.ch12