CHI 2006, Does Think Aloud Work?

CHI2006, 4월 26일, 수요일 오후 패널 세션으로 씽크얼라우드에 대한 토론이 있었다.

패널토의 제목은 Does Think Aloud Work? How Do We Know? 였다.

씽크얼라우드 프로토콜은 에릭슨과 사이몬이 만든 것으로 사용성 테스트에서 가장 많이, 중요하게 사용된다. 이 패널 토의에서는 씽크얼라우드가 정말 효용성이 있는지와 유용성이 있는지에 대해서 토론했다.

패널중 아래 사진의 스크린에 있는 Ted Boren 은 사용성 테스트 및 씽크얼라우드에 대해서 할말이 많은 것 같았다. 또한 경험도 많은 것 같았고, 내공도 있어 보였다. 내가 모르는 사람이었는데, 검색해 보니 씽크얼라우드에 대한 논문을 쓴적이 있고, UPA 에서도 발표를 한 적이 있었다. 찾아서 논문을 읽어볼 필요가 있는 것 같다.

여기에는 A Practical Guide to Usability Testing  책의 저자인 Joe Dumas 가 나왔다. 이 책은 Handbook of Usability Testing 과 더불어 가장 오래된 사용성 테스트책이지만 내가 생각하기엔 아직 까지도 가장 좋은 책이다.

Joe 는 현재 미국의 Bentley Colleage에 있고, 사용성 테스트 관련 논문도 심사 하는 것 같았다.
Joe는 씽크얼라우드 연습의 모범 사례라고 하면서 비디오를 보여주었다. 그것은 그의 책에 나와 있는 데로 스카치테입을 조립하는 것이었다.

CHI2006

Joe Dumas

사용성 테스트 중에 참가자가 말을 안하면 어떻게 하느냐는 질문에 패널들은이렇게 답했다

"ummm", "OK" ,"and your are…."
"keep talking.. :, :remember thinking aloud"

씽크얼라우드를 기여코 안하면 어떻게 하느냐는 질문에 Joe 는 이렇게 답했다.

"그냥 내비 둬라"

본 테스트 실시전에 20분 정도의 씽크얼라우드 훈련이 나쁘냐는 주제에 대해서는 Joe는 이렇게 답했다

"좋은 품질의 데이타를 얻기 위해서는 20분 정도라도 훈련이 필요하다. 20년 경험상 훈련은 유용했다. "

좋은 참가자는 어떤 사람인가?

"Very verbal person"

모더레이터가 항상 참가자의 씽크얼라우드를 해석한다 어쩌냐?

"씽크얼라우드 자체가 문제가 아니라 모데레이터가 씽크 얼라우드를 해석하는 스킬을 향상시켜야 한다"

갑자기 청중을 항해서 씽크 얼라우드를 배운 적이 있느냐고 손을 들어보라고 했다. 거의 없었다.

그리고, RITE 에 대한 토론이 있었다. RITE 를 해본 사람이 있느냐고 청중을 항해 물었다. 꽤 많았다. 그리고는 참가자 1명가지고 하는 사람 손을 들으라고 했더니 RITE 한다고 하는 사람 수랑 비슷하게 들었다.

그리고 가장 중요한 Concurrent Thinkging Aloud와 Retrospective Thinking Aloud 에 대한 논의가 있었다. 태스크를 수행하면서 씽크 얼라우드를 하면 성과에 영향을 미칠 수 있다는 주장이 있고, 말을 한 것 때문에 참가자가 행동을 변경한다는 주장이 있었다. 실제로 이런논문을 본적이 있었는데, 잘기억은 안난다. 찾아 봐야 겠다.

CTA는 이런 문제점들이 있을 수 있기 때문에 Retrospective Thinking Aloud 기법이 사용되기도 한다. 즉 태스크 수행할 때에는 말을 하지 않고, 다 한 후에 그때 뭐 했는지 기억하게 하는 것이다. 아직 CTA 나 RTA 에 대한 효용성과 신뢰성에 대해서는 이론적으로 검증된 것은 없다. 발표자중 워싱톤 대학에서온 교수가 뒷날 논문으로 발표를 했는데, 이슈가 있었다. CTA 나 RTA 에 대해서는 좀더 이론적으로 검증되어야 할 것 같다.

목요일 Expreince Report 세션에 삼성전자에서 "Understanding Users in Consumer Electronics Experience Design" 이라는 제목으로 발표를 했다. 논문은 아니고 실무자 이슈를 다루는 세션이었다. 사용성 테스트에서 stimulated recall 이라는 새로운 접근을 했다고 해서 참석했는데, 그것은 RTA 방식이었지 새로운 것은 아니었다. 삼성전자는 영국의 학교와 같이 필드리서치를 하면서 가정집에서 셋업박스를 사용하는 것을 녹화를 하고, 그 다음날 가서 녹화된 비디오를 보면서 그때 뭐했는지를 인터뷰 하는 것이었다. 이것은 이미 지난 사건에 대해서 그때를 회상시켜서 하는 RTA 방식이었다. 물론 어떻게 진행했느냐가 RTA 가 될 수도 있고, 그냥 인터뷰일 수도 있다.

A Practical UT 인지 Handbook of UT 인지 기억은 나지 않지만, RTA 방법으로 태스크가 끝나고 나서 참가자에게 비디오를 보여주고 그때 무슨 생각을 했는지 물어보는 방식을 책에서 쓰고 있었다. 내가 가진 책이 1994년도에 나온 2판인데, 좀 오래된 이야기이다.

나는 유치원과 유아, 그리고 30~40대의 말을 잘안하는 연령대의 참가자와 ,말하는 속도와 보는 속도의 차이 때문에 보고되지 않은 부분의 데이타를 검출하기 위해서 2004년 부터 사용성 테스트시에 아이트래팅을 하고 있다. 그런데 나는 언제 아이트래킹 스터디를 해야 할지를 논문으로 쓰려고 했는데, 올해 2006 한국HCI학회에서 떨어졌다 (http://dobiho.com/?p=229). 쩝.

패널 중 워싱톤 대학에서 온 교수는 이 부분을 이야기 했고, 목요일 Usability Methods 세션에서 "The Validity of the Retrospective Think-Aloud Method ad Measured by Eye Tracking" 이란 논문을 발표 했다. 참고하면 좋을 듯 하다. 아마도 오랫만에 이런 논문이 나온 것 같다.

나는 기본적으로 CTA와 ET를 한다. 그리고 디브리핑 과정에서 RTA를 한다. 물론 어떻게 진행하느냐의 차이가 RTA가 씽크얼라우드가 될 수도 있고, 인뎁스 인터뷰와 같이 의견이 될 수 도 있다.

그리고 패널토의에서도 언급되었지만 사용성 테스트에서 하는 씽크얼라우드는 에렉슨과 사이몬이 만든 씽크얼라우드 프로토콜를 제대로 하지 못하고 있다. 참가자와 레퍼를 형성하고 연습을 잘 시켰느냐에 따라서 씽크얼라우드가 나올 수도 있고, 안나올 수도 있고, 나와도 이상하게 진행될 수 있다. 정말 웃기는 일이 벌어지기도 한다.

Joe 도 중요하게 언급을 했지만, 참가자와의 레퍼와 씽크얼라우드 훈련과 진행 방법이 큰 관건이다. Ted 도 언급했는데, 이러한 절차에 대해서는 아직 표준적인 가이드라인이 거의 없는 것이 문제라고 지적하고 있다.

이런게 노하우인데, 실험심리학 분야나 사용성 테스트 분야에서 참 알려지지 않은 것 같다.

 

Related Post