음성기반 대화형 디바이스의 정보격차 해소 기대

도비호 | 2017년 04월 05일 | 댓글 없음
카테고리: HCI | 태그: conversational user interface, cui, dialogue, nature language dialogue, user interface

음성 기반 대화형 디바이스

아마존 알렉사 처럼 화면은 없고 스피커와 마이크만 있는 디바이스에 말로 대화 하듯이 하는 제품을 ‘스피커 형태의 음성 기반 대화형 디바이스’ 이라고 부를 수 있다.

스마트폰에 시리나 오케이 구글 같은 것이 있었지만, 범용적인 기능을 하는 컴퓨터 같은 스파트폰 보다는, 소리나 음성으로만 하는 디바이스라는 점은 또 다른 사용의 형태를 만들 수 있는 것 같다.

HCI 에서 사용자 인터페이스의 흐름

HCI에서 인간과 컴퓨터의 상호 작용의 기본 메타포는 대화인데, 이 대화를 하기 위해서는 사용자 인터페이스를 통해서 하게 되고 , 이것은 명령어를 키보드로 쳐서 하던 CUI(Command User Interface) 에서 시작해서 아이콘, 마우스로 하던 GUI(Graphical User Interface) 로 획기적인 발전을 했고, 그 다음에는 TUI (Touch User Interface) 로 발전 했다. 그리고 요즘은 대화형 CUI(Conversational User Interface) 또는 Natural Language Dialogue User Interface가 또 하나의 대안으로 나오고 있다. 재미있게도 약자로면 보면 CUI 에서 CUI 이다.
터치 인터페이스 다음이 대화형 인터페이스라는 것은 아니다. SMS가 스마트폰으로 들어가고 메신저의 사용이 붐이 되고 전연령대가 사용하게 되면서, 대화형 화면에 익숙해졌지만, 이게 시각적으로 보는 화면의 인터페이스 영역이라, 화면이 필수적인 경우에는 입력 방식으로는 마우스가 아닌 손가락으로 터치하는 것이 직접 조작에 해당하고, 화면으로 메신저 같은 대화형 UI 는 텍스트형 기반이라 한눈에 볼 수 없고 단계적 처리를 하게되어 더 불편하게 되는 경우가 많기 때문이다.
그러나 화면 대신 음성으로 시스템과 대화를 하는 경우에는 잇점이 있는데, 음성 또는 소리 기반의 인터페이스만만으로도 상호작용하기에는 많은 다양한 정보의 형태와 인터렉션 형태가 있으니 각 인터페이스 방식은 이에 적절한 태스크가 있는 것 같다.
최근에 음성 기반의 대화형 인터페이스의 현실화 되고 있는데, 인터페이스의 역사를 보면, 컴퓨터를 사용하기 위해서 인간 사용자는 컴퓨터가 이해하기 쉬운 인터페이스 규칙을 인간이 배워서 해야 했던 명형어 입력 방식에서 점차 인간이 말하고 듣고 하는 인간 사용자 중심의 인터페이스가 되어가고 있는 것을 알 수 있다.
그런 의미에서 말로만 하는 대화형 인터페이스를 눈여기 보게 되는 것 같다.
사실 이런 사용자 인터페이스의 변화는 예측 못한 것이 아니라 아주 아주 오래전에 그려 졌지만, 이제야 컴퓨터 기술이 발전해서 일반인들이 사용해볼 수 있는 상황이 된 것 같다.

여러 사용 절차를 한번에

음성으로 명령을 내릴때 가장 좋은 점은, 컴퓨터나 스마트폰이 자기를 사용하라고 해 놓은 방식이 아니라, 내 방식대로 명령을 내릴 수 있다는 점이다. 이 점은 컴퓨터에서 어플을 찾고, 설정하고 버튼을 누르고, 또 다른 어플을 찾고 버튼을 누르는 등의 일을, 내 원래의 의도를 그냥 말로 하면 된다.
간단한 예를 들면, 아이폰의 시리로 내가 가장 많이 이용하는 것은 물 끓일때 “시리야! 30분 후에 알람 맞쳐줘” 이다.
이걸 하려면 아이폰 홈 버튼을 눌러서 알림앱을 찾고, 그런 다음 30분 타이머를 맞추고 실행을 시켜야 한다. 아이폰이 전원에 꼽혀 있으면 그냥 말로 하면 된다.
아이가 잠 안자고 있으면 내 방에서 이런다.
“시리야! 00한테 잠 자라고 문자 좀 보내줘” 라고.
이걸 평소에 하듯이 하려면 아이폰을 찾아서 메시지 앱을 켜고, 목록에서 아이 이름을 찾고, 잠자라고 텍스트를 입력하고 보내기 버튼을 누른다.
이 사례들은 한개의 어플을 사용하는 방식인데, 워크플로우 앱 처럼 앱간의 여러 태스크를 할 수도 있다.
예를 들어, “최근 사진 한장을 트위터와 인스타그램과 페이스북에 올리고 멋진 저녁이라고 써줘” 라고 말이다.
말로 하면 컴퓨터 사용자 인터페이스를 통해서 해야할 것들이 말로 다 끝난다.
가끔 기획자들이 개발자에게 스펙을 이야기할때 , 해야 하는것은 있는데 구체적이지 않으면 나는 “시리 한테 하듯이 말하네” 라고 하는데, 그건 목적만 있고, 절차들이 없다는 의미이다.
이게 반대로 해서 그렇지, 원래 컴퓨터는 인간이 하는 것을 컴퓨터로 할 수 있게 한 것이다. 인간의 의도나 목적을 절차적으로 만들고, 이걸 할 수있는 소프트웨어들을 만드는 것이다.

글을 읽지 못하는 사람들을 위한 (문맹, 어린이)

말과 글 중 어떤 것을 먼저 배울까? 그렇다. 말을 먼저 배운다. 사람이나 사물, 동물의 이름도 말로는 알아도 글로 쓸줄 알거나 글로 쓰는 것은 글을 배우고 나서이다.
글을 읽거나 쓸줄 모르는 것을 문맹이라고 하는데, 문맹이라도 사물의 이름도 알고 말로 의사 소통을 다 할 수 있다.
내 어릴적에 친척 할머니는 글자를 못 읽으셨는데, 사는데 큰 불편함을 느끼지는 않으셨다고 한다. 친할머니 집에 오시는 그 친척 할머니께 어떻게 찾아 오시냐고 했더니 전봇대와 건물을 보고 찾아 온다고 하신것이 기억이 난다.
스마트폰의 시리나 오케구글, 그리고 그냥 스피커 형태의 인포메이션 어플라이언스 같은 이런 제품들은 말로 뭔가를 찾고 뭔가를 할 수 있게 한다. 아직은 그냥 “내일 날씨는 어때?” 이 정도의 정보 검색 수준이지만, 안심하고 뭘 사거나 할 수도 있을 것이다. 아마존 알렉사는 쇼핑에 특화되어 시작하기도 한것 처럼 말이다.
아직 글을 배우지못한 어린아이도 마찬가지이다. 궁금한 것을 혼자서 찾아보려면 글자를 알아야 하지만, 음성으로 묻고 음성으로 알려주니 내용 자체는 알 수 있다.

친척 아이 중에 아직 글을 모르는 미취학 아이가 있는데, 언니들과 카톡을 하고 싶지만 글을 못 쓴다. 그런데 카톡을 잘 사용한다. 가만히 보니, 음성 녹음을 해서 보내고, 음성 녹음을 해서 듣는다. 멀리 떨어져 있으면서 음성을 녹음해서 카톡으로 보내고 받아서 커뮤니케이션 하지만, 글을 읽지 못하니 다른 기능을 사용하지 못한다

이건 중국 사람들이 글자 입력하기 어려워서 위쳇으로 텍스트 입력안하고 말로 녹음해서 보내고 말로 듣는 것과 비슷한 것 같다.
최근 BBC 뉴스에 따르면 4살 아이가 아이폰의 시리로 의식 잃은 엄마의 목숨을 살렸다는 기사가 있었다.
엄마가 쓰려저 의식을 잃자 아이가 엄마의 손가락을 아이폰에 대서 아이폰의 암호를 풀고, 시라한테 999(영국의 119)로 전화를 걸어 달라고 했고, 119와 통화를 해서 구급차가 왔다.

.
중국 청두에 갔을때, 어설픈 중국어를 외어서 이야기 했더니 택시 기사가 중국어로 자꾸 말을 걸어서 , 바이두 통역앱을 켜고 말을 하라고 했는데, 읽어보니 “천천히 이야기 하면 알아 들을 수 있어?” 라고 한 것이었다. 나는 못한다고 고개를 저였다. ㅋㅋ
시각적 주의를 하기 힘들지만 소리로는 되는 달리가 할때나 자동차에서도 좋은 것 같다. 자동차는 음성도 주의 리소스를 쓰기 때문에 음성도 안하는 것이 좋지만 말이다.

이렇게 간단한 상황에서 부터 다양한 상황이 있는 것 같다

정보 격차를 줄이는 계기가 될 수 있으면

글을 잘 못읽은 사람도 있지만, 컴퓨터에 친숙하지 않은 사람들도 있다.
노인이나 어린이 뿐만 아니라 장년층도 그렇고, 청년 중에서도 스스로를 ‘기계치’ 라고 하는 사람도 그렇다.
그러나 말은 누구나 한다. 목적을 가지고 있고, 말을 할수 있고 들을 수 있다면, 컴퓨터가 이제는 해줄 수 있을 수도 있다. 아직 해준다는 말은 못하겠다.이젠 이런 기술들이 현실화 되고 있으니 말이다.
문맹, 정보 기술 수준에 국한되지 않게 원하는 모든 사람들이 정보에 접근하고 원하는 것을 할 수 있으면 좋겠다. 어찌 보면 컨텐트나 기능은 가만히 있고, 인터페이스만 음성으로 하고 음성으로 나오는 것만으로도 이렇게 정보 격차를 줄일 수 있을지 모른다.
물론 시리나 오케 구글을 쓰기 위해서 스마트폰을 사야하거나, 아마존 알렉사 같은 스피커를 사야 하는 그런 비용적인 측면에서는 더 싸져야하고 말이다.
어찌 보면 스마트폰 보다는 스피커 형태를 더 눈여겨 보는 것은, 스마트폰을 자유스럽게 쓰는 사람이 아닌 사람을 생각해서인 것 같다. 그리고 항상 손안에 있어 나만을 위한 것 같은 것이 아니라, 거실이나 방에서 다른 사람과 같이 공유하는 그런 소리와 음성은 내 손안의 스마트폰 보다는 거실에서 같이 보느 TV 같은 개념이어서 일 것 같기도 하다.

인공지능, 음성 인식, 음성합성, 자연어 언어 처리 등등의 컴퓨터 기술은 , 정보를 더 잘 생산하고 활용하는데 도움을 주겠지만, 여러 기술 중에 이 기술들은 글을 몰라도, 컴퓨터 기기에 친숙하지 않아도 컴퓨터로 원하는 것을 할 수 있게 도와줄 수 있을 것 같다. 그래서 더욱 나는 이것들을 기대하는 것 같다.