이젠 인과가 아니라 상관이라고?

와이어드지 6월 23일자에 흥미로운 기사가 났다. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete 라는 제목이다.   논리학이나 과학철학에 대해서 전혀 모르고 인지과학수업에서 과학철학수업 한시간 들은게 다라서  내 생각이 있는 것은 아니지만 좀 생각좀 해보려고 글을 읽어보았다. 영어글이라 뭔 말인지 정확히는 모르겠지만, 한글로 된 블로그 글을 같이 읽어보니 조금 눈치를 챌 수 있을 것 같기도 하다.

보통 과학에서는 현상을 볼때 결과에 대해서는 원인이 있다고 보고 그 원인을 밝히고 모델을 세우는 일을 한다. 원인과 결과를 인과라고 부르고, 결과에 대해서 원인은 못찾았다고 하더라도 서로 관계는 있다는 것을 상관이라고 한다. 과학은 상관이 아니라 인과를 찾는 것을 더 의의로 보는 것 같다.

이 기사의 주장은 그동안 과학은 상관이 아니라 인과가 중요하다고 했지만, 컴퓨터 세상에서는 데이타가 겁나게(패러타이트) 많으니 원인을 밝혀내지 않고도 어느 정도 통계적으로 상관이 높아지면 그것이 진리가 아니냐는 것이다.

그러면서 구글의 얘기를 하는데, 구글의 철학은 이 페이지가 저 페이지가 왜 좋은지는 모르고 그냥 들어오는 링크의 통계로 good enough 정도로 좋다는 것을 안다는 것이다. 그러니 의미적이나 인과에 대한 분석이 필요 없다는 것이다.

Google’s founding philosophy is that we don’t know why this page is better than that one: If the statistics of incoming links say it is, that’s good enough. No semantic or causal analysis is required.

겁나게 많은 데이타로 하면 더 잘 할 수 있으니,  가설을 세우고 모델링을 하고 테스트를 하는 과학적인 방법을 버려야 한다고 한다.

But faced with massive data, this approach to science — hypothesize, model, test — is becoming obsolete.

겁나게 많은 (patabytes) 데이타가 있으니 상관 정도면도 충분하다고 한다. 인과를 밝히는 시대는 아니라는 주장이다.  가설 없이 컴퓨터에 숫자를 집어 넣으면 찾아 준단다.

There is now a better way. Petabytes allow us to say: “Correlation is enough.” We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot.

그리고 이런 얘기도 한다. 먼저 수학적으로 데이타를 본 다음에 , 나중에 정황을 만든다고 한다.

It forces us to view data mathematically first and establish a context for it later.

물론 세상은 복잡해서 모든 것을 설명할 수 없다. 실제 세상은 통제를 좋아 하는 이론과는 달리 복잡하니깐 말이다.

인지과학의 역사에서 보면 결과에 대해서 원인은 모르겠지만 결과에 영향을 줄 것 같은 요소들이 서로 학습이나 무슨 짓을 해서 결과를 내 놓는다는 연결주의가 설명력을 가지게 되었다고 한다. 기호주의가 이런거였구나 하는 정도였던 터에 나 한테는 충격이어서 텀페이퍼로 양자컴퓨터에 대해서 썻던 것이 기억 난다. 그러나 인지과학수업시간에 들은 바로는 연결주의가 완전히 설명을 하는 것은 아니라고 했다. 인간의 뇌의 동작 메카니즘이 그런 것인지는 모르겠지만,과학을 연결주의처럼 충분한 상관으로만 접근하는 것은 좀 아닌 것 같다.

‘가설 없이’ 란 말은 내게 ‘아무 생각 없이’ , ‘무책임하게’ 로 들린다. 여러 분야의 과학자는 필요 없고 컴퓨터 과학자만 있으면 되는 것처럼 들린다. 극단적으로 얘기하니깐 나도 극단적으로 얘기해보면 뭐하러 각 분야에서 연구를 하겠는가! 클러스터 컴퓨터, 통계 프로그램과 데이타를 설명할 수 있는 정도의 과학자만 있으면 되는데 말이다.

‘설득의 논리학’ 이란 책에 보니 논리학에서 과학적탐구 방법은 가설연역법이라고 한다. 즉, 문제를 해결할 수 있는 가설을 내 놓고, 그것으로 부터 연역한 어떤 예측을 행한 다음, 그 예측이 실험이나 관찰로 증명되면 진리로 받아들이는 방법이다. 그런데 이 글은 겁나게 많은 데이타와 컴퓨터는 이러한 연구방법 보다 더 낫다는 주장에서 기존의 연구 방법을 버리라는 얘기 까지 한다.

나는 컴퓨터를 통한 상관이 진리를 찾을 수 있다는 데에는 어느정도 동의한다. 원인을 찾는 기존의 연구 방법에 컴퓨터와 계산 가능한 정보로 다른 수단이  생겨서 보완을 하는 것 말이다.  내 경우도 웹 로그를 데이타 마이닝해서 뭔가를 발견한다. 대부분 왜 그런지에 대해서 설명을 찾는데 고생을 한다. 그러나 대체하는 데는 동의할 수가  없다.

과학철학이나 과학사는 잘 모르지만, 아인쉬타인은 상대성 이론이란 모델을 세웠고, 그 모델이 실험으로 입증되었다. 그러나 그런 이론들을 계산 가능한 데이타를 클라우드 컴퓨터로 돌린다고 나올 수 있는 것은 아닌 것 같다. 만약 그렇다면  조금만 시간이 지나면 노벨상 수상을 할 정도의 업적을 이룰 만한 이론들이 컴퓨터에서 막 쏟아져 나오게?

이 글은 순전히 구글을 위해 만들어진 기사같다. 데이타 처리가 검색 뿐만 아니라 과학적인 접근 방법을 바꿔야 한다는 논리학이나 과학철학 정도의 얘기 까지 확대하고, 그 뒤에는 구글이 있다는 식이다.

아무리 세상이 복잡해도 상관이 아니라 원인을 설명하도록 노력해야 할 것 같다. 정량적인 데이타의 확률적인 숫자가 충분한 상관임을 나타내는 것도 의미가 있지만  여전히, 아니 모델을 세우는 일도 중요한 방법일 것 같다. 이런 논리학인지 철학 같은 주제는 잘 몰라서 내 뚜렷한 내 생각은 없지만 대충  이정도인 것 같다. 아! 이런 공부가 필요한 것 같다! 어째 갈수록 아는 것 보다 모르는게 더 많이 보인다!

야후!의  UER  헤드인 클라우스도 The End of Theory? I hope not! 라는 블로그글을 통해 이해와 설명을 포기하지 말아야 한다고 한다.

The fact that models and theories often fall short of explaining empirical phenomena – whether in biology, physics or the social sciences – should not make us abandon the quest for understanding and explaining.

Related Post


  • 리카르도

    덕분에 와이어드 오랬만에 들러봤습니다.
    21세기 디지털 유목민의 수장이 되려면 필수 코스라는
    싸이트라고 익히 듣고 있었습니다.

    어찌보면 비선형적인 구어적인 21세기를 예측한 맥루헌의
    또다른 예언적중 이라고 봐도 무방할것같네요
    맥루헌을 아시는 분들이라면 이런 대혼란이 그저 즐겁기만
    하지 않을까 싶습니다. :)