Why Classification in the Wild?
안데르스 에릭손의 명저 <1만 시간의 재발견>을 읽고 뭔가 훈련하고 싶어졌는데, 당시에는 훈련하고픈 대상이 특별히 떠오르지 않았다. 그러다가 며칠 전에 게르트 기거렌처의 <Classification in the wild>(2020)를 읽기 시작했는데 내용이 상당히 마음에 들었다. 그래서 당분간 기억하기 & 요약하기 훈련을 이 책 대상으로 해보려고 한다.
대략 이런 식으로 훈련 프로그램을 설계했다.
- 책을 일정 부분 읽고, 덮고, 핵심 내용을 기억나는대로 적는다.
- 책을 다시 읽으면서 얼마나 핵심 내용이 빠지지 않고 담겼는지 5점 만점으로 평가한다.
- 4.5점 이상이 될 때까지 반복한다. 반복은 즉시 할 수도 있고 다음날에 할 수도 있다. (spaced repetition)
- 4.5 이상이 되면 SNS와 블로그에 올린다.
- 이 과정에서 내용에 대한 이해를 더 높이기 위해 외부 자원을 적극 활용한다. 기존에 내가 알고 있던 지식, 저자의 다른 책, GPT, Wikipedia 등등)
- 책 내용에서 오랫동안 기억하면 유용할 만한 내용을 몇 개 뽑아 Anki로 옮긴다.
서문: Why Classification in the Wild?
분류는 인간의 본성이자 인간의 아주 기본적인 인지 활동이다. 인간은 어떻게 분류라는 행위를 하는가?
실험실의 인지심리학 vs 야생에서 분류하기
기존 인지심리학에서는 stable env에서 실험한다. 색깔, 모양 같은 그룹핑 등.
그러나 현실에서는 uncertainty가 있다. 이건 probability가 낮다는 말과는 다르다. 카지노에서는 리스크를 카운팅할 수 있으나 현실에서는 경우의 수가 뭔지도 모른다.
머신러닝 vs 야생에서 분류하기
머신러닝에서도 분류 많이 한다. 근데 다 블랙박스다. 만든 개발자도 어떻게 돌아가는지 모른다. 알더라도 보안, 특허 등 이슈로 숨긴다.
하지만 알고리즘의 투명성은 굉장히 중요하다. 알고리즘이 투명해야 실천가들이 이해, 기억, 교육, 실행하기 쉽기 때문이다.
야생에서의 분류 휴리스틱(e.g., fast-and-frugal)은 단순하지만 효과적이며, 무엇보다도 투명하다.
우리는 실천가들이 실제로 야생에서 어떤 식으로 분류하는지 뽑아낼 것이다. 그리고 그걸 더 개선할 수 있는 방법도 제안할 것이다.
이를 통해, 불투명한 알고리즘을 사후 분석하는 게 아니라 처음부터 더 투명하면서도 충분히 효과적인 알고리즘을 만들 수 있다는 것도 보여주고자 한다.
이 책의 두 가지 주요 주장
- 야생에서는 간단한 규칙도 상당히 잘 작동한다.
안정된 (stable, well-defined) 환경에서는 데이터가 많고 룰이 복잡할수록 잘 예측한다. 하지만 야생에서는 오버피팅될 위험이 있다. 데이터의 양과 무관하게 단순한 룰이 outperform할 수 있다.
- 알고리즘의 투명성은 굉장히 중요하다.
우리는 갈수록 알고리즘의 영향을 많이 받고 있다. 알고리즘은 우리가 건강한지 아닌지, 신용도가 얼마인지, 정치성향이 어떠한지 분류한다.
참여민주주의의 시민으로서, 알고리즘이 민감한 도메인(건강, 부, 법률 등)에서 어떤 원리로 동작하는지 이해하는 건 아주 중요하다. 그래야 일상에서 올바른 의사결정을 할 수 있기 때문.
알고리즘을 이해하려면 투명해야 하는데 위에서 언급한대로 요즘의 알고리즘은 그렇지 않다.
그러나 알고리즘이 투명하면서도 정확도가 높은 건 충분히 가능하다.
짧은 생각
참여민주주의 시민에게 알고리즘 이해가 왜 중요한지 자세히는 이해되지 않아서 챗지피티와 얘기를 나눠봤는데 여전히 좀 모호했다. 정책 입안자 등에게 ‘그러니까 복잡한 알고리즘 안 써도 됨’ 이라고 주장하고자 하는 건지, 일반인들에게 ‘의사결정 알고리즘을 fast-and-frugal 정도로 이해해도 충분함’이라고 얘기하는 건지 모르겠어서. 둘 다 인 것 같긴 하다.
Member discussion