시장은 85점을 원한다 (앞으로도 그럴까?)
다시 고품질의 시대가 오지 않을까요?
트위터에서 이런 글을 봤습니다.
최적의 디자인 결과물을 100이라 했을 때 인간이 하면 95~99까지 금방 뽑음. ai는 80은 금방 나오고 95까지하면 오래 걸려 차라리 직접 하는 게 나은 경우가 많아 전문가 입장에선 ai 별거 아니네 하는데 문제는, 대부분의 사람들이 85쯤의 결과에 만족한다는 점임.
그런데 내가 말하고 싶은 건 85에 만족한다는 지점. 지금까진 디자이너가 클라이언트 멱살 잡아 퀄리티를 올렸는데 디자이너가 중간에서 빠지면 시중에 85가 범람하며 95~99 혹은 100까지도 뽑는 시니어에게도 고통을 가할 거란 이야기...
이전 직장인 XL8에서 느꼈던 기계번역 씬도 비슷한 일을 겪었습니다. 느낌적인 느낌으로 써보면:
ChatGPT 출시 전
- 최상의 결과물: 100
- 인간 번역가: 99
- XL8 기계번역: 85
- 타사 기계번역: 70
- 기계번역에 대한 사람들의 기대: 95
ChatGPT 출시 후
- 최상의 결과물: 100
- 인간 번역가: 99
- XL8 기계번역: 90
- 타사 기계번역: 80
- ChatGPT 번역: 85
- 기계번역에 대한 사람들의 기대: 85
ChatGPT 출시 이후에도 XL8의 번역은 (특히 영상 자막 제작이라는 도메인에서) 여전히 타 회사 및 ChatGPT보다 뛰어났습니다. 그러나 그 갭은 분명히 좁혀졌고, AI 생성 컨텐츠에 사람들이 익숙해지면서 기대 수준이 낮아졌죠. 심리학자 허버트 사이먼은 이를 '사람들은 최적의 대안보다는 만족할 만한 대안을 선택한다'는 만족화 이론으로 설명하기도 했습니다.
따라서, 일반 대중을 상대로 ChatGPT와 단순히 '비용 대비 성능'으로 경쟁하는 건 매우 어려워졌습니다. 대신:
- 편리한 인터페이스와 편의기능으로 무장하고
- ChatGPT보다 더 높은 수준의 번역 퀄리티를 원하는 기업고객에게 집중해야 했죠.
그런데 앞으로도 이런 변화가 유지될지는 모르겠습니다. 현재는 '좋은 번역'에 대한 리뷰/평가를 주로 인간이 하고 있고 그게 큰 병목 중 하나입니다만, 근미래에는 AI 평가자(LLM-as-a-judge, 그 LLM을 평가하는 LLM, 을 평가하는 LLM...)의 비중이 훨씬 높아지리라 생각합니다.
이런 AI 평가자들은 (어떤 측면에서는) 최상위 인간 리뷰어에 준하는 엄격한 기준으로 번역을 평가할 것이고, 또한 토큰의 비용은 결국 전기료 수준으로 싸질 것이라고 가정한다면, 결국 다시 '고품질'이 시장의 기준이 되는 시대가 오지 않을까 싶어요. AI가 아주 적은 비용으로 100점인지 판별해준다면 굳이 85점을 참아줄 이유가 없어질테니까요.
Member discussion