추론 모델은 어떻게 작동하는가
Claude 학습 모드 정말 좋습니다.
요즘 가장 즐겨 보고 있는 노정석, 최승준, 김성현님의 유튜브 팟캐스트에 어려운 내용이 올라왔습니다. 영상 설명을 그대로 가져와보면 이렇습니다.
강화학습의 대부 리치 서튼이 "더 비터 레슨"의 원저자로서 LLM 업계에 찬물을 끼얹었습니다. "너희들이 내 이론을 완전히 잘못 이해하고 있다"는 그의 주장과, RLVR이 가져올 진짜 혁명에 대해 김성현 님과 깊이 있게 논의합니다. 현재 AI 패러다임의 정점은 언제 올 것인가, 그리고 다음 패러다임은 무엇일까요?
영상 시청을 끝낸 뒤, 특히 어려웠던 RLVR에 관련된 내용에 대해 제가 이해한 바를 적어보다가 역시나 이해가 명확하지 않음을 알게 됐습니다. 그래서 그 적어본 내용을 그대로 Claude에 넣고 학습 모드로 40분 넘게 대화를 나눴어요. 덕분에 이해도가 많이 올라왔습니다. (참고로 유튜브 링크나 트랜스크립트는 넣지 않았습니다)
RL, LLM 관련 팟캐스트를 보고 이런 식으로 정리를 해봤어.
---
프리트레이닝 대상 문서가 대부분은 그냥 과정 없이 정답만 나열한 거라서
일반화가 필요한 문제에 대해서 질문하면 (특히 추론 없이는) 못 푸는데
굉장히 비중이 적지만 학습한 문서 중 일부는 일반화 가능한 규칙을 들고 있다
이게 보통은 확률분포상 응답될 가능성이 거의 없는데
RLVR을 통해, 모델이 false positive 한 보상, 즉 답이 명백히 틀렸는데 (verifiable한 도메인이니 명확한 답이 있음) 맞았다고 생각할 가능성이 굉장히 낮아졌다. 그래서 이방향으로 리워드 해킹이 어려워졌다
그래서 원래는 나올 확률이 아주 적었던 ’가치있는‘ 프리트레이닝 대상들이 튀어나오게 됐다
---
그런데 내가 여기 나오는 개념들에 대해 엄청 잘 알고 이렇게 얘기한 게 아니거든. ML 연구자도 아니고 그냥 LLM 좀 쓸 줄 아는 개발자에 불과해. 특히, "왜 RLVR이 false positive 를 낮추는가?" 그리고 "왜 추론을 하면 더 좋은가?" 에 대해서는 (추상적 레벨에서도) 크리스탈 클리어 하지 않다는 느낌이 들어.
최신 ML 연구들에 기반해서, 내가 위에 적은 내용이 얼마나 올바른지 설명해주고, 내가 잘 모를 법한 부분들에 대해 (용어, 개념 등) 이해할 수 있게 도와줘.
역시 되묻기를 해주는 Claude 학습 모드가 개념 공부하기에 참 좋네요.
마지막에는 '우리가 문답한 내용을 바탕으로, 다른 사람에게 공유할 수 있게 하나의 문서로 정리해줘' 라고 했습니다. 👇 궁금하신 분은 링크를 읽어보시길 바랍니다.

Member discussion