2025년 11월 27일 7 min read 인공지능 제품개발과 조직운영

인간이 루프 위에 서려면 어떻게 해야 할까? (Human-in-the-loop vs. Human-on-the-loop)

에이전트와 인간의 협업 구조에 대한 고민이기도 합니다.

최근 몇 군데서 Human-in-the-loop(HITL)과 Human-on-the-loop(HOTL)에 대해 언급한 적 있었는데, HOTL 설계는 어떻게 해야 하는가? 라는 질문을 받아서 답변한 걸 가볍게 적어봅니다.

참고로, 항상 언급하지만 제가 쓰는 내용들이 제가 잘 해서/잘 알아서라기보다는 줏어들은 거 + 아주 조금 경험해본 수준이라는 건 꼭 기억해주시고요. 즉 환각이 얼마든지 있을 수 있습니다.

우선 두 개념의 차이에 대해서는 저보다 LLM이 더 잘 알 것이므로, Claude Sonnet 4.5의 답변을 첨부합니다.

Q. Human-in-the-loop 와 Human-on-the-loop 의 설계 차이에 대해 예시를 들어 설명해줘.

(– 이하 LLM 답변)

Human-in-the-Loop (HITL)

사람이 의사결정 과정 안에 직접 참여합니다. AI가 결정을 내리기 전에 사람의 승인이나 입력이 필요합니다.

예시: 의료 영상 진단 시스템

AI가 X-ray 이미지를 분석해 "폐렴 가능성 85%"라고 판단
시스템이 자동으로 멈추고 의사에게 알림
의사가 AI의 분석을 검토하고 "승인" 또는 "거부" 결정
의사의 승인 후에만 진단 결과가 환자 차트에 기록됨

예시: 자율주행차 (레벨 3)

고속도로에서는 AI가 운전
복잡한 교차로나 공사 구간에 접근하면 "운전자 개입 필요" 경고
운전자가 핸들을 잡고 직접 운전
상황 통과 후 다시 AI에게 제어권 이양

Human-on-the-Loop (HOTL)

사람이 시스템을 감독하고 모니터링합니다. AI가 자율적으로 작동하지만, 사람이 개입할 수 있는 권한을 유지합니다.

예시: 스팸 필터링 시스템

AI가 매일 수천 개의 이메일을 자동으로 분류
사용자는 결과를 주기적으로 확인
잘못 분류된 메일을 발견하면 수동으로 수정
시스템은 이 피드백으로 학습하고 개선

예시: 공장 자동화 라인

로봇들이 24시간 자율적으로 제품 조립
관리자는 대시보드로 실시간 모니터링
불량률이 특정 임계값을 넘으면 경고 발생
관리자가 필요시 라인을 중단하고 조정

핵심 차이점

실무에서는 두 방식을 혼합해서 사용하기도 합니다. 예를 들어 금융 거래 시스템에서 소액은 HOTL로, 고액은 HITL로 처리하는 식입니다.

(– LLM 답변 끝)

HOTL 설계에 필요한 질문들

저는 인간이 루프 위에 서려면 HITL보다 몇 가지를 더 엄밀하게 고민해봐야 한다고 생각합니다.

1) 내가/전문가가 특정 과업의 결과물 품질에 대해 평가하는 기준을 정량적으로 어떻게 세울까?

이게 없으면 모든 게 무의미해짐. 정량적인 게 없다면 정성적인 루브릭이라도 만들어야 함
현재 구축된 기준이나 De-facto standard가 없다면 내가/전문가가 기존에 어떤 사례에 대해 어떻게 평가했는지, 즉 테스트 데이터 수집 필요. 물론 이 테스트 데이터도 LLM과 함께 수집하거나 만들 수 있음. 이 데이터 중 일부는 평가자 구현의 트레이닝 데이터로 쓰면 좋음
초기 데이터가 없을 때는 보수적 기준(더 자주 개입)에서 시작해 점진적으로 완화하는 전략이 필요. 즉 처음부터 HOTL로 가는 건 어렵거나, 위험함

2) 1을 평가하는 평가자를 어떻게 신뢰도 높게, 저비용으로 구현할까?

Deterministic한 알고리즘일 수도 있고, LLM-as-a-judge 를 쓸 수도 있음

3) 평가자의 신뢰도는 어떻게 평가할까? (메타-평가자)

False positive(틀리게 평가)와 False negative(중요한 내용을 빼먹음)을 모두 고려해야 함. 여기서도 다시 LLM을 쓸 수 있음

4) 작업 결과물, 평가자의 산출물, 메타 평가자의 산출물 등은 어떤 형태로 구성되어야 인간과 에이전트가 필요시 쉽게 읽고, 결과물 및 알고리즘을 자가개선할 수 있을까?

인간이 읽기 쉬운 것과 에이전트가 읽기 쉬운 것은 다를 수 있음. 인간은 시각화된 걸 보는 게 도움이 되지만, 시각화 이미지가 있으면 (아무리 멀티모달이라도) 에이전트에게 훨씬 불리해짐. 비용이든 속도든 품질이든.
에이전트가 비용/속도/품질 측면에서 읽기 쉬운 건 역시나 텍스트. 즉 어떻게든 텍스트파일로 저장할 생각을 해야 함

5) 에이전트가 무한히 루프를 돌게 만들려면 (토큰 비용이 훨씬 싸지기 전까지는) 비용 관리가 핵심. 어떤 행위에 어떤 모델을 쓸까?

언제 LLM을 쓰고, 언제 알고리즘을 쓰고, 언제 외부 API를 호출하고, 언제 인간이 개입해야 하는지 판단해야 함. 물론 이 설계도 LLM과 같이 할 수 있고, 꾸준히 조절해야 함
세부 과업 중 저비용이 중요한 부분, 고품질이 중요한 부분, 짧은 응답시간이 중요한 부분이 어디인지 구분해야 함

6) 무한히 도는 와중에 인간의 개입 시점 및 루프 종료 시점을 어떻게 인간/에이전트가 판단할까?

이 판단이 쉬워지려면 현재 상태에 대한 리포팅 시스템, 또는 대시보드를 어떻게 구현해야 하나?
종료 조건은? 테스트 커버리지 100%, 반복 n회, 비용 얼마까지, 개선된 델타가 일정 이하 등

7) 인간의 개입 결과를 어떻게 시스템에 재학습시킬까? 시스템이 점점 더 나아지는지 어떻게 알 수 있을까?

인간이 수동으로 평가하기보다는(좋아요/싫어요) 진행 과정에서 자동으로 유의미한 기록을 남기는 게 유리함

그 외

사전-부검(Premortem). 이 루프를 오랫동안 돌렸는데도 성과가 나지 않았다면 무엇 때문일까? 또는, 이 루프를 놔뒀을 때 생길 수 있는 최악의 시나리오는 무엇인가?
이를 고려하면 설계를 어떻게 개선해야 하나? 최악의 시나리오에 대한 안전장치는 어떻게 마련할까? 법적/윤리적 책임은?

등등.

서두에도 말씀드렸듯 제가 이것들을 잘 해서 주절주절 써둔 건 전혀 아닙니다. 그래도 요즘, '하루 최소 30분씩 에이전틱 루프 고민하기'를 실천하고 있는데 그러면서 (토이 프로젝트 수준일지언정) 조금씩 감이 생기고 있는 것 같습니다. 그 결과물 중 일부도 언젠가 공유할 기회가 있겠죠.

Q. Human-in-the-loop 와 Human-on-the-loop 의 설계 차이에 대해 예시를 들어 설명해줘.

Human-in-the-Loop (HITL)

Human-on-the-Loop (HOTL)

핵심 차이점

HOTL 설계에 필요한 질문들

1) 내가/전문가가 특정 과업의 결과물 품질에 대해 평가하는 기준을 정량적으로 어떻게 세울까?

2) 1을 평가하는 평가자를 어떻게 신뢰도 높게, 저비용으로 구현할까?

3) 평가자의 신뢰도는 어떻게 평가할까? (메타-평가자)

4) 작업 결과물, 평가자의 산출물, 메타 평가자의 산출물 등은 어떤 형태로 구성되어야 인간과 에이전트가 필요시 쉽게 읽고, 결과물 및 알고리즘을 자가개선할 수 있을까?

5) 에이전트가 무한히 루프를 돌게 만들려면 (토큰 비용이 훨씬 싸지기 전까지는) 비용 관리가 핵심. 어떤 행위에 어떤 모델을 쓸까?

6) 무한히 도는 와중에 인간의 개입 시점 및 루프 종료 시점을 어떻게 인간/에이전트가 판단할까?

7) 인간의 개입 결과를 어떻게 시스템에 재학습시킬까? 시스템이 점점 더 나아지는지 어떻게 알 수 있을까?

그 외

You might also like...

[일주일프/02] g-export: 구글 문서들을 로컬에 다운받아주는 Claude Skill

[일주일프/01] Slack 쓰레드를 단일 문서로 취합해주는 Claude Skill

이상적인 AI 네이티브 제품 팀을 상상하다

무릎은 추진력을 위해 꿇었던 것이다

2026년 월간 목표 설계: 잘하기보다 꾸준히, 많이 하자