AI 비즈니스 설계도

글

라벨이 에이전트인 게시물 표시

GPT-5.5 vs Claude Opus 4.7, 에이전트로 쓸 때 진짜 차이는 점수가 아니었습니다

4월 28, 2026

도입 한 모델이 똑같은 코딩 작업을 하면서 다른 모델보다 72% 적은 출력 토큰 으로 끝냅니다. 그게 GPT-5.5와 Claude Opus 4.7 사이의 가장 솔직한 격차예요. 벤치마크 점수만 보면 GPT-5.5가 한 걸음 앞서 있는 것 같은데, 정작 Cursor와 Claude Code를 매일 쓰는 개발자들은 여전히 큰 리팩토링은 Opus 4.7에 맡깁니다. 무슨 일이 벌어지고 있는 걸까요. 두 모델을 에이전트로 쓸 때 무엇이 다른지부터 풀어 볼게요. 핵심 내용 요약 두 모델은 일주일 사이에 연달아 나왔습니다. Claude Opus 4.7은 4월 16일 , GPT-5.5는 4월 23일 에 공개됐어요. 둘 다 1M 토큰 컨텍스트를 지원합니다. 입력 가격은 100만 토큰당 5달러로 같지만, 출력은 GPT-5.5가 30달러, Opus 4.7이 25달러로 후자가 조금 쌉니다. 강점은 칼같이 갈려 있어요. GPT-5.5는 GPT-4.5 이후 처음으로 밑바닥부터 재훈련한 베이스 모델이고, '계획해서 실행하는' 작업에서 앞섭니다. 반대로 Opus 4.7은 코드베이스를 통째로 읽고 이해해서 PR을 마무리하는 쪽에서 우위예요. 그리고 위에서 말한 토큰 효율 — 출력 길이의 차이가 에이전트 비용을 결정하는 실제 변수가 됩니다. 쉽게 풀어 설명 벤치마크를 두 그룹으로 묶어 보면 차이가 분명해집니다. 첫 번째는 '계획·실행' 영역이에요. 터미널을 열고 명령어를 짜서 일을 처리하는 Terminal-Bench 2.0에서 GPT-5.5가 82.7%, Opus 4.7이 69.4%를 받았습니다. 13점 차이는 작지 않죠. 컴퓨터를 직접 조작하는 OSWorld-Verified에서도 GPT-5.5가 78.7%로 앞섭니다. 두 번째는 '코드베이스 이해' 영역입니다. 실제 깃허브 이슈를 해결하는 SWE-bench Pro에서 Opus 4.7은 64.3%, GPT-5.5는...

자세한 내용 보기

에이전트 = 모델 + 하네스 — 2026년 AI 업계가 '하네스 엔지니어링'에 꽂힌 이유

4월 28, 2026

도입 AI 에이전트 프로젝트 10개 중 약 9개는 실제 서비스로 올라가지 못한다 고 합니다. 그것도 모델이 멍청해서가 아니에요. 가트너 분석에 따르면 기업 AI 실패의 65%가 모델 바깥의 시스템에서 생긴다고 합니다. 그래서 요즘 실리콘밸리에서 부쩍 자주 들리는 단어가 있어요. "하네스 엔지니어링(harness engineering)"입니다. 도대체 이게 뭐길래 한꺼번에 이렇게 떠들썩한 걸까요. 핵심 내용 요약 한 줄로 정리하면 이렇습니다. 에이전트(Agent) = 모델(Model) + 하네스(Harness). 모델은 우리가 흔히 아는 GPT나 클로드(Claude) 같은 거예요. 하네스는 그 모델을 둘러싸고 있는 모든 것입니다. 어떤 도구를 호출할지, 어디까지 권한을 줄지, 무엇을 기억하고 무엇을 잊을지, 결과물이 제대로 나왔는지 누가 채점할지 같은 것들이죠. 모델이 "뇌"라면, 하네스는 그 뇌가 일할 수 있도록 차려놓은 "작업장"에 가깝습니다. 쉽게 풀어 설명 비유로 풀어볼게요. 천재 외과의사가 한 명 있다고 칩시다. 의사 본인이 아무리 뛰어나도 수술실이 엉망이면 결과가 좋을 리 없겠죠. 메스가 어디 있는지 모르고, 환자 차트도 없고, 마취 기계도 안 켜져 있다면요. AI 모델도 똑같습니다. 모델 자체는 뛰어나도, 도구·기억·권한·검증 같은 "수술실 정돈"이 빠지면 헛발질을 합니다. 소트웍스의 비르기타 뵈켈러는 2026년 4월 2일 마틴 파울러 사이트에 올린 글에서 하네스를 두 방향의 제어 로 설명합니다. 하나는 가이드(feedforward) — 에이전트가 행동하기 전에 미리 막아주는 장치예요. 다른 하나는 센서(feedback) — 행동한 다음 에 결과를 보고 스스로 고치게 하는 장치죠. 코드 작성을 예로 들면, 린터(Linter)나 타입체커가 가이드 역할을 하고, 자동 테스트나 AI 코드 리뷰가 센서 역할을 합니다. 영향 분석 ...

자세한 내용 보기

이 블로그 검색

AI 비즈니스 설계도

글

Pinned Post

공식가 90% 할인 'Claude 암시장', 진짜 위험은 가격이 아닙니다

GPT-5.5 vs Claude Opus 4.7, 에이전트로 쓸 때 진짜 차이는 점수가 아니었습니다

에이전트 = 모델 + 하네스 — 2026년 AI 업계가 '하네스 엔지니어링'에 꽂힌 이유