Claude Opus 4.7 출시 — Claude Code에 xhigh 기본값·/ultrareview 투입, SWE-bench 1위 탈환

// RECOMMENDED GEAR
Apple 맥북 네오 — A18 Pro칩입문 개발자를 위한 경제형 맥북. Flutter, React 개발에 충분한 성능.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

앤트로픽, Claude Opus 4.7 공식 출시
2026년 4월 16일(현지시간), 앤트로픽이 최신 대형 언어모델 Claude Opus 4.7을 공개했다. Claude 전 제품, API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry, Snowflake Cortex, GitHub까지 첫날부터 전방위 동시 공급됐다. 가격은 Opus 4.6과 동일하게 입력 100만 토큰당 $5, 출력 $25로 유지됐다.
요약하면 이번 릴리스의 방점은 두 가지다.
- 소프트웨어 엔지니어링 성능 대폭 향상 — 공개된 LLM 중 최강 타이틀 탈환
- Claude Code 개발자 경험 대대적 개편 —
xhigh기본값,/ultrareview, task budgets
개발자 입장에서 가장 체감이 큰 건 두 번째다.
🚀 Claude Code에 들어온 것들
1. xhigh 에포트 레벨 신설 + Claude Code 기본값 지정
기존 high ↔ max 사이에 새로운 xhigh("extra high") 레벨이 생겼다. 추론 깊이와 응답 지연의 트레이드오프를 더 세밀하게 제어할 수 있게 됐고, Claude Code는 전 플랜에서 xhigh가 기본값이 된다. 기존 Max에 가까운 품질을 기본으로 받되, 진짜 "끝까지 고민"해야 하는 상황에서만 Max를 쓰는 패턴으로 정착할 듯하다.
2. /ultrareview — 시니어 리뷰어 시뮬레이션
Claude Code에 새로 들어온 슬래시 커맨드다. 단순 문법·스타일 지적이 아니라 설계 결함, 로직 갭, 에지 케이스를 짚어내도록 튜닝된 모드라고 한다. PR 머지 직전 한 번 돌리는 습관이 생길 것 같다.
3. Task Budgets (Public Beta)
에이전트가 장시간 돌면서 토큰을 얼마나 쓸지 예산 단위로 제한할 수 있는 기능. 장거리 에이전트 작업에서 "얘가 또 끝없이 도는 중인가" 하는 불안을 줄여준다.
📊 벤치마크 — 공개 LLM 1위 탈환

| 벤치마크 | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-bench Pro (에이전트 코딩) | 64.3% | 57.7% | 54.2% |
| SWE-bench Verified | 87.6% | — | 80.6% |
| MCP-Atlas (스케일 툴 사용) | 77.3% | — | — |
| OSWorld-Verified (컴퓨터 조작) | 78.0% | — | — |
| Finance Agent v1.1 | 64.4% | — | — |
| CharXiv (시각 추론, with tools) | 91.0% | — | — |
| GPQA Diamond (대학원 추론) | 94.2% | 94.4% | 94.3% |
- Opus 4.6 대비 복잡한 멀티스텝 워크플로우에서 +13~14% 해결률, 툴 에러는 약 1/3로 감소.
- GPQA 같은 "지식 기반 추론"에서는 세 모델이 사실상 동률이지만, 실제 코딩/에이전트 작업에선 확실한 격차가 벌어진다.
👁️ 비전 업그레이드
이번에 조용히 올라온 스펙 하나가 엄청 크다. 이미지 장변 해상도가 2,576픽셀(약 3.75MP)까지 지원 — Opus 4.6의 1.15MP에서 3배 이상 점프했다. XBOW의 시각 정확도 벤치마크에선 98.5%(4.6은 54.5%).
스크린샷 전체를 넘겨서 UI 분석을 시킨다거나, 해상도 큰 기술 도표를 해석시키는 작업에서 실질적 차이가 나온다. Figma에서 뽑은 고해상도 PNG를 자르지 않고 그대로 주고 "이 디자인 React로 구현해줘"가 실전에서 훨씬 잘 된다는 얘기다.
💰 가격·제공처
| 항목 | 내용 |
|---|---|
| 입력 | $5 / 1M tokens (Opus 4.6과 동일) |
| 출력 | $25 / 1M tokens (동일) |
| 제공 채널 | Claude 제품, API, Bedrock, Vertex AI, Microsoft Foundry, Snowflake Cortex, GitHub |
Gemini 3.1 Pro($2/$12)보다 약 2배 비싸지만, 에이전트 워크플로우에서 툴 에러가 1/3로 줄면 실질 비용이 오히려 역전될 수 있다는 게 앤트로픽의 설명이다.
⚠️ Mythos Preview라는 변수
흥미로운 건 앤트로픽이 공식 발표에서 **"Opus 4.7은 내부 미공개 모델 Claude Mythos Preview보다 약하다"**고 공개적으로 인정했다는 점이다. Mythos는 보안 우려 때문에 선별된 테크·사이버보안 파트너에게만 제한 공개 중이다.
또 하나 주목할 대목 — 앤트로픽은 이번 훈련 과정에서 Opus 4.7의 사이버 공격 능력을 의도적으로 약화시키는 실험을 했다고 밝혔다. 정당한 보안 연구를 위해 풀 캡을 원하면 별도 인증 프로그램에 신청해야 한다. AGI 전야의 시대에 모델 제공사가 "얼마나 강하게" 풀어줄지 선택적으로 조정하기 시작했다는 신호다.
🧑💻 개발자 관점 정리
| 포인트 | 의미 |
|---|---|
/ultrareview | PR 머지 직전 한 번, 자체 코드리뷰 단계에 붙이기 좋음 |
xhigh 기본값 | 평소 난이도는 자동으로 더 깊게 — latency는 조금 늘어남 |
| Task Budgets | 장거리 에이전트 돌릴 때 안심 |
| 3.75MP 비전 | 디자인 → 코드 워크플로우 품질 상승 |
| 툴 에러 1/3 | MCP/함수 호출 기반 자동화에서 실질 신뢰도 향상 |
ttapp에서 Claude Code를 원격으로 돌리는 입장에서 보면, 특히 긴 에이전트 작업을 모바일에서 띄워 두고 기다리는 패턴과 xhigh + task budgets 조합이 궁합이 좋을 것 같다. 실제로 이번 글도 Opus 4.7 출시 당일에 관련 기사 수십 개를 병렬로 수집·정리해 작성했는데, 툴 호출 안정성이 체감으로 확실히 올라왔다.
공개된 LLM 중 실전 코딩 성능 1위가 바뀌는 순간은 늘 재미있는데, 이번 릴리스는 특히 Claude Code라는 제품 쪽에 무게중심이 실려 있다는 점이 인상적이다. 모델만 좋은 게 아니라 "모델 + 도구 + UX" 세트로 승부하겠다는 신호다.
📰 참고 출처
이 글 공유하기
// SPONSORED
[>]댓글
아직 댓글이 없어요. 첫 댓글을 남겨보세요!