Claude Opus 4.7 출시 — Claude Code에 xhigh 기본값·/ultrareview 투입, SWE-bench 1위 탈환

Claude Opus 4.7 — AI core visualization

앤트로픽, Claude Opus 4.7 공식 출시

2026년 4월 16일(현지시간), 앤트로픽이 최신 대형 언어모델 Claude Opus 4.7을 공개했다. Claude 전 제품, API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry, Snowflake Cortex, GitHub까지 첫날부터 전방위 동시 공급됐다. 가격은 Opus 4.6과 동일하게 입력 100만 토큰당 $5, 출력 $25로 유지됐다.

요약하면 이번 릴리스의 방점은 두 가지다.

소프트웨어 엔지니어링 성능 대폭 향상 — 공개된 LLM 중 최강 타이틀 탈환
Claude Code 개발자 경험 대대적 개편 — xhigh 기본값, /ultrareview, task budgets

개발자 입장에서 가장 체감이 큰 건 두 번째다.

🚀 Claude Code에 들어온 것들

1. `xhigh` 에포트 레벨 신설 + Claude Code 기본값 지정

기존 high ↔ max 사이에 새로운 xhigh("extra high") 레벨이 생겼다. 추론 깊이와 응답 지연의 트레이드오프를 더 세밀하게 제어할 수 있게 됐고, Claude Code는 전 플랜에서 xhigh가 기본값이 된다. 기존 Max에 가까운 품질을 기본으로 받되, 진짜 "끝까지 고민"해야 하는 상황에서만 Max를 쓰는 패턴으로 정착할 듯하다.

2. `/ultrareview` — 시니어 리뷰어 시뮬레이션

Claude Code에 새로 들어온 슬래시 커맨드다. 단순 문법·스타일 지적이 아니라 설계 결함, 로직 갭, 에지 케이스를 짚어내도록 튜닝된 모드라고 한다. PR 머지 직전 한 번 돌리는 습관이 생길 것 같다.

3. Task Budgets (Public Beta)

에이전트가 장시간 돌면서 토큰을 얼마나 쓸지 예산 단위로 제한할 수 있는 기능. 장거리 에이전트 작업에서 "얘가 또 끝없이 도는 중인가" 하는 불안을 줄여준다.

📊 벤치마크 — 공개 LLM 1위 탈환

Claude Opus 4.7 coding benchmark visualization

벤치마크	Opus 4.7	GPT-5.4	Gemini 3.1 Pro
SWE-bench Pro (에이전트 코딩)	64.3%	57.7%	54.2%
SWE-bench Verified	87.6%	—	80.6%
MCP-Atlas (스케일 툴 사용)	77.3%	—	—
OSWorld-Verified (컴퓨터 조작)	78.0%	—	—
Finance Agent v1.1	64.4%	—	—
CharXiv (시각 추론, with tools)	91.0%	—	—
GPQA Diamond (대학원 추론)	94.2%	94.4%	94.3%

Opus 4.6 대비 복잡한 멀티스텝 워크플로우에서 +13~14% 해결률, 툴 에러는 약 1/3로 감소.
GPQA 같은 "지식 기반 추론"에서는 세 모델이 사실상 동률이지만, 실제 코딩/에이전트 작업에선 확실한 격차가 벌어진다.

👁️ 비전 업그레이드

이번에 조용히 올라온 스펙 하나가 엄청 크다. 이미지 장변 해상도가 2,576픽셀(약 3.75MP)까지 지원 — Opus 4.6의 1.15MP에서 3배 이상 점프했다. XBOW의 시각 정확도 벤치마크에선 98.5%(4.6은 54.5%).

스크린샷 전체를 넘겨서 UI 분석을 시킨다거나, 해상도 큰 기술 도표를 해석시키는 작업에서 실질적 차이가 나온다. Figma에서 뽑은 고해상도 PNG를 자르지 않고 그대로 주고 "이 디자인 React로 구현해줘"가 실전에서 훨씬 잘 된다는 얘기다.

💰 가격·제공처

항목	내용
입력	$5 / 1M tokens (Opus 4.6과 동일)
출력	$25 / 1M tokens (동일)
제공 채널	Claude 제품, API, Bedrock, Vertex AI, Microsoft Foundry, Snowflake Cortex, GitHub

Gemini 3.1 Pro($2/$12)보다 약 2배 비싸지만, 에이전트 워크플로우에서 툴 에러가 1/3로 줄면 실질 비용이 오히려 역전될 수 있다는 게 앤트로픽의 설명이다.

⚠️ Mythos Preview라는 변수

흥미로운 건 앤트로픽이 공식 발표에서 **"Opus 4.7은 내부 미공개 모델 Claude Mythos Preview보다 약하다"**고 공개적으로 인정했다는 점이다. Mythos는 보안 우려 때문에 선별된 테크·사이버보안 파트너에게만 제한 공개 중이다.

또 하나 주목할 대목 — 앤트로픽은 이번 훈련 과정에서 Opus 4.7의 사이버 공격 능력을 의도적으로 약화시키는 실험을 했다고 밝혔다. 정당한 보안 연구를 위해 풀 캡을 원하면 별도 인증 프로그램에 신청해야 한다. AGI 전야의 시대에 모델 제공사가 "얼마나 강하게" 풀어줄지 선택적으로 조정하기 시작했다는 신호다.

🧑‍💻 개발자 관점 정리

포인트	의미
`/ultrareview`	PR 머지 직전 한 번, 자체 코드리뷰 단계에 붙이기 좋음
`xhigh` 기본값	평소 난이도는 자동으로 더 깊게 — latency는 조금 늘어남
Task Budgets	장거리 에이전트 돌릴 때 안심
3.75MP 비전	디자인 → 코드 워크플로우 품질 상승
툴 에러 1/3	MCP/함수 호출 기반 자동화에서 실질 신뢰도 향상

ttapp에서 Claude Code를 원격으로 돌리는 입장에서 보면, 특히 긴 에이전트 작업을 모바일에서 띄워 두고 기다리는 패턴과 xhigh + task budgets 조합이 궁합이 좋을 것 같다. 실제로 이번 글도 Opus 4.7 출시 당일에 관련 기사 수십 개를 병렬로 수집·정리해 작성했는데, 툴 호출 안정성이 체감으로 확실히 올라왔다.

공개된 LLM 중 실전 코딩 성능 1위가 바뀌는 순간은 늘 재미있는데, 이번 릴리스는 특히 Claude Code라는 제품 쪽에 무게중심이 실려 있다는 점이 인상적이다. 모델만 좋은 게 아니라 "모델 + 도구 + UX" 세트로 승부하겠다는 신호다.

📰 참고 출처