Claude Opus 4.5 정리

2025년 11월에 Anthropic에서 새 모델 내놨습니다. Claude Opus 4.5.

요즘 AI 모델이 워낙 자주 나와서 “또?” 싶을 수 있는데, 이번 건 좀 봐야 합니다. 코딩 벤치마크에서 GPT-5.1이랑 Gemini 3 Pro 다 제치고 1등 찍었거든요.

그냥 “성능 좋아졌다” 수준이 아니라, 실제로 업무에 투입할 만한 수준이 됐다는 평가가 많습니다. 오늘은 이게 뭐가 달라졌고, 실제로 어디에 쓸 수 있는지 정리해보겠습니다.

코딩 성능: SWE-bench 1위

먼저 숫자부터 보면요.

SWE-bench Verified 기준으로 80.9% 찍었습니다. GPT-5.1이 77.9%, Gemini 3 Pro가 76.2%니까 꽤 차이 나는 거예요.

SWE-bench가 뭐냐면, 실제 GitHub 이슈를 AI한테 주고 “이거 고쳐봐” 하는 테스트입니다. 단순히 코드 한 줄 생성하는 게 아니라, 요구사항 파악하고, 관련 코드 찾아서, 수정하고, 테스트까지 통과해야 하거든요.

그러니까 Opus 4.5는 코드 좀 짜주는 정도가 아니라, 모호한 요구사항도 알아서 해석하고, 의존성 분석하고, 디버깅까지 하는 수준이 됐다는 얘기입니다.

물론 벤치마크는 벤치마크고 실제랑 다를 수 있어요. 근데 저도 몇 번 써봤는데 확실히 이전 버전보다 낫긴 합니다.

핵심 기능 몇 가지

문맥 처리

입력 20만 토큰, 출력 6만 4천 토큰까지 됩니다.

이게 얼마나 긴 거냐면, 웬만한 책 한 권 분량을 통째로 넣을 수 있어요. 긴 코드베이스나 장문 문서 작업할 때 유용합니다. 예전에는 중간에 잘라서 넣어야 했는데, 이제 그럴 필요가 줄었어요.

Effort 파라미터

이건 좀 신기한 기능인데요. High/Medium/Low로 AI가 얼마나 깊이 생각할지 정할 수 있습니다.

간단한 질문인데 AI가 너무 길게 답변하면 짜증나잖아요. 그럴 때 Low로 설정하면 빠르게 답하고, 복잡한 문제는 High로 설정하면 시간 좀 걸려도 꼼꼼하게 분석합니다.

토큰 비용 관리할 때도 유용해요. 모든 요청에 최대 성능 쓸 필요 없으니까.

Zoom Tool

이미지 분석할 때, 특정 부분이 작으면 자동으로 확대해서 봅니다.

예를 들어 스크린샷에서 작은 글씨 읽어야 하는 경우, 알아서 그 영역 확대해서 분석해요. 사소해 보이는데, 실제로 쓰면 꽤 편합니다.

Tool Search

이건 에이전트 기능인데요. 수천 개 도구 중에서 필요한 거 알아서 찾아서 실행합니다.

“이 데이터 분석해서 그래프 그려줘” 하면, 어떤 도구 써야 하는지 스스로 판단하고 실행하는 거예요. 일일이 “pandas 써서 해” 이렇게 안 해도 됩니다.

비용은?

Opus 4.1 대비 67% 가격 인하됐습니다.

그래도 GPT 대비 2~4배 비싸긴 해요. 이건 솔직히 말해야 할 것 같아서요.

근데 Effort 파라미터로 조절하면 실제 비용은 좀 낮출 수 있고, 복잡한 작업에서 품질 차이가 나니까 가성비 따져봐야 합니다. 단순 작업은 저렴한 모델 쓰고, 중요한 작업만 Opus 쓰는 식으로요.

보안 쪽은 프롬프트 인젝션 공격 방어율 95% 이상이라고 합니다. 기업에서 쓰기엔 이런 게 중요하죠.

실제로 어디에 쓰나

개발

GitHub Copilot이나 JetBrains IDE에 통합해서 쓸 수 있습니다.

대규모 코드 리팩토링, 테스트 자동화 같은 작업에 유용해요. 1~2일 걸릴 작업을 몇 시간 안에 끝낸다는 후기가 꽤 있습니다. 의존성 문제 같은 것도 알아서 잡아주고요.

저도 버그 잡을 때 써봤는데, 에러 메시지 던져주면 원인 분석하고 수정 코드까지 제안해줍니다. 100% 맞진 않아요. 근데 방향은 잘 잡아줘서 시간 단축이 확실히 됩니다.

문서 작업

Notion이나 Google Workspace랑 연동해서 보고서, 프레젠테이션, 블로그 글 작성에 씁니다.

문맥이 길어도 되니까, 챕터 단위 긴 글도 캐릭터나 톤 일관성 유지하면서 쓸 수 있어요. SEO 최적화 문서도 빠르게 뽑을 수 있고요.

다만 결과물 그대로 쓰면 AI 느낌 나니까, 검수는 해야 합니다. 초안 뽑는 용도로 생각하세요.

데이터 분석, 업무 자동화

Excel 함수 작성, SQL 쿼리, 시뮬레이션 같은 거 자동화할 수 있습니다.

재밌는 사례가 있는데, 어떤 항공사에서 AI한테 티켓 규정 분석시켰더니, 등급 업그레이드 통해서 수수료 없이 변경 가능한 방법을 찾아냈다고 해요. 사람이 일일이 규정 읽어보면 놓칠 수 있는 부분인데요.

계약서 검토, 고객 상담 응답 자동화 같은 데도 쓰고 있습니다.

약한 부분

솔직히 말하면, 이미지나 음성 같은 멀티모달 추론은 GPT-5.1이 더 낫습니다.

텍스트 기반 작업, 특히 코딩이랑 긴 문서 작업에선 Opus가 앞서는데, 이미지 분석이나 음성 처리가 중요하면 GPT 쪽을 고려해야 해요.

그리고 아까 말했듯이 가격이 비쌉니다. 개인이 막 쓰기엔 부담될 수 있어요. 기업이나 프로젝트 단위로 쓰는 게 맞고, 개인은 필요할 때만 쓰는 게 현실적입니다.

누가 쓰면 좋을까

개발자: 대규모 리팩토링, 복잡한 버그 수정, 코드 리뷰 자동화가 필요한 경우

콘텐츠 제작자: 긴 문서, 시리즈 콘텐츠처럼 일관성 유지하면서 작업해야 하는 경우

기업 실무자: 계약 검토, 데이터 분석, 고객지원 자동화 등 반복 업무 효율화가 필요한 경우

어디서 쓰나

labs.anthropic.com에서 직접 쓸 수 있고, AWS Bedrock이나 Google Vertex AI 통해서도 접근 가능합니다.

API로 붙여서 자기 서비스에 통합하는 것도 되고요.

일단 간단한 거 몇 개 테스트해보고, 본인 업무에 맞는지 확인하는 게 좋을 것 같습니다. 비싸니까 무작정 쓰기보단 어디에 쓸지 정하고 시작하세요.