Advisor Strategy Claude Code: Dùng Opus Rẻ Hơn 73% (2026)

Opus 4.7 giá $15 mỗi triệu token. Sonnet 4.6 giá $3. Khoảng chênh 5x này đang buộc bạn phải chọn: trả thêm để có intelligence tốt hơn, hay chấp nhận Sonnet solo với nguy cơ bỏ lỡ những quyết định kiến trúc quan trọng.
Advisor strategy là giải pháp phá vỡ thế khó đó. Thay vì chọn một trong hai, bạn chạy Sonnet (hoặc Haiku) làm executor và để model đó tự quyết định khi nào cần gọi Opus làm advisor — tất cả trong một API request duy nhất. Kết quả: đạt 74.8% SWE-bench Multilingual (so với 72.1% khi dùng Sonnet solo), và tổng chi phí giảm khoảng 73% so với chạy Opus cho toàn session. Đây là tính năng beta mà Anthropic chính thức ra mắt ngày 9 tháng 4 năm 2026.
Bài này sẽ giải thích cơ chế hoạt động, bảng so sánh chi phí thực tế, cách kích hoạt trong Claude Code, và 3 vấn đề production mà tài liệu chính thức chưa nói rõ.
TL;DR
- Advisor Strategy = ghép Sonnet/Haiku (executor) với Opus 4.7 (advisor) trong 1 API call duy nhất
- Tiết kiệm 73% so với Opus solo, đạt 74.8% SWE-bench Multilingual (vs 72.1% Sonnet solo)
- Executor tự quyết định khi nào gọi Opus — không cần viết routing logic
- 3 gotcha thực tế: LiteLLM #25516 break, Priority Tier non-cascade, streaming pause 8-12s
- Bật bằng
/advisortrong Claude Code CLI hoặcadvisor_model: claude-opus-4-7trong CLAUDE.md
Advisor Strategy Là Gì?
Advisor Strategy là một beta API tool có tên advisor_20260301, ra mắt chính thức ngày 9 tháng 4 năm 2026. Cơ chế hoạt động đơn giản nhưng khác biệt: model executor (Sonnet 4.6 hoặc Haiku 4.5) chạy task bình thường, và tự quyết định khi nào cần gọi Opus 4.7 làm advisor — toàn bộ trong một API request duy nhất, không tách session. (Anthropic Docs, 2026)
Điểm khác biệt quan trọng nhất: executor không cần được hướng dẫn khi nào gọi Opus. Model tự trigger dựa trên độ phức tạp của quyết định đang gặp phải. Developer không cần viết routing logic hay conditional branching.

Để không nhầm lẫn, đây là ba pattern trông giống nhau nhưng hoạt động khác hoàn toàn:
Sub-agent orchestration dùng routing logic thủ công, mỗi agent chạy trong session riêng biệt. Developer phải viết code để quyết định khi nào chuyển context sang agent nào. Chi phí quản lý cao hơn đáng kể.
Ultrareview (parallel specialist fleet) là pattern horizontal: nhiều Opus agents chạy song song để review code trước khi merge. Phù hợp cho pre-merge review diện rộng, nhưng tốn nhiều hơn và không tích hợp vào một request.
Sequential prompt chaining là chuỗi prompt thủ công do developer xây dựng. Không có auto-trigger, không có shared conversation context — đây là cách cũ trước khi advisor tool tồn tại.
Advisor Strategy khác cả ba ở chỗ: nó là vertical (model mạnh hơn review model yếu hơn trong cùng request), tự trigger, và chia sẻ toàn bộ conversation transcript với Opus khi được gọi.
Tại Sao Cách Dùng Claude Thông Thường Đang Khiến Bạn Tốn Tiền Thừa?
Vấn đề cốt lõi nằm ở khoảng chênh giá 5x: Opus 4.7 tính $15 mỗi triệu token input, Sonnet 4.6 tính $3. Nếu bạn chạy Opus cho cả session, bạn đang trả $15/MTok cho cả những bước đơn giản như đọc file, format output, hay chạy tool call thông thường — những việc mà Sonnet làm tốt ngang bằng. (Anthropic Blog, 2026)
Ngược lại, nếu chạy Sonnet cho toàn session, bạn tiết kiệm tiền nhưng đánh đổi chất lượng ở những điểm quyết định quan trọng. Sonnet 4.6 đạt 72.1% SWE-bench Multilingual. Sonnet kết hợp với Opus advisor đạt 74.8%, tức cải thiện 2.7 percentage points. Với những quyết định kiến trúc phức tạp, khoảng chênh này có thể là sự khác biệt giữa refactor đúng hướng và phải làm lại.
Chi phí ẩn cũng đáng kể. Khi bạn dùng auto memory overhead trong Claude Code, mỗi session thêm hàng trăm token cho memory context. Cộng với tool call overhead, một Opus session 25 turns thực sự tốn nhiều hơn bạn ước tính. Advisor strategy giảm 11.9% chi phí so với Opus solo ngay cả khi tính đủ overhead này.
Vấn đề thực tế là không ai biết trước trong session sẽ có bao nhiêu “điểm phức tạp” cần Opus intelligence. Có thể là 2 lần, có thể là 8 lần. Trả flat rate Opus cho toàn session là worst-case pricing cho every-case scenario.
Executor + Advisor: Cơ Chế Dual-Model Stack Hoạt Động Như Thế Nào?
Dual-Model Stack là cách mình gọi cơ chế hai tầng này: executor xử lý phần lớn công việc, advisor được gọi đúng lúc cần intelligence cao nhất. Đây là 6 bước flow chi tiết theo tài liệu chính thức của Anthropic. (Anthropic Docs, 2026)
- Executor (Sonnet 4.6) bắt đầu task — nhận user message, đọc context, bắt đầu xử lý bình thường như mọi session khác.
- Phát hiện điểm phức tạp (self-trigger) — executor nhận ra quyết định hiện tại vượt quá ngưỡng confidence của nó. Đây là trigger nội tại, không phải external routing.
- Gọi
advisor_20260301tool call — executor đóng gói toàn bộ conversation transcript và gửi cho Opus trong cùng API request. Không có session mới, không có context loss. - Opus chạy extended thinking — Opus 4.7 nhận transcript đầy đủ, phân tích, và trả về advice. Output gồm 400-700 text tokens nếu không có thinking, hoặc 1,400-1,800 tokens khi tính cả thinking tokens.
- Advice trả về executor — nội dung ngắn gọn, focused vào quyết định cụ thể executor đang gặp. Thinking tokens không được trả về cho executor.
- Executor tiếp tục với context mới — Sonnet nhận advice từ Opus, tích hợp vào reasoning, và tiếp tục task. Tất cả trong cùng một API request ban đầu.

Điểm quan trọng cần nhấn mạnh: executor không nhận được thinking process của Opus, chỉ nhận kết quả cuối. Điều này có nghĩa là Opus “nghĩ” nhiều hơn bạn thấy trong output — và bạn trả tiền cho phần thinking đó ngay cả khi không thấy nó.
Bảng So Sánh Chi Phí: Dùng Cặp Model Nào Cho Dự Án Của Bạn?
Để chọn đúng cặp cho Dual-Model Stack, bạn cần hiểu trade-off giữa từng cấu hình. Bảng dưới đây dùng Opus solo làm baseline 100%, tính theo API pricing tháng 4 năm 2026.
Con số đáng chú ý nhất là Haiku 4.5 + Opus advisor: đạt 41.2% BrowseComp, so với 19.7% khi Haiku solo. Đó là cải thiện 109% relative — gần như gấp đôi chất lượng với chi phí chỉ 85% rẻ hơn Sonnet solo. (Anthropic Docs, 2026)
Vậy chọn cặp nào? Nguyên tắc đơn giản: nếu task chủ yếu là code, architecture, hay reasoning phức tạp, chọn Sonnet+Opus. Nếu task là extraction, classification, hay processing volume lớn với budget eo hẹp, chọn Haiku+Opus.
Cách Kích Hoạt Advisor Strategy Trong Claude Code
Có ba cách kích hoạt, mỗi cách phù hợp với context khác nhau. Chọn đúng cách sẽ tiết kiệm thời gian setup đáng kể.
Method 1: /advisor CLI (nhanh nhất)
Gõ /advisor trong Claude Code interactive session. Toggle này chỉ áp dụng cho session hiện tại, không lưu lại sau khi đóng terminal. Phù hợp khi bạn muốn test nhanh hoặc chỉ cần advisor cho một task cụ thể.
Method 2: CLAUDE.md (persistent)
Thêm vào file CLAUDE.md của project để advisor tự động bật cho mọi session trong project đó:
advisor_model: claude-opus-4-7
advisor_max_uses: 5
advisor_max_uses: 5 giới hạn số lần Opus được gọi mỗi session. Quan trọng để kiểm soát chi phí khi project CLAUDE.md được share với team.
Method 3: API trực tiếp (kiểm soát tối đa)
Dùng khi cần error handling riêng, custom retry logic, hay tích hợp vào application:
import anthropic
import time
from tenacity import retry, stop_after_attempt, wait_exponential
client = anthropic.Anthropic()
@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=10))
def run_with_advisor(user_message: str) -> anthropic.types.Message:
"""Gọi Claude với advisor strategy, retry tối đa 3 lần."""
try:
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=4096,
betas=["advisor-tool-2026-03-01"],
tools=[{
"type": "advisor_20260301",
"advisor_model": "claude-opus-4-7",
"max_uses": 5
}],
messages=[{
"role": "user",
"content": user_message
}],
timeout=120 # advisor call có thể mất 8-12s per call
)
return response
except anthropic.RateLimitError:
time.sleep(60)
raise # tenacity sẽ retry
except anthropic.BadRequestError as e:
# Thường do thiếu beta header hoặc advisor_tool_result bị strip (LiteLLM #25516)
raise ValueError(f"Advisor tool error: {e}") from e
Beta header betas=["advisor-tool-2026-03-01"] là bắt buộc. Nếu thiếu header này, tool type advisor_20260301 sẽ trả về HTTP 400 ngay lập tức. Đây là lỗi phổ biến nhất khi tích hợp lần đầu.
Mình đã test /advisor trong workflow nghiên cứu content của ongboit.com: batch Sonnet cho phần outline và expand, Opus advisor được gọi tự động khi Sonnet đang phân tích competitive gaps. Latency trung bình 10 giây mỗi call, nhưng chất lượng phân tích competitive rõ ràng tốt hơn Sonnet solo — đặc biệt phần xác định những angles mà competitors bỏ qua. Đây chính xác là loại quyết định mà Advisor Strategy được thiết kế để xử lý.
Khi Nào NÊN và KHÔNG NÊN Dùng /advisor?
Câu trả lời ngắn gọn: dùng advisor khi chi phí của quyết định sai cao hơn 8-12 giây latency và $0.02 mỗi call. Đây là decision matrix chi tiết hơn.
NÊN dùng advisor khi:
- Long-horizon tasks hơn 15 phút với nhiều quyết định trung gian. Advisor trả về giá trị rõ ràng nhất trong các session dài, nơi executor gặp nhiều điểm phức tạp.
- Refactor kiến trúc lớn trong codebase không quen. Opus có khả năng nhận diện pattern và anti-pattern tốt hơn đáng kể ở phạm vi rộng.
- Design pattern decisions với trade-off phức tạp: microservices vs monolith, event sourcing vs CRUD, async vs sync flows.
- Unfamiliar codebase mà bạn cần expert judgment để không đi sai hướng ngay từ đầu.
- Production system quan trọng mà lỗi sẽ tốn nhiều giờ sửa chữa.
KHÔNG NÊN dùng advisor khi:
- Single-turn Q&A đơn giản: “đổi tên biến này”, “giải thích error message này”. Sonnet xử lý tốt, không cần Opus.
- Strict latency dưới 2 giây: Streaming pause 8-12s mỗi lần advisor call là không chấp nhận được với real-time UX.
- Simple bug fix với error message và stack trace rõ ràng. Đây là pattern Sonnet đã được train kỹ.
- Executor đã là Opus: Bật advisor khi executor đang là Opus không có ý nghĩa kinh tế — bạn đã trả $15/MTok cho toàn session rồi.
Rule of thumb: nếu sai lầm từ quyết định đó tốn nhiều giờ sửa — advisor xứng đáng với 8-12 giây và khoảng $0.02.
3 Vấn Đề Production Mà Bạn Chưa Biết Về Advisor Strategy?
Ba gotcha này không xuất hiện trong tài liệu chính thức. Cả ba đều có thể gây ra lỗi khó debug hoặc chi phí bất ngờ nếu bạn không biết trước.
Vấn đề 1: LiteLLM GitHub #25516
LiteLLM hiện tại (tính đến tháng 4 năm 2026) strip các block advisor_tool_result khỏi conversation. Kết quả: API call tiếp theo trả về HTTP 400 vì conversation structure bị corrupt.
Vấn đề 2: Priority Tier non-cascade
Executor’s Priority Tier không cascade sang advisor. Nếu executor đang chạy ở Priority Tier (billing cao hơn để đảm bảo throughput), advisor sẽ chạy ở Standard Tier riêng của nó, không kế thừa tier của executor.
Vấn đề 3: Streaming pause 8-12 giây
Khi advisor được gọi, stream dừng hoàn toàn. Không có partial tokens, không có progress indicator, không có gì. Từ góc nhìn người dùng: Claude “đóng băng” 8-12 giây rồi tiếp tục như bình thường.
Đây không phải bug — đó là thiết kế. Opus cần time để chạy extended thinking. Nhưng nếu bạn build UI dùng streaming response, bạn cần xử lý khoảng pause này ở UI layer: hiển thị spinner, status message, hoặc progress indicator để user biết hệ thống vẫn đang xử lý.
Có một điều đáng chú ý về thời điểm ra mắt. Advisor Strategy ra đúng lúc cộng đồng đang phàn nàn về chất lượng regression trong Claude Code (tháng 2 đến tháng 3 năm 2026): visible thinking length giảm gần 73% từ tháng 1 đến tháng 3. Anthropic không tuyên bố điều này, nhưng timing gợi ý advisor tool có thể là một cách bù đắp gap chất lượng mà không cần rollback model — executor nhẹ hơn có thể gọi Opus khi thực sự cần, thay vì mọi token đều qua Opus. Đây là đánh giá của mình từ quan sát, không phải statement chính thức từ Anthropic.
Làm Thế Nào Để Tối Ưu Chi Phí Advisor Thêm 35-45%?
Để setup Dual-Model Stack tối ưu nhất, ba kỹ thuật dưới đây có thể cắt thêm 35-45% chi phí advisor so với cấu hình mặc định. Kỹ thuật đầu tiên là dễ nhất và có tác động lớn nhất.
Kỹ thuật 1: Conciseness instruction trong system prompt
Thêm instruction rõ ràng yêu cầu advisor trả lời ngắn gọn. Kết quả: advisor output giảm từ 400-700 tokens xuống còn 220-385 tokens, tức giảm 35-45% chi phí advisor. (Anthropic Docs, 2026)
System prompt snippet:
"When using the advisor tool, request only the specific
decision or recommendation needed. Limit advisor responses
to 3-5 key points. Do not ask for comprehensive analysis
unless the task explicitly requires it."
Kỹ thuật 2: Prompt caching
Nếu system prompt dài hoặc bạn inject large context vào đầu conversation, dùng cache_control để cache phần đó. Break-even ở khoảng 3 advisor calls — từ call thứ 4 trở đi, cached tokens tiết kiệm chi phí đáng kể. (Anthropic Docs, 2026)
messages=[{
"role": "user",
"content": [
{
"type": "text",
"text": large_context_block,
"cache_control": {"type": "ephemeral"}
},
{
"type": "text",
"text": user_question
}
]
}]
Kỹ thuật 3: max_uses parameter
Cap số lần advisor có thể được gọi trong một session. Đây là guardrail quan trọng nhất cho production:
# CLAUDE.md
advisor_model: claude-opus-4-7
advisor_max_uses: 5
# API
tools=[{
"type": "advisor_20260301",
"advisor_model": "claude-opus-4-7",
"max_uses": 5 # hard cap -- executor sẽ tự xử lý sau khi đạt limit
}]
Khi đạt max_uses, executor tiếp tục hoạt động bình thường nhưng không thể gọi thêm advisor nữa. Không có error, không có interrupt — chỉ là executor phải tự đưa ra quyết định từ đó về sau.
Đây là cost calculation thực tế mình tính cho ba loại session phổ biến, dựa trên API pricing tháng 4 năm 2026:
Tính theo: Sonnet input $3/MTok, Opus input $15/MTok, avg 1,600 tokens/advisor call, conciseness instruction áp dụng. Giá API tháng 4 năm 2026.
Để xem thêm các kỹ thuật cắt giảm token cho toàn workflow Claude Code, đọc 15 mẹo tiết kiệm token Claude Code — nhiều mẹo trong đó kết hợp tốt với advisor strategy.
Câu Hỏi Thường Gặp
Advisor Strategy Claude Code là gì?
Advisor Strategy là cơ chế beta của Anthropic cho phép model executor (Sonnet 4.6 hoặc Haiku 4.5) tự động gọi Opus 4.7 làm advisor trong cùng một API request khi gặp quyết định phức tạp. Executor quyết định khi nào cần gọi — developer không cần viết routing logic. Tool name là advisor_20260301, ra mắt ngày 9 tháng 4 năm 2026.
Advisor tool có làm chậm Claude Code không?
Có. Mỗi lần advisor được gọi, Claude Code pause khoảng 8-12 giây trong khi Opus chạy extended thinking. Stream tạm dừng hoàn toàn, không có partial output. Với tasks cần latency thấp dưới 2 giây, advisor strategy không phù hợp. Với tasks dài hơn 15 phút, 8-12 giây pause thường không ảnh hưởng đáng kể đến trải nghiệm.
Nên chọn Sonnet+Opus hay Haiku+Opus?
Sonnet 4.6 + Opus advisor phù hợp cho agentic coding tasks, refactor, architecture decisions — đây là sweet spot chi phí/chất lượng với 74.8% SWE-bench. Haiku 4.5 + Opus advisor phù hợp hơn cho high-volume extraction, classification tasks với budget cực kỳ eo hẹp — 85% rẻ hơn Sonnet solo và cải thiện BrowseComp lên 41.2% (so với 19.7% Haiku solo).
Advisor tool có tính thêm tiền không?
Có. Advisor tokens (bao gồm thinking tokens) được tính theo giá Opus 4.7 ($15/MTok input) và billing riêng biệt với executor. Với mỗi call, chi phí advisor khoảng $0.021-0.027 cho 1,400-1,800 tokens. Tuy nhiên tổng session vẫn rẻ hơn nhiều so với chạy Opus toàn bộ — tiết kiệm 73-78% tùy session length.
Advisor Strategy khác sub-agent và ultrareview như thế nào?
Advisor Strategy là vertical (model mạnh review model yếu hơn), chạy trong một API request, executor tự trigger. Sub-agent là horizontal (nhiều agent cùng tier chạy tasks riêng biệt trong separate sessions). Ultrareview (parallel specialist fleet) là horizontal review với nhiều Opus agents song song — phù hợp cho pre-merge code review, tốn nhiều hơn nhưng coverage rộng hơn advisor strategy.
Claude Code /advisor command và Advisor Tool API có giống nhau không?
Lệnh /advisor trong Claude Code CLI kích hoạt cùng API tool advisor_20260301 phía dưới, chỉ với UI tiện hơn. Dùng /advisor trong interactive session cho nhanh. Dùng API trực tiếp khi cần kiểm soát chi tiết hơn: max_uses, cache_control, error handling riêng. Cả hai đều cần beta header advisor-tool-2026-03-01 để hoạt động.
Kết Luận
Advisor Strategy là câu trả lời thực tế cho bài toán cost vs quality trong agentic coding. Thay vì chọn một trong hai cực — Opus tốt nhưng đắt, hay Sonnet rẻ nhưng có thể miss — Dual-Model Stack cho phép executor tự chọn đúng tool đúng lúc.
Điểm mạnh cốt lõi của cơ chế này: không có routing logic nào cần viết. Executor quyết định, developer chỉ setup cấu hình. Đây là điểm khác biệt so với mọi multi-agent pattern trước đó.
Ba con số đáng nhớ: +2.7pp SWE-bench Multilingual, 73% tiết kiệm chi phí so với Opus solo, và 8-12 giây latency mỗi advisor call. Nếu bài toán của bạn phù hợp, trade-off rất rõ ràng.
Bước tiếp theo đơn giản: gõ /advisor trong Claude Code session tiếp theo khi bạn bắt đầu một task refactor hoặc architecture review. Xem advisor được gọi bao nhiêu lần và quality của output có khác không. Và nếu bạn muốn cắt thêm chi phí từ nhiều góc độ khác, bài 15 mẹo tiết kiệm token Claude Code có các kỹ thuật bổ sung kết hợp tốt với advisor strategy. Xem tổng hợp tất cả tính năng tại roadmap đầy đủ Claude Code 2026.
