15 Mẹo Tiết Kiệm Token Claude Code Hiệu Quả Nhất (2026)

Mình nhớ lần đầu thấy bill API cuối tháng: $290. Nghĩ là mình dùng nhiều quá, nhưng sau khi tìm hiểu mới biết vấn đề không phải lượng dùng, mà là cách dùng. Bài nghiên cứu của Nate Herk phân tích 7,000 sessions Claude Code cho thấy 98.5% token trong một session chỉ là đọc lại history cũ, không phải xử lý task thực sự. Một user đã bị tăng từ $345/tháng lên $42,000/tháng chỉ vì không hiểu cơ chế này (Nate Herk, YouTube: How to Never Hit Your Claude Session Limit Again, 2026).
Bài gốc mình viết 10 mẹo cơ bản. Lần update này mình bổ sung thêm 5 mẹo mới dựa trên nghiên cứu đó, đặc biệt là khái niệm “Context Rot”, 120K token ceiling, session chaining, và file-to-markdown conversion. Tổng 15 mẹo, áp dụng đủ giúp bạn giảm 70-87% chi phí.
98.5% token trong một session là đọc lại history cũ, không phải xử lý gì mới (Nate Herk, 2026). 15 mẹo trong bài này tập trung vào 2 chiến lược: (1) giữ context gọn từ đầu với CLAUDE.md, .gitignore, chọn model đúng; (2) quản lý session thông minh với 120K ceiling, session chaining, /rewind, và file-to-markdown conversion. Áp dụng đủ: giảm $290/tháng xuống còn $82/tháng.
rereading history
Msg #1
trong session dài
HTML sang Markdown
Bạn sẽ học được gì:
– Tại sao context rot làm AI “mất trí” trong session dài và cách phòng tránh
– 120K token ceiling: con số kỳ lạ nhưng có cơ sở khoa học
– Session chaining: làm việc như dây chuyền lắp ráp thay vì một mình một session khổng lồ
– 5 mẹo nâng cao: /rewind, file conversion, session handoff, token dashboard, chiến thuật thời điểm Chi tiết skill session handoff skill setup 1 command với comparison 9 implementation public GitHub.
Xem thêm: Claude Code giá bao nhiêu? So sánh Pro vs Max vs API
Tiết Kiệm Token Claude Code Tại Sao Quan Trọng?
Mỗi message bạn gửi trong Claude Code, toàn bộ conversation history + CLAUDE.md + file contents được gửi lại từ đầu. Theo Anthropic Pricing, Opus 4.7 tính $20/1M output tokens (giảm so với $25 của 4.6). Áp dụng advisor strategy Opus Sonnet để chọn model đúng việc. Message đầu tiên có thể chỉ tốn 500 tokens. Message thứ 30 trong cùng session tốn 15,500 tokens, đắt hơn 31 lần (Nate Herk, 2026).
Tại sao lại như vậy? Vì Claude không “nhớ” conversation. Mỗi lần, nó đọc lại tất cả từ message 1 đến message hiện tại. Session 30 messages có nghĩa là message cuối cùng phải “đọc” 29 messages trước đó. Đây là tính chất của transformer architecture, không phải lỗi.
Con số đáng lo: 98.5% token trong một session chỉ là rereading history cũ, không phải xử lý task mới (Nate Herk, phân tích 7,000 sessions, 2026). Nếu bạn đang trả $100/tháng qua API, chỉ $1.50 trong đó là “công việc thực sự”. Phần còn lại là đọc lại những gì đã biết.
Context Rot Là Gì Và Tại Sao Bạn Cần Biết Trước?
“Context Rot” là hiện tượng mình gọi là “AI mất trí từ từ”: session càng dài, Claude càng hoạt động kém. Không phải do model tệ, mà do attention mechanism bị phân tán khi context quá lớn. Retrieval accuracy giảm từ 92% xuống 78% khi context tăng từ 256K lên 1M tokens (Nate Herk, 2026). Thinking depth giảm 67% trong session dài, phân tích từ 18,000 thinking blocks.
Triệu chứng cụ thể mình đã gặp: Claude bắt đầu edit file mà không đọc trước, tỷ lệ này tăng từ 6% lên 34% trong session dài. Nó đề xuất giải pháp mâu thuẫn với những gì vừa thống nhất 10 messages trước. Nó “quên” rằng bạn đã nói “đừng sửa file X”. Đây là context rot.
Vấn đề trầm trọng hơn ở tính năng auto-compact: Claude Code tự kích hoạt compact khi context đạt 95% window. Nhưng auto-compact chỉ giữ lại 20-30% độ chi tiết ban đầu (Nate Herk, 2026). Bạn không mất context hoàn toàn, nhưng mất phần lớn các chi tiết quan trọng mà không có cảnh báo rõ ràng.
Trường hợp cực đoan: một user trong nghiên cứu của Nate Herk bị tăng từ $345/tháng lên $42,000/tháng vì để sessions chạy không kiểm soát qua nhiều agent teams. Context rot khiến agent liên tục retry, mỗi lần retry thêm hàng chục ngàn tokens.
Mẹo 1: CLAUDE.md Của Bạn Có Đang Ngốn Token Mỗi Session Không?
CLAUDE.md được đọc mỗi lần bắt đầu session và mỗi message. Tối ưu file từ 2,100 xuống 800 tokens giảm 62% startup cost (Anthropic Docs). Nếu CLAUDE.md của bạn đang có 400-500 dòng, bạn đang “nạp” hàng ngàn token thừa vào mỗi request.
Nguyên tắc cốt lõi: chỉ viết những gì Claude không thể tự suy ra từ code. Không giải thích “đây là dự án React” nếu đã có package.json. Không copy-paste README vào đây. Không liệt kê dependencies.
Trên ongboit.com, CLAUDE.md ban đầu dài 400 dòng. Sau khi rút gọn xuống 120 dòng và chuyển phần workflow sang Skills riêng, mỗi session tiết kiệm 3,000-5,000 tokens ngay từ đầu. Với 10 sessions/ngày, tương đương 30,000-50,000 tokens tiết kiệm, khoảng $1-2/ngày.
# CLAUDE.md TỐI ƯU: dưới 200 dòng
## Commands
npm run dev # Chạy dev server
npm test # Chạy tests
npm run lint # Kiểm tra ESLint
## Architecture
- /src/api/ → API routes (Express)
- /src/models/ → Mongoose schemas
- /src/hooks/ → React hooks
## Rules
- Comment tiếng Việt cho business logic
- Luôn chạy test trước khi commit
# ĐỪNG viết:
# - Giải thích "đây là dự án React/Next.js"
# - Copy paste README vào đây
# - Liệt kê tất cả dependencies
# - Workflow dài hơn 10 dòng (chuyển sang Skills)
Mẹo 2: .claudeignore, Tại Sao Đây Là Mẹo Dễ Nhất Nhưng Ít Ai Làm?
Claude Code tự scan codebase để hiểu context. Chỉ riêng việc exclude node_modules/ và .next/ trong dự án Next.js đã giảm 30-40% context tokens (32blog). Chỉ mất 2 phút để setup, nhưng hầu hết developer bỏ qua bước này.
Claude Code không có file .claudeignore riêng. Nó respect .gitignore mặc định qua setting respectGitignore. Với files cần block hoàn toàn, dùng permissions.deny trong .claude/settings.json.
# .gitignore: thêm các dòng này nếu chưa có
# Build artifacts (Claude không cần đọc)
node_modules/
.next/
dist/
build/
.output/
# Lock files (hàng ngàn dòng, tốn token vô ích)
package-lock.json
yarn.lock
pnpm-lock.yaml
# Media và binaries
*.png
*.jpg
*.mp4
*.woff2
# Logs và cache
*.log
.cache/
.turbo/
coverage/
// .claude/settings.json: block hoàn toàn files nhạy cảm
{
"permissions": {
"deny": [
"Read(.env*)",
"Read(**/*.secret)",
"Read(wp-content/uploads/**)"
]
}
}

Mẹo 3: /clear, /rewind, /btw, Dùng Lệnh Nào Khi Nào?
Sau 20-30 messages, conversation history có thể đạt 50K+ tokens mỗi request chỉ vì history cũ (Anthropic Docs). Bạn có 3 lệnh khác nhau để xử lý, mỗi lệnh phù hợp một tình huống riêng. Chọn sai lệnh bạn vẫn tốn token thừa hoặc mất context cần thiết.
/clear reset toàn bộ về zero. Dùng khi chuyển sang task hoàn toàn mới, context cũ không còn giá trị. Xong fix bug auth thì clear, bắt đầu viết blog sạch sẽ. Tiết kiệm 50-80% tokens cho session tiếp theo.
/rewind (hay /re, hoặc double-tap Escape) thì khác: nó nhảy lại một message cụ thể và xóa tất cả những gì xảy ra sau đó. Đây là lựa chọn tốt hơn nhiều so với “That didn’t work, try again” vì những lần thử thất bại làm ô nhiễm context. /rewind còn có tùy chọn “summarize from here” để tạo handoff note trước khi xóa. Rất hữu ích khi Claude đi sai hướng.
/btw dùng cho side questions không muốn đưa vào history chính. Claude trả lời rồi quay lại task gốc, câu hỏi phụ không làm nặng context (MindStudio).
# Khi nào dùng lệnh nào:
# Chuyển task hoàn toàn mới
/clear
# Claude đi sai hướng, muốn thử lại từ message N
/rewind # hoặc double-tap Escape
# → chọn message muốn quay về
# → "summarize from here" nếu cần handoff
# Hỏi phụ không ảnh hưởng context chính
/btw Thư viện nào tốt cho date formatting trong Node.js?
# Thứ tự ưu tiên khi session dài:
# 1. /rewind nếu Claude vừa đi sai hướng
# 2. /clear nếu task mới hoàn toàn
# 3. /compact nếu task vẫn tiếp tục nhưng context nặng
Mẹo 4: /compact Đúng Cách Để Không Bị Mất Context Quan Trọng
/compact nén toàn bộ conversation thành bản tóm tắt, giải phóng 40-60% context window mà không cần /clear. Nhưng auto-compact có vấn đề: nó chỉ kích hoạt ở 95% context window và chỉ giữ lại 20-30% độ chi tiết (Nate Herk, 2026). Khi bạn để auto-compact xử lý, đã muộn.
Chiến lược đúng: compact thủ công ở 60% context, trước khi auto-compact kích hoạt. Compact với hướng dẫn cụ thể để giữ đúng thứ bạn cần. Thêm compaction rules vào CLAUDE.md để auto-compact (khi xảy ra) cũng ưu tiên đúng.
# Compact với hướng dẫn cụ thể: hiệu quả hơn bare /compact
/compact Focus on auth module changes and test results
# Thêm compaction rules vào CLAUDE.md:
## Compaction Rules
# When compacting, always preserve:
# - Mục tiêu task hiện tại và acceptance criteria
# - Đường dẫn file đã sửa
# - Kết quả test gần nhất
# - Outline nếu đang viết content
# - Decisions đã thống nhất (không reopen)
# Kiểm tra context level:
/context # xem cái gì đang chiếm bao nhiêu
Mẹo 5: Tại Sao 120K Token Là Ngưỡng Không Nên Vượt?
Mình dùng Opus với 1M context window, nhưng có một kỷ luật cá nhân: không bao giờ để session vượt 120K tokens, tương đương 12% context window. Nghe có vẻ lãng phí, nhưng có lý do cụ thể. Retrieval accuracy ở 256K là 92%, ở 1M chỉ còn 78% (Nate Herk, 2026). 1M context window không có nghĩa là output tốt hơn, chỉ có nhiều chỗ hơn cho context rot phát triển.
Có một khái niệm quan trọng: “prime time” của session. Ở 0-20% đầu tiên (0-200K tokens với 1M window), CLAUDE.md còn mới nguyên trong context và attention của model tập trung nhất. Đây là lúc Claude làm việc tốt nhất. Khi vượt 20%, hiệu suất bắt đầu giảm dần.
120K token tương đương 60% của context window cũ 200K tokens, vốn là điểm compact/clear tự nhiên khi người dùng vẫn còn dùng window nhỏ hơn. Con số này không phải ngẫu nhiên, nó là ngưỡng trước khi context rot bắt đầu ảnh hưởng rõ rệt.
Cách mình theo dõi: cấu hình status bar hiển thị context percentage liên tục. Thấy 50-60%? Quyết định: compact ngay hay start session mới cho phần việc còn lại? Không bao giờ để đến 80% mới nghĩ đến.
Mẹo 6: Session Chaining: Chuỗi Session Như Dây Chuyền Lắp Ráp
Thay vì làm tất cả trong một session khổng lồ, hãy chia nhỏ thành nhiều session chuyên biệt. Mỗi session có đúng một mục tiêu, output của session trước là input của session sau. Giống dây chuyền lắp ráp, mỗi trạm làm một việc rất tốt thay vì một người làm tất cả.
Ví dụ workflow thực tế khi mình refactor một module lớn:
– Discovery session: đọc codebase, hiểu kiến trúc hiện tại, ghi chú ra file discovery-notes.md. Kết thúc session, clear.
– Planning session: load discovery-notes.md, tạo refactor-plan.md với từng bước cụ thể. Clear.
– Execution session: load refactor-plan.md, implement từng bước. Nếu dài, chia thêm session con.
Tại sao hiệu quả? Mỗi session bắt đầu với context sạch, chỉ chứa đúng thứ cần cho giai đoạn đó. Discovery session không cần nhớ planning details. Planning session không cần raw code từ discovery. Execution session nhận plan đã được tinh lọc, không có noise.
# Session Chaining Pattern
# === Session 1: Discovery ===
# Goal: Hiểu codebase, không implement gì
"Read src/auth/ and explain the current architecture.
List all files modified in last 30 days.
Output to discovery-notes.md, then we're done."
# → /clear sau khi có discovery-notes.md
# === Session 2: Planning ===
# Load file output từ session 1
"Read discovery-notes.md.
Create a step-by-step refactor plan for auth module.
Save to refactor-plan.md. Flag risks."
# → /clear sau khi có refactor-plan.md
# === Session 3: Execution ===
# Chỉ cần plan, không cần discovery raw
"Read refactor-plan.md. Implement Step 1 only.
When done, update the plan to mark Step 1 complete."

Mẹo 7: Chọn Model Đúng Việc, Tiết Kiệm Được Bao Nhiêu?
Không phải task nào cũng cần Opus. Theo Anthropic, Sonnet 4.6 xử lý 80%+ tasks thông thường với giá chỉ 1/5 Opus. Chuyển đúng model cho đúng việc tiết kiệm 40-80% chi phí mỗi session. Viết blog, fix bug nhỏ, thêm test, format code, đều là Sonnet territory.
# Chuyển model nhanh trong session:
/model sonnet # Mặc định cho hầu hết tasks
/model opus # Chỉ khi cần reasoning sâu
/model haiku # Rẻ nhất cho tasks đơn giản
# Set mặc định trong settings.json:
{
"model": "sonnet",
"smallModelOverride": "haiku"
}
Mẹo 8: Sub-agents Chạy Context Riêng, Tiết Kiệm Theo Cách Nào?
Khi Claude cần đọc 5-10 files để tìm hiểu codebase, toàn bộ nội dung vào context chính. Sub-agents chạy trong context window riêng biệt, chỉ trả về summary ngắn gọn. Theo Anthropic Docs, agent teams dùng khoảng 7x token hơn session thường, nhưng trick ở chỗ subagent chạy Haiku ($1/1M input) trong khi context chính dùng Opus ($5/1M input).
Workflow audit ongboit.com thực tế: cần kiểm tra 14 bài blog tìm internal link hỏng. Thay vì để Opus đọc từng bài (14 files x 3,000 tokens = 42,000 tokens vào context chính), mình delegate cho subagent Haiku scan tất cả, trả về danh sách 20 dòng. Context chính chỉ nhận 500 tokens. Chi phí giảm từ ~$3.15 xuống ~$0.25.
# Thay vì để Claude đọc trực tiếp (tốn token):
"Đọc tất cả file trong src/api/ và tìm endpoint thiếu auth"
# → Claude đọc 15 files vào context chính (~30,000 tokens)
# Dùng subagent (tiết kiệm):
"Use a subagent to investigate: read all files in src/api/
and list endpoints missing auth middleware. Summary only."
# → Subagent đọc 15 files trong context riêng (Haiku)
# → Trả về 10-20 dòng summary vào context chính (~500 tokens)
Mẹo 9: Tại Sao Plan Mode Là Thói Quen Của Người Tạo Ra Claude Code?
Boris Churnney, creator của Claude Code, bắt đầu EVERY session bằng plan mode (Nate Herk, 2026). Không phải vì ông không tin Claude, mà vì plan mode loại bỏ lãng phí lớn nhất: rework vòng lặp. Theo 32blog, plan mode giảm 20-30% tổng token nhờ implement đúng ngay lần đầu.
Mình đã mắc lỗi này nhiều lần. Yêu cầu Claude refactor auth module không plan trước, kết quả là 5 vòng sửa, mỗi vòng 10,000+ tokens. Tổng 50,000+ tokens cho 1 task. Dùng plan mode, cùng task đó chỉ tốn 20,000 tokens. Không cần bật plan mode cho mọi thứ, nhưng bất kỳ task nào trên 15 phút đều nên plan trước.
Plugin Superpowers cho Claude Code có thêm plan mode enhancement, cho phép save và load plans giữa sessions, rất hữu ích cho project dài.
# Cách vào Plan mode:
# Nhấn Shift+Tab trước khi gửi message
# Hoặc nói trực tiếp:
"Plan first: how would you refactor the auth module
to support OAuth2? Don't write code yet.
List: current state, proposed changes, risks, steps."
# Claude sẽ:
# 1. Phân tích cấu trúc hiện tại
# 2. Đề xuất approach (2-3 options)
# 3. Chờ bạn approve trước khi implement
# → Implement đúng lần đầu = ít rework = ít token
Mẹo 10: Chuyển File Sang Markdown Giảm Token 90%, Thật Không?
Đây là mẹo mà mình không ngờ lại hiệu quả đến vậy. Khi Claude đọc file HTML, PDF, hay DOCX, nó đọc tất cả markup, formatting, metadata, layout. Phần lớn không liên quan đến content. Convert sang Markdown trước khi đưa cho Claude: HTML giảm 90% tokens, PDF giảm 65-70%, DOCX giảm 33% (Nate Herk, 2026).
Con số cụ thể: một file PDF 40 trang tốn token tương đương file Markdown 130 trang. Đó là 3.25x overhead chỉ vì format. Model chỉ cần text content, không cần biết font-size, margin, hay layout của PDF.
Tool mình dùng: Dockling (command line, free), convert PDF/DOCX/HTML sang Markdown trong vài giây. Cũng có thể dùng Pandoc cho DOCX. Với HTML, một regex đơn giản strip hết tags.
# Dockling: convert PDF sang Markdown
dockling convert document.pdf --output document.md
# Pandoc: convert DOCX sang Markdown
pandoc input.docx -t markdown -o output.md
# Python: strip HTML tags đơn giản
python3 -c "
import re, sys
html = open(sys.argv[1]).read()
text = re.sub('<[^>]+>', '', html)
print(text)
" input.html > output.md
# Kết quả giảm token:
# HTML (1MB) → Markdown (~100KB) = 90% giảm
# PDF (40 trang) → Markdown (40 trang) = 65% giảm
# DOCX (100KB) → Markdown (67KB) = 33% giảm
Mẹo 11-15: Nâng Cao: Giờ Bạn Đã Sẵn Sàng
Năm mẹo sau đây cần chút setup hơn, nhưng payoff lớn hơn nhiều với người dùng nặng. Mình đã dùng tất cả trên workflow ongboit.com.
Mẹo 11: Giảm Extended Thinking Budget
Mặc định Claude Code dành 31,999 tokens/request cho extended thinking. Thinking tokens tính như output tokens ($20/1M với Opus 4.7, $25 với 4.6). Giảm thinking budget cho simple tasks tiết kiệm đến 70% thinking cost per request (ClaudeFast).
Mình set MAX_THINKING_TOKENS=8000 làm mặc định. Đủ cho 90% công việc hàng ngày. Chỉ tăng lên khi gặp architecture decisions hay complex debugging. Cẩn thận: giảm quá thấp cho complex tasks sẽ output kém, bạn phải yêu cầu sửa lại, mất thêm token, đây là bẫy “tiết kiệm giả”.
# Giảm thinking budget:
export MAX_THINKING_TOKENS=8000
# Thêm rule vào CLAUDE.md:
## Efficiency Rules
# simple file edits: minimal thinking
# architecture decisions: think deeply
# code review: medium thinking
Mẹo 12: Prompt Cụ Thể Cắt 15-25% Token
Prompt mơ hồ buộc Claude scan nhiều file, thử nhiều approach, output dài dòng. Prompts cụ thể giúp tiết kiệm 15-25% tokens nhờ giảm scanning và output thừa (Aslam Doctor). Quy tắc của mình: mỗi prompt phải chứa ít nhất tên file, số dòng, hoặc tên function.
“Fix bug in auth” là prompt tệ. “Fix null pointer in handleSubmit at components/Form.tsx:89” là prompt tốt. Cái sau giúp Claude bỏ qua 50+ files không liên quan, xử lý ngay vào đúng chỗ.
Mẹo 13: Hooks + Skills Ở Tầng Hệ Thống
Hooks tiền xử lý data trước khi Claude nhận. Thay vì để Claude đọc file log 10,000 dòng (~40,000 tokens), hook grep chỉ lấy dòng ERROR, trả về 50 dòng (~200 tokens). Tiết kiệm 99.5% cho 1 lần đọc log.
Skills chỉ load khi cần, không nhồi tất cả vào CLAUDE.md. Workflow viết blog 16 bước chỉ load khi gõ /blog. Các session khác không bị ảnh hưởng.
#!/bin/bash
# Hook: Tiền xử lý log file (PostToolUse on Read)
INPUT=$(cat)
FILE=$(echo "$INPUT" | jq -r '.file_path // empty')
# Nếu đọc file .log, chỉ giữ dòng ERROR và WARNING
if [[ "$FILE" == *.log ]]; then
grep -E "ERROR|WARNING" "$FILE" | tail -50
exit 0
fi
exit 0
# Kết quả: 10,000 dòng log → 50 dòng relevant
# Tiết kiệm: ~39,800 tokens mỗi lần đọc log
Mẹo 14: Session Handoff Skill: Đừng Reset Từ Đầu
Khi session dài đến giới hạn nhưng task chưa xong, bạn không cần bắt đầu lại từ đầu. Tạo một custom slash command /session-handoff để Claude: đọc toàn bộ session, phân tích, output structured summary (decisions made, key files modified, current state, open questions, pick-up-from-here instructions). Sau đó /clear và paste summary vào session mới. Session mới tiếp tục mượt mà như chưa bị ngắt.
Điểm khác biệt so với compact thông thường: handoff được thiết kế để human-readable và AI-readable đồng thời. Bạn có thể đọc để hiểu trạng thái, và Claude mới cũng đọc để tiếp tục. Compact chỉ nhắm đến Claude tiếp tục trong cùng session.
# ~/.claude/commands/session-handoff.md
# Tạo file này để dùng /session-handoff trong mọi project
Analyze this session and create a handoff note:
## Session Handoff
**Task objective:** [what we were trying to accomplish]
**Current status:** [done / in progress / blocked]
**Decisions made:** [key decisions, rationale]
**Files modified:** [list with what changed]
**Next steps:** [exact steps to continue]
**Open questions:** [unresolved issues]
**Pick up from here:** [first message for new session]
Save to session-handoff.md, then confirm done.
Mẹo 15: Token Dashboard: Biết Token Đi Đâu
Không thể tối ưu thứ bạn không đo. Một token dashboard đơn giản cho thấy: sessions, turns, input/output tokens, cache read/create, phân theo project và model. Bạn sẽ nhanh chóng nhận ra pattern, project nào tốn nhất, prompt type nào ăn nhiều token, model nào đang bị dùng sai.
Công cụ có sẵn từ community: ccusage track usage chi tiết theo project từ Claude Code CLI. Cách đơn giản nhất: gõ /cost sau mỗi task lớn, ghi chú lại, sau 1 tuần bạn đã có picture rõ ràng về consumption pattern của mình.
# Xem cost trong session:
/cost
# ccusage (community tool):
npm install -g ccusage
ccusage --project myapp --last 7d
# Xem theo model:
ccusage --breakdown model
# Output: sessions, turns, tokens, cache hits, cost by model
Opus 4.7 Có Thay Đổi Gì Về Token Cost So Với 4.6?
Anthropic ra mắt Claude Opus 4.7 vào Q2 2026 với nâng cấp đáng kể về tokenizer và pricing. Đây là update có tác động trực tiếp đến chi phí daily workflow của dev đang dùng Claude Code, đặc biệt khi đang track cost qua Anthropic Console.
Pricing giảm 20% trên cả input và output. Opus 4.7 list price $4/$20 (input/output) so với $5/$25 của 4.6. Riêng update này đã tiết kiệm 20% cost ngay cho cùng workflow, không cần thay đổi gì. Sonnet 4.6 và Haiku 4.5 giữ nguyên pricing, nên gap giữa Opus và Sonnet thu hẹp từ 5x xuống 4x. Hệ quả: cost của việc “luôn dùng Opus” giờ ít đau hơn cho task nhỏ, nhưng routing thông minh Opus cho task khó, Sonnet cho task đơn giản vẫn là practice tối ưu nhất.
Tokenizer v3 giảm thêm 35% input token cho tiếng Việt và code. Đây là phần đáng giá nhất. Opus 4.7 dùng tokenizer mới efficient hơn 35% với input tiếng Việt và source code so với 4.6. Test thực tế ongboit.com: cùng CLAUDE.md 8K từ + folder context 30 file Python, Opus 4.6 tốn ~28K token startup, Opus 4.7 chỉ ~18K, tiết kiệm 35% input cost ngay khi bắt đầu session. Cộng dồn với 20% price drop, tổng tiết kiệm khoảng 48% trên input token. Output token cũng efficient hơn 15-20% do output stream ít redundancy hơn.
Context effective tăng từ ~600K lên ~900K token. Trên 4.6, practical quality degradation bắt đầu từ ~600K token. 4.7 maintain quality đến ~900K, gần với theoretical limit 1M. Tác động cuối cùng: bạn /clear ít hơn, /compact ít hơn, mỗi session “thọ” lâu hơn 50%. Trên workflow refactor 100-file monorepo, mình từng phải chia làm 3 session với 4.6, giờ 1 session 4.7 hoàn thành end-to-end. Cost saving không chỉ từ giá rẻ hơn, mà còn từ không phải warm context lại nhiều lần.
Benchmark thực tế ongboit.com (2 tuần đầu sau khi 4.7 GA): task “audit 1 blog HTML 30K chars” tốn 4.6: 145s + $0.42, 4.7: 98s + $0.28 (giảm 33% cost). Task “research và write outline mới” tốn 4.6: 380s + $1.10, 4.7: 245s + $0.71 (giảm 35%). Task “refactor 1 Python 500 dòng” tốn 4.6: 220s + $0.65, 4.7: 175s + $0.43 (giảm 34%). Tỉ lệ tiết kiệm trung bình 32-35% cost, 30% thời gian. Đây là số liệu daily, không phải benchmark synthetic.
Migration checklist cho Opus 4.7: một, không cần sửa CLAUDE.md (giữ nguyên hoàn toàn tương thích). Hai, claude –model claude-opus-4-7 hoặc dùng /model trong session để switch. Ba, nếu có CI/CD hard-code claude-opus-4-6, cập nhật env var; pipeline sẽ chạy nhanh hơn 30% và rẻ hơn 30-35%. Bốn, review lại MAX_THINKING_TOKENS: có thể giảm từ 8K xuống 6K vì model mới reasoning efficient hơn. Năm, nếu đang dùng prompt cache, cache key vẫn compatible giữa 4.6 và 4.7, không phải warm cache lại.
Khi nào nên ở lại Opus 4.6? Một, pipeline production hard-code model version chưa muốn migrate (an toàn rollback). Hai, workflow phụ thuộc vào quirks của 4.6 chưa kịp re-tune cho 4.7. Ngoài hai case này, switch sang 4.7 là no-brainer cho daily Claude Code work. Anthropic vẫn maintain 4.6 trong API đến ít nhất Q1 2027, không gấp gáp, nhưng dev mới bắt đầu nên default chọn 4.7.
Anti-pattern cần tránh khi migrate: đừng chạy A/B test bằng cách rotate model giữa 4.6 và 4.7 trong cùng session – mỗi lần switch model làm invalidate prompt cache, mất warm-up benefit. Nếu muốn so sánh, chạy 2 session riêng biệt với cùng task. Đừng dùng 4.7 cho task siêu đơn giản (format JSON, validate syntax) vì Haiku 4.5 vẫn rẻ hơn 4 lần và đủ nhanh. Cuối cùng, đừng tăng MAX_THINKING_TOKENS khi switch sang 4.7 với suy nghĩ “model mới handle được” – thực tế model 4.7 cần ít thinking budget hơn, không phải nhiều hơn.
Prompt caching trên Opus 4.7 hiệu quả hơn 4.6. Cache hit rate trung bình của mình trên Opus 4.6 dao động 60-65%. Sau khi migrate sang 4.7, cache hit rate tăng lên 75-82%, lý do là tokenizer mới ổn định hơn, ít biến đổi token boundary cho cùng đoạn text. Cache hit token chỉ tính 10% giá gốc, nên 10% tăng hit rate trên Opus 4.7 tương đương 6-8% tổng cost saving thêm trên top of 35% pricing improvement. Cộng tất cả lại, daily workflow ongboit.com chuyển từ ~$8/ngày trên 4.6 xuống ~$4.50/ngày trên 4.7 với cùng số session, tiết kiệm khoảng 44% cost daily.
Patterns cụ thể để tận dụng cache hit cao của 4.7: giữ CLAUDE.md ổn định (không edit thường xuyên trong cùng ngày làm việc) để cache key stable. Stack file context theo thứ tự cố định: CLAUDE.md trước, sau đó là folder context, sau cùng mới đến task message. Tránh inject timestamp hoặc random ID vào prompt vì sẽ invalidate cache toàn bộ session. Pattern này đặc biệt quan trọng cho long-running session với research workflow phức tạp, có thể tiết kiệm 30-40% cost so với cách dùng “bừa bãi” prompt cache.
Tích hợp 4.7 với existing 15 mẹo trong bài: mẹo 1 (CLAUDE.md gọn) benefit gấp đôi trên 4.7 vì tokenizer mới còn nén thêm 35%, nên mỗi byte tiết kiệm có hệ số gấp đôi. Mẹo 7 (chọn model đúng việc) vẫn essential: gap Opus/Sonnet thu hẹp xuống 4x nhưng Sonnet vẫn rẻ hơn rõ rệt. Mẹo 11 (giảm thinking budget) có thể aggressive hơn xuống 5K-6K cho daily tasks với 4.7. Mẹo 6 (session chaining) ít cần thiết hơn vì context effective lên 900K, một session có thể handle workflow lớn mà 4.6 phải chia 3 session. Trên tổng thể, 15 mẹo này áp dụng cho 4.7 cho compound saving 50-60% so với baseline 4.6 không tối ưu.
Pricing math cho team 5 dev dùng nặng: giả sử mỗi dev tiêu $5-7/ngày trên Opus 4.6 với workflow tối ưu cơ bản (~150 working days/năm), team 5 dev tốn $3,750-5,250/năm. Sau migrate sang 4.7 với toàn bộ 15 mẹo + prompt cache pattern, cost xuống còn $2,000-2,800/năm, tiết kiệm tuyệt đối $1,750-2,450/năm/team. Với team scale lớn (20-50 dev), saving lên đến $7,000-12,000/năm chỉ từ việc migrate model + tối ưu workflow. Đây là ROI thực, không phải marketing.
Tracking cost hậu migrate qua ccusage: sau khi switch sang 4.7, mình recommend chạy ccusage --breakdown model mỗi tuần đầu tiên để xem cost split giữa Opus 4.7, Sonnet 4.6, và Haiku 4.5 có đúng tỉ lệ kỳ vọng không. Tỉ lệ healthy: Opus 4.7 chiếm 30-40% cost, Sonnet 4.6 chiếm 50-60% (đa số task), Haiku 4.5 chiếm 5-10% (validation/format). Nếu Opus chiếm trên 70% cost, có thể bạn đang dùng Opus cho task đáng lý phải route Sonnet, cần review lại workflow. Ngược lại nếu Opus dưới 15%, có thể đang lười dùng Opus cho task khó, output quality sẽ kém hơn cần thiết.
Một hidden cost mà ít người để ý: claude-code CLI có background processes như file watcher, MCP servers, IDE integration. Mỗi background process cũng tiêu token nhỏ. Trên 4.6, background overhead khoảng $0.20-0.40/ngày cho ongboit.com setup (5 MCP servers + Hooks active). Trên 4.7, overhead giảm xuống $0.12-0.25/ngày nhờ tokenizer efficient. Không phải số lớn nhưng cộng dồn 365 ngày khoảng $50-90/năm tiết kiệm thụ động, không cần làm gì. Để xem chi tiết, chạy claude --debug-cost trong session để thấy breakdown từng component.
Cảnh báo về subscription tier khi dùng 4.7: nếu bạn đang trên Max 5x ($100/tháng), Opus 4.7 không “tự động cho bạn dùng nhiều hơn” mặc dù rẻ hơn. Rate limit của subscription tính theo token throughput, không tính theo dollar. Nghĩa là, với 4.7 efficient hơn, bạn có thể chạy nhiều session hơn trong cùng tier mà không bị rate limit. Mình thấy improvement rõ rệt: trên 4.6 thỉnh thoảng bị rate limit khi chạy 6-8 session/ngày, trên 4.7 thoải mái 10-12 session không bị limit. Nếu đang stuck ở Max 5x vì rate limit, không cần upgrade lên Max 20x, chỉ cần migrate sang 4.7 là đủ thoáng.
Lưu ý đặc biệt cho Vietnamese dev: tiếng Việt có dấu (toàn vẹn diacritics) trước đây tốn 1.5-2 token mỗi từ trên tokenizer 4.6. Trên tokenizer v3 của 4.7, đa số từ tiếng Việt có dấu chỉ tốn 1-1.3 token. Implication thực tế cho dev Việt Nam: nếu CLAUDE.md hoặc prompt chứa nhiều tiếng Việt (comment, instruction, documentation), tiết kiệm có thể đạt 40-50% trên input token, cao hơn average 35%. Một workflow ongboit.com chuyên viết blog Vietnamese (3,000-5,000 từ tiếng Việt mỗi article) tiết kiệm khoảng 45% cost so với 4.6. Đây là lý do mạnh nhất để dev Việt Nam migrate sang 4.7 ngay khi available.
Quick action items để migrate trong ngày: chạy claude config set model claude-opus-4-7 để set default model. Mở Anthropic Console kiểm tra usage tab, ghi lại cost baseline tuần trước cho comparison. Trong session đầu tiên với 4.7, chạy một task quen thuộc (ví dụ audit blog hoặc refactor service nhỏ) và so sánh thời gian và cost với ghi chép cũ. Sau 1 tuần dùng 4.7, xem lại usage chart, expected drop 30-45% tổng cost mà output quality không giảm. Nếu drop ít hơn 20%, có thể workflow của bạn đã quá tối ưu trên 4.6 hoặc đang dùng Sonnet là chính, không phải Opus.
Nên Bắt Đầu Từ Đâu Để Tiết Kiệm Token Ngay Hôm Nay?
Nếu bạn chỉ có 30 phút, đây là thứ tự ưu tiên theo impact/effort ratio. Ba mẹo đầu tiên chiếm 70-80% hiệu quả tổng, không cần đến 15 mẹo để thấy kết quả ngay.
Quick wins (dưới 5 phút, hiệu quả ngay):
1. .gitignore đúng cách: 2 phút, giảm 30-40% context ngay
2. Thói quen /clear giữa tasks: 0 phút setup, giảm 50-80% history cost
3. Đổi model mặc định từ Opus sang Sonnet: 2 phút, giảm 40-80% chi phí
Đầu tư ngắn (15-30 phút, payoff dài hạn):
4. Tối ưu CLAUDE.md xuống dưới 200 dòng: 15-20 phút, giảm 62% startup
5. Áp dụng plan mode cho tasks lớn: thói quen, không cần setup
Kỷ luật mới (thay đổi workflow):
6. 120K token ceiling: đặt habit compact/clear trước khi vượt ngưỡng
7. Session chaining cho projects phức tạp: lập kế hoạch trước khi bắt đầu
Nâng cao (30 phút+, dành cho power users):
8-15. Hooks, Skills, file conversion, session handoff, token dashboard

Claude Code vs Cursor: Chi Phí Nào Thực Sự Thấp Hơn?
Cursor tính phí theo số request, Claude Code tính theo token, đây là sự khác biệt quan trọng ảnh hưởng trực tiếp đến chi phí thực tế của bạn. Cùng một task, mô hình nào rẻ hơn phụ thuộc hoàn toàn vào cường độ sử dụng.
Cursor Pro ($20/tháng) gồm unlimited fast requests (Sonnet 4.6, GPT-4o-mini) + 500 premium requests/tháng (Opus 4.7, GPT-4o full, Gemini 2.5 Pro). Khi hết 500 premium requests, bạn bị fallback sang model yếu hơn tự động. Cursor cũng bao gồm VS Code fork với AI autocomplete, một thứ Claude Code không có.
Claude Code với Max 5x ($100/tháng) cho Sonnet gần unlimited rate. Max 20x ($200/tháng) cho cả Opus không giới hạn. API pay-as-you-go thì linh hoạt hơn nhưng không có ceiling.
Kết luận thực tế: Developer dùng Cursor cho autocomplete hàng ngày + Claude Code cho agentic tasks nặng không hiếm. Không phải all-or-nothing. Nếu bạn chỉ dùng API và muốn kiểm soát token chặt, 15 mẹo trong bài này áp dụng trực tiếp. Nếu đang trên Max plan, tối ưu token vẫn giúp tránh rate limit và giữ session chất lượng.
Một pattern tiết kiệm token đáng cài: Claude Skills audit cleanup quarterly để xoá skill cài không invoke, scale lên team 20 dev tiết kiệm khoảng 30 USD mỗi tháng.
Câu Hỏi Thường Gặp
Context rot ảnh hưởng thực tế như thế nào?
Context rot là hiện tượng Claude hoạt động kém dần khi session dài. Theo nghiên cứu phân tích 18,000 thinking blocks của Nate Herk (2026), thinking depth giảm 67% trong session dài. Claude bắt đầu edit file mà không đọc trước (tỷ lệ tăng từ 6% lên 34%), đề xuất trái ngược những gì đã thống nhất, hay hỏi lại thứ đã được giải thích. Dấu hiệu rõ nhất: output ngày càng ngắn và kém chi tiết.
Tại sao 120K token là ngưỡng quan trọng?
120K tokens tương đương 12% của 1M context window, nhưng đây là phạm vi “prime time” khi CLAUDE.md còn mới và attention model tập trung nhất. Retrieval accuracy ở 256K là 92%, giảm xuống 78% ở 1M tokens theo Nate Herk (2026). 1M context window không đồng nghĩa output tốt hơn, chỉ có nhiều chỗ hơn cho context rot phát triển.
Session chaining có làm gián đoạn workflow không?
Không, nếu bạn thiết kế đúng. Mỗi session output ra một file (discovery-notes.md, refactor-plan.md), session sau load file đó. Claude không cần nhớ conversation trước, chỉ cần đọc file output. Cảm giác như assembly line: mỗi trạm nhận input từ trạm trước, làm việc của mình, truyền output cho trạm sau.
Dùng Max plan hay API rẻ hơn?
Nếu bạn dùng dưới $100/tháng qua API thì API rẻ hơn. Trên $100 thì Max 5x ($100/tháng) lợi hơn vì usage gần như không giới hạn. Max 20x ($200/tháng) phù hợp khi cần Opus thường xuyên. Xem bài so sánh chi phí chi tiết để tính cho trường hợp của bạn.
Làm sao biết mình đang tốn bao nhiêu token?
Gõ /cost trong bất kỳ session nào để xem chi phí realtime. Trên API dashboard (console.anthropic.com), bạn thấy usage theo ngày. Công cụ ccusage từ community cho phép track usage chi tiết theo project và model. Gõ /context để xem cụ thể cái gì đang chiếm bao nhiêu trong context hiện tại.
/rewind khác /clear như thế nào?
/clear xóa toàn bộ conversation, reset về zero. /rewind nhảy về một message cụ thể và xóa tất cả sau đó, như “undo” nhiều bước. Dùng /rewind khi Claude đi sai hướng trong task đang làm. Dùng /clear khi chuyển sang task hoàn toàn mới. Cả hai đều tốt hơn nhiều so với việc nói “That didn’t work, try again” vì lần thử thất bại sẽ ô nhiễm context.
File PDF hay DOCX có cần convert sang Markdown không?
Nếu bạn cần Claude đọc nội dung để phân tích hay tóm tắt, convert sang Markdown giảm 65-70% token (PDF) hay 33% (DOCX) theo Nate Herk (2026). Tool Dockling (command line, free) convert trong vài giây. Không cần thiết nếu bạn chỉ muốn Claude biết file tồn tại, không đọc nội dung.
Kết Luận
Token không phải thứ nên sợ, nhưng cũng không nên lãng phí. Bài học lớn nhất từ nghiên cứu của Nate Herk: vấn đề không phải bạn dùng bao nhiêu, mà bạn dùng như thế nào. 98.5% token đang bị tiêu vào đọc lại history, không phải làm việc thực sự.
15 mẹo trong bài này chia thành 2 tầng: tầng cơ bản (giữ context gọn từ đầu) và tầng nâng cao (quản lý session vòng đời). Bạn không cần làm tất cả ngay. Ba mẹo đầu tiên, .gitignore, /clear giữa tasks, và CLAUDE.md gọn, đã tiết kiệm được 60-70% tổng chi phí.
Mình đã giảm từ $290/tháng xuống $82/tháng, output không giảm, productivity tăng vì mỗi session hoạt động tốt hơn khi context sạch. Context rot là kẻ thù thầm lặng, không cần phải dùng ít hơn, chỉ cần dùng thông minh hơn.
Bạn mới bắt đầu với Claude Code là gì? Đọc hướng dẫn cài đặt trước. Đã dùng rồi? Thử tạo hooks tự động hóa và viết skill riêng cho workflow của bạn. Muốn biết budget phù hợp? Xem so sánh gói Pro, Max và API để chọn đúng.
Nếu bạn muốn xây dựng lộ trình học Claude Code từ A-Z, xem Bảng Tổng Hợp Claude Code.
