Tiết Kiệm Token Claude Code: Complete Guide Giảm 60% Chi Phí (2026)

Chi phí trung bình dùng Claude Code qua API: ~$6/ngày/developer, 90% user dưới $12/ngày (Anthropic Docs). Bài này tổng hợp 10 mẹo thực tế giúp bạn giảm 50-70% token, từ cấu hình CLAUDE.md đúng cách, chọn model hợp lý, đến những trick ít người biết như /compact, .gitignore, và subagents. Mỗi mẹo đều kèm con số cụ thể về mức tiết kiệm.
mỗi ngày/developer
nhờ tối ưu CLAUDE.md
so với Opus
3 tháng tối ưu
- Cách giảm 50-70% chi phí token mà không ảnh hưởng chất lượng output
- 10 kỹ thuật từ cơ bản (2 phút setup) đến nâng cao (hooks, skills)
- Tối ưu CLAUDE.md giảm 62% startup tokens (Anthropic Docs)
- So sánh chi phí thực tế: trước và sau khi áp dụng 10 mẹo
Mình dùng Claude Code mỗi ngày trên ongboit.com, từ viết blog, sửa code, chạy SEO audit, đến tạo ảnh. Một tháng đầu không để ý, bill API lên gần $300. Sau khi áp dụng 10 mẹo trong bài này, mình giảm xuống còn ~$80/tháng mà output không giảm chút nào.
Claude Code tiêu thụ trung bình 80-120K tokens mỗi session, tương đương $0.50-3.00 tuỳ model. Nếu bạn đang dùng Claude Code là gì và thấy token cháy nhanh hơn mong đợi, bài này dành cho bạn. Mình sẽ đi từng mẹo, kèm con số cụ thể và ví dụ workflow thực tế.
Bạn chưa rõ Claude Code giá bao nhiêu? Đọc bài so sánh Pro vs Max vs API trước khi tiếp tục nhé.
Muốn hiểu sâu cơ chế compaction hoạt động bên trong (3 tầng nén, thrashing error, Compact Instructions)? Đọc bài Context Compaction.
Token Là Gì Và Tại Sao Nó Quan Trọng?
Mỗi lần bạn gửi tin nhắn cho Claude Code, toàn bộ nội dung được chuyển thành tokens, đơn vị nhỏ nhất mà AI xử lý. Theo Anthropic Pricing, giá output tokens đắt gấp 5 lần input. Một token xấp xỉ 4 ký tự tiếng Anh. Tiếng Việt tốn nhiều hơn do dấu.
Vấn đề lớn nhất: mỗi message mới, Claude Code gửi lại toàn bộ conversation history + CLAUDE.md + file contents đã đọc. Conversation dài đồng nghĩa input tokens tăng theo cấp số cộng. Đó là lý do bạn thấy token cháy nhanh hơn trong các session dài, đặc biệt khi debug nhiều vòng.
Theo kinh nghiệm của mình, một session debug kéo dài 30 messages có thể đẩy input tokens lên 150K+. Chỉ riêng history đã chiếm 60-70% tổng token. Hiểu cơ chế này là bước đầu để tối ưu hiệu quả.
Mẹo 1: Viết CLAUDE.md Gọn Gàng Giảm Bao Nhiêu Token?
CLAUDE.md là cách hiệu quả nhất để giảm token vì nó loại bỏ context lặp lại mỗi session. Theo Anthropic Docs, tối ưu file này từ 2,100 xuống 800 tokens giảm 62% startup cost, từ $189/tháng xuống $72/tháng cho team nhỏ.
CLAUDE.md được đọc mỗi lần bắt đầu session và mỗi message. Nếu file này 500 dòng, bạn đang “nạp” hàng ngàn token thừa vào mỗi request. Theo Anthropic Docs, CLAUDE.md nên dưới 200 dòng và chiếm không quá 10-15% context.
Theo kinh nghiệm của mình trên ongboit.com, CLAUDE.md ban đầu dài 400 dòng vì nhồi đủ thứ workflow vào. Sau khi rút gọn xuống 120 dòng và chuyển phần workflow sang Skills riêng và tổ chức tài liệu trong Obsidian wiki, mỗi session tiết kiệm khoảng 3,000-5,000 tokens ngay từ đầu. Với 10 sessions/ngày, đó là 30,000-50,000 tokens/ngày, tương đương $1-2.
# CLAUDE.md TỐI ƯU, Dưới 200 dòng
## Commands
npm run dev # Chạy dev server
npm test # Chạy tests
npm run lint # Kiểm tra ESLint
## Architecture
- /src/api/ → API routes (Express)
- /src/models/ → Mongoose schemas
- /src/hooks/ → React hooks
## Rules
- Comment tiếng Việt cho business logic
- Luôn chạy test trước khi commit
- Dùng .env.example làm template, không đọc .env trực tiếp
# ĐỪNG viết:
# - Giải thích "đây là dự án React/Next.js"
# - Copy paste README vào đây
# - Liệt kê tất cả dependencies
Muốn hiểu sâu hơn về cách viết file này? Đọc bài CLAUDE.md là gì và cách viết file chỉ dẫn hiệu quả.
Mẹo 2: Loại Bỏ File Thừa Khỏi Context Như Thế Nào?
Claude Code tự scan codebase để hiểu context. Chỉ riêng việc exclude .next/ trong dự án Next.js đã giảm 30-40% context tokens. Claude Code không có file ignore riêng (không có .claudeignore), thay vào đó dùng .gitignore (mặc định) và permissions.deny trong settings.json để kiểm soát.
Nếu project có node_modules/, .next/, dist/, hay build output khổng lồ, Claude đang đọc chúng và tốn token vô ích. Cách đơn giản nhất: thêm vào .gitignore. Claude Code tự động respect .gitignore khi dùng @ file picker (setting respectGitignore mặc định bật).
Với files nhạy cảm cần block hoàn toàn (không chỉ ẩn khỏi picker mà deny read/write luôn), dùng permissions.deny:

Mẹo 3: /clear Giữa Các Task Tiết Kiệm Được Bao Nhiêu?
Conversation history tích lũy = input tokens tăng dần. Theo Anthropic Docs, sau 20-30 messages, input có thể đạt 50K+ tokens mỗi request chỉ vì history cũ. Lệnh /clear reset về 0 ngay lập tức, tiết kiệm 50-80% tokens cho session tiếp theo.
Nhiều người ngại clear vì sợ mất context. Nhưng thực tế, khi bạn chuyển sang task khác thì context cũ không còn giá trị. Giữ lại chỉ tốn tiền. Mình tạo thói quen: xong 1 task, gõ /clear, bắt đầu task mới sạch sẽ.
Ví dụ cụ thể: mình vừa fix bug auth xong (15 messages, ~40K tokens history). Tiếp theo cần viết blog post mới. Nếu không clear, message đầu tiên của task viết blog đã gửi 40K tokens history về bug auth, hoàn toàn vô ích. Clear trước, tiết kiệm ngay $0.12-0.60 chỉ cho 1 message đó (tuỳ model).
# Workflow tối ưu mình hay dùng:
# 1. Xong task → đặt tên session để dễ tìm lại
/rename "fix-auth-bug"
# 2. Clear conversation, giải phóng token
/clear
# 3. Bắt đầu task mới với context sạch
# (CLAUDE.md vẫn được đọc, nhưng history = 0)
# 4. Muốn quay lại session cũ? Dùng /resume
/resume
# → Chọn "fix-auth-bug" từ danh sách
/btw. Side question này nằm ngoài context chính, không tốn token cho các message sau (MindStudio).
Mẹo 4: /compact Hoạt Động Ra Sao?
Bạn đang giữa task phức tạp, context đã lớn nhưng chưa muốn /clear? Lệnh /compact nén toàn bộ conversation thành bản tóm tắt, giải phóng 40-60% context window mà không mất thông tin quan trọng. Theo ClaudeFast, compact giữ lại đủ context cho task hiện tại.
Bí quyết là thêm hướng dẫn cụ thể khi compact. Thay vì gõ /compact không, hãy nói rõ cần giữ gì. Ví dụ: mình đang refactor module auth qua nhiều file, gõ /compact Focus on auth module changes and test results. Claude giữ đúng phần cần thiết, bỏ phần thảo luận ban đầu.
Mình còn thêm compaction rules vào CLAUDE.md để khi auto-compact xảy ra (context gần limit), thông tin quan trọng không bị mất. Cách này rất hiệu quả cho session dài trên ongboit.com, đặc biệt khi viết blog cần giữ outline nhưng bỏ drafts cũ.
# Compact với hướng dẫn cụ thể:
/compact Focus on API changes and modified files
# Claude sẽ giữ lại thông tin về API changes
# và bỏ đi các cuộc thảo luận không liên quan
# Thêm compaction rules vào CLAUDE.md:
## Compaction Rules
# When compacting, always preserve:
# - Mục tiêu task hiện tại
# - Đường dẫn file đã sửa
# - Kết quả test
# - Outline nếu đang viết content

Mẹo 5: Chọn Model Đúng Việc Tiết Kiệm Được Bao Nhiêu?
Không phải task nào cũng cần Opus. Theo Anthropic, Sonnet 4.6 xử lý 80%+ tasks thông thường với giá chỉ 1/5. Chuyển đúng model cho đúng việc tiết kiệm 40-80% chi phí mỗi session.
Trên thực tế, mình dùng Opus cho 2 việc: lên kiến trúc mới và refactor lớn (multi-file). Còn lại, Sonnet làm tốt hết. Viết blog? Sonnet. Fix bug? Sonnet. Thêm test? Sonnet. Chuyển model chỉ mất 2 giây bằng lệnh /model.
Workflow viết blog trên ongboit.com: mình dùng Opus lên outline (1 message, ~$0.30), rồi chuyển sang Sonnet viết chi tiết (10-15 messages, ~$0.80 tổng). Nếu dùng Opus cả session, chi phí tăng lên $3-5. Bạn thấy sự khác biệt chưa?
# Chuyển model nhanh trong session:
/model sonnet # Mặc định cho hầu hết tasks
/model opus # Chỉ khi cần reasoning sâu
/model haiku # Rẻ nhất cho tasks đơn giản
# Set mặc định trong settings:
# ~/.claude/settings.json
{
"model": "sonnet",
"smallModelOverride": "haiku" // Cho subagent tasks
}
Xem thêm so sánh Claude Code với Cursor và Copilot để hiểu rõ hơn về chi phí từng công cụ.
Mẹo 6: Delegate Cho Sub-Agents Có Thật Sự Hiệu Quả?
Khi Claude cần đọc 5-10 files để tìm hiểu codebase, toàn bộ nội dung file được đưa vào context chính. Sub-agents chạy trong context window riêng biệt, chỉ trả về summary ngắn gọn. Hàng chục ngàn tokens bị cắt giảm xuống vài trăm.
Có một điều cần biết: agent teams dùng khoảng 7x token so với session thường (Anthropic Docs). Nhưng trick nằm ở chỗ: subagent dùng Haiku ($1/1M input) trong khi context chính dùng Opus ($5/1M input). Token nhiều hơn nhưng giá rẻ hơn.
Ví dụ workflow trên ongboit.com: mình cần audit 14 bài blog để tìm internal link bị hỏng. Thay vì để Opus đọc từng bài (14 files x 3,000 tokens = 42,000 tokens vào context chính), mình delegate cho subagent Haiku scan tất cả, trả về danh sách 20 dòng. Context chính chỉ nhận 500 tokens. Chi phí giảm từ ~$3.15 xuống ~$0.25.
# Thay vì (tốn token):
"Đọc tất cả file trong src/api/ và tìm endpoint thiếu auth middleware"
# → Claude đọc 15 files, mỗi file 200-500 dòng, tất cả vào context chính
# → Tốn ~30,000 tokens
# Hãy dùng (tiết kiệm):
"Use a subagent to investigate: read all files in src/api/
and list endpoints missing auth middleware. Report back a summary."
# → Subagent đọc 15 files trong context riêng (dùng Haiku)
# → Trả về summary 10-20 dòng vào context chính
# → Tốn ~500 tokens trong context chính
Đọc chi tiết cách cấu hình trong bài Claude Code Sub-Agents: điều phối nhiều AI cùng lúc.
Mẹo 7: Plan Mode Giúp Tránh Rework Như Thế Nào?
Một trong những nguyên nhân tốn token nhiều nhất: Claude viết code sai, bạn yêu cầu sửa, sửa tiếp sai, loop 3-4 lần. Theo 32blog, plan mode giảm 20-30% token nhờ tránh rework. Claude đề xuất approach trước, bạn duyệt, rồi mới implement.
Mình đã mắc lỗi này rất nhiều lần. Yêu cầu Claude refactor auth module mà không plan trước, kết quả là 5 vòng sửa, mỗi vòng 10,000+ tokens. Tổng: 50,000+ tokens cho 1 task. Sau khi dùng plan mode, cùng task đó chỉ tốn 20,000 tokens vì implement đúng ngay lần đầu.
Bạn không cần bật plan mode cho mọi thứ. Rename variable? Không cần plan. Nhưng refactor module, thêm feature mới, hay thay đổi database schema? Luôn plan trước. Chỉ 1 message plan tiết kiệm 3-4 messages sửa sai.
# Cách vào Plan mode:
# Nhấn Shift+Tab trước khi gửi message
# Hoặc nói trực tiếp:
"Plan first: how would you refactor the auth module
to support OAuth2? Don't write code yet."
# Claude sẽ:
# 1. Phân tích cấu trúc hiện tại
# 2. Đề xuất approach (2-3 options)
# 3. Chờ bạn approve
# 4. Implement đúng lần đầu → ít rework = ít token
# Mẹo: dùng plan mode cho tasks trên 15 phút
Mẹo 8: Giảm Extended Thinking Budget Có Ảnh Hưởng Chất Lượng?
Mặc định, Claude Code dành 31,999 tokens/request cho extended thinking. Thinking tokens tính như output tokens ($25/1M với Opus 4.6, $15/1M với Sonnet 4.6). Theo ClaudeFast, giảm thinking budget cho simple tasks tiết kiệm lên đến 70% thinking cost per request.
Câu trả lời ngắn gọn: giảm thinking cho task đơn giản thì không ảnh hưởng. Format code, thêm comment, rename variable, Claude không cần “suy nghĩ sâu” cho những việc này. Nhưng nếu giảm thinking cho architecture decisions hay complex debugging thì output sẽ kém.
Mình set MAX_THINKING_TOKENS=8000 làm mặc định. Khi gặp task phức tạp, mình chuyển lên cao hơn hoặc dùng Opus. Theo kinh nghiệm, 8,000 thinking tokens đủ cho 90% công việc hàng ngày. Chỉ riêng việc này giảm chi phí thinking từ ~$2.40/request xuống ~$0.60/request với Opus.
# Giảm thinking budget cho tasks đơn giản:
export MAX_THINKING_TOKENS=8000
# Dùng /effort để điều chỉnh nhanh:
# Trong session, nói:
"Use low effort for this task"
# Claude sẽ thinking ít hơn
# Thêm rule vào CLAUDE.md:
## Efficiency Rules
# For simple file edits: minimal thinking
# For architecture decisions: think deeply
# For code review: medium thinking
Mẹo 9: Prompt Cụ Thể Tiết Kiệm Token Ra Sao?
Prompt mơ hồ buộc Claude phải scan nhiều file, thử nhiều approach, output dài dòng. Theo Aslam Doctor, prompts cụ thể giúp tiết kiệm 15-25% tokens nhờ giảm scanning và output thừa. Càng cụ thể, Claude càng đi thẳng vào vấn đề.
Mình có một quy tắc đơn giản: mỗi prompt phải chứa ít nhất 1 trong 3 thứ sau, tên file, số dòng, hoặc tên function. “Fix bug in auth” là prompt tệ. “Fix null pointer in handleSubmit at components/Form.tsx:89” là prompt tốt. Prompt thứ hai giúp Claude bỏ qua 50+ files không liên quan.
Ví dụ thực tế: mình cần Claude thêm input validation cho form đăng ký. Thay vì “add validation to the signup form”, mình viết “Add Zod validation to registerUser() in src/api/auth.ts line 42, validate email format and password min 8 chars”. Claude xong trong 1 message thay vì 3.
Mẹo 10: Hooks Và Skills Giảm Token Ở Tầng Hệ Thống
Đây là mẹo ít người biết nhất nhưng hiệu quả nhất cho power users. Hooks tiền xử lý data trước khi Claude nhận, giảm hàng chục ngàn tokens xuống vài trăm. Skills cung cấp domain knowledge theo yêu cầu thay vì nhồi tất cả vào CLAUDE.md.
Ví dụ hooks: thay vì để Claude đọc file log 10,000 dòng (~40,000 tokens), hook tự grep chỉ lấy dòng ERROR, trả về 50 dòng (~200 tokens). Tiết kiệm 99.5% cho 1 lần đọc file. Trên ongboit.com, mình dùng hook này mỗi khi debug server logs.
Ví dụ skills: mình có workflow viết blog 16 bước (research, write, review, images, SEO audit…). Nếu nhồi cả workflow vào CLAUDE.md, mỗi session tốn thêm 2,000 tokens dù không viết blog. Chuyển sang Skill riêng, chỉ load khi gõ /blog. Các session khác hoàn toàn không bị ảnh hưởng.
# Hook: Tiền xử lý log file (PostToolUse on Read)
#!/bin/bash
INPUT=$(cat)
FILE=$(echo "$INPUT" | jq -r '.file_path // empty')
# Nếu đọc file .log, chỉ giữ dòng ERROR và WARNING
if [[ "$FILE" == *.log ]]; then
grep -E "ERROR|WARNING" "$FILE" | tail -50
exit 0
fi
exit 0
# Kết quả: 10,000 dòng log → 50 dòng relevant
# Tiết kiệm: ~39,800 tokens mỗi lần đọc log
Tìm hiểu cách tạo hooks trong bài Claude Code Hooks: tự động hóa workflow không tốn token. Muốn tạo skill riêng? Xem hướng dẫn Claude Code Skills từ cơ bản đến nâng cao.
Bonus: 5 Mẹo Nhanh Thêm
7 Mẹo Nâng Cao Từ Anthropic Docs (2026)
Ngoài 10 mẹo cơ bản, Anthropic Docs còn nhiều kỹ thuật ít người biết:
Chi tiết về các mẹo nâng cao khác: đọc bài 30 mẹo từ beginner đến pro.

Chi Phí Thực Tế: Trước Và Sau Khi Tối Ưu
Mình đã track chi phí Claude Code trên ongboit.com suốt 3 tháng. Trước khi tối ưu: trung bình 200K tokens/session, chi khoảng $5-15/ngày với Opus. Sau khi áp dụng đủ 10 mẹo: giảm xuống 80K tokens/session, chỉ $2-6/ngày.
Con số cụ thể theo tháng: tháng 1/2026 (chưa tối ưu) bill API là $290. Tháng 2 (áp dụng 5 mẹo đầu) giảm xuống $150. Tháng 3 (áp dụng đủ 10 mẹo + chuyển Sonnet mặc định) còn $82. Tiết kiệm $208/tháng, tương đương 72%.
Bạn để ý: output quality không giảm. Mình vẫn viết 2-3 bài blog/tuần, fix bugs, deploy features. Chỉ khác là không trả tiền cho token thừa nữa. Nếu bạn đang trả trên $150/tháng qua API, 10 mẹo này sẽ giảm đáng kể. Dưới $100? Cân nhắc chuyển sang gói Max plan luôn.
Một kỹ thuật nâng cao để giảm chi phí dài hạn là để AI tự tối ưu workflow. AutoResearch Claude Code có thể chạy hàng chục experiments qua đêm để tìm cấu hình prompt rẻ nhất mà vẫn giữ chất lượng output. Thường một đêm chạy tốn 1.5 USD nhưng tiết kiệm hàng chục USD token trong tháng sau đó.
Một nguồn tốn token ít người để ý là các tác vụ lặp đi lặp lại với Google apps. Khi dùng Google Workspace CLI Claude Code, bạn gọi trực tiếp API thay vì để Claude tự scrape hoặc copy-paste, giảm đáng kể số token cần cho mỗi workflow email hay calendar.
Một nguồn tiêu tốn token ít người để ý là web scraping không hiệu quả. Khi dùng Claude Code Firecrawl, output được lưu ra file system thay vì dump vào context window, Claude chỉ đọc đúng phần cần thiết bằng grep thay vì load cả trang.
Tổng Kết: Bảng Cheat Sheet Tiết Kiệm Token
Câu Hỏi Thường Gặp Về Tiết Kiệm Token Claude Code
Dùng Max plan hay API rẻ hơn?
Nếu bạn dùng dưới $100/tháng qua API thì API rẻ hơn. Trên $100 thì Max 5x ($100/tháng) có thể lợi hơn vì usage gần như không giới hạn. Max 20x ($200/tháng) phù hợp khi cần Opus thường xuyên. Xem bài so sánh chi phí chi tiết để tính cho trường hợp của bạn.
Làm sao biết mình đang tốn bao nhiêu token?
Gõ /cost trong bất kỳ session nào để xem chi phí realtime. Trên API dashboard (console.anthropic.com), bạn thấy usage theo ngày. Công cụ ccusage từ community cho phép track usage chi tiết theo project. Mình gõ /cost sau mỗi task lớn để biết chỗ nào cần tối ưu.
/compact có mất thông tin không?
Có thể mất chi tiết nhỏ. Nên thêm hướng dẫn cụ thể: /compact Giữ lại file paths đã edit và test results để Claude biết ưu tiên giữ gì. Thêm compaction rules trong CLAUDE.md cho auto-compact. Theo kinh nghiệm của mình, compact giữ được 90%+ thông tin quan trọng nếu bạn hướng dẫn rõ.
Sub-agents có tốn thêm tiền không?
Sub-agents dùng token riêng, nên tổng token session có thể cao hơn. Nhưng context chính nhẹ hơn, các message sau rẻ hơn. Net effect thường là tiết kiệm, đặc biệt với tasks cần đọc nhiều files. Trick: set subagent dùng Haiku ($1/1M) thay vì Opus ($5/1M input, $25/1M output).
Tiếng Việt có tốn token hơn tiếng Anh không?
Có. Tiếng Việt có dấu nên mỗi từ thường tốn nhiều tokens hơn tiếng Anh khoảng 20-40%. Nhưng bạn không nên vì vậy mà chuyển sang viết prompt tiếng Anh nếu không thoải mái. Sự rõ ràng trong giao tiếp quan trọng hơn vài trăm tokens. Prompt rõ ràng bằng tiếng Việt vẫn tốt hơn prompt mơ hồ bằng tiếng Anh.
Prompt caching là gì và có giúp tiết kiệm không?
Prompt caching lưu lại context hay dùng (như CLAUDE.md, system prompt) để không tính phí đầy đủ mỗi lần. Cache hit chỉ tính 10% giá gốc (Anthropic Pricing). Claude Code tự động tận dụng caching. Bạn chỉ cần giữ CLAUDE.md ổn định, đừng sửa liên tục.
Nên bắt đầu tối ưu từ đâu?
Thứ tự theo impact/effort: (1) .gitignore, 2 phút setup, giảm 30%. (2) /clear giữa tasks, thói quen, giảm ngay. (3) CLAUDE.md gọn, 15 phút, giảm 62% startup. Ba mẹo này chiếm 80% hiệu quả tối ưu, ai cũng làm được.
Kết Luận
Token không phải thứ bạn nên sợ, nhưng cũng không nên lãng phí. 10 mẹo trong bài này không làm giảm chất lượng output, chúng chỉ loại bỏ phần thừa. Mình đã giảm từ $290/tháng xuống $82/tháng chỉ bằng cách áp dụng đúng.
Một điểm ít người để ý: context bị lặp lại giữa các sessions cũng tốn token không cần thiết. Nếu bạn phải giải thích lại tech stack và quyết định kiến trúc mỗi ngày, thử setup bộ nhớ dài hạn bằng NotebookLM: giảm context redundancy và tiết kiệm đáng kể token ở mỗi session đầu.
Bắt đầu với 3 mẹo đơn giản nhất: .gitignore (2 phút), /clear (thói quen), CLAUDE.md gọn (15 phút). Bạn sẽ thấy bill giảm ngay tuần đầu. Sau đó từ từ thêm plan mode, chọn model, và hooks khi đã quen.
Nếu bạn mới bắt đầu với Claude Code, đọc hướng dẫn cài đặt Claude Code từ A-Z trước. Đã dùng rồi? Thử tạo hooks tự động hóa và viết skill riêng để tiết kiệm thêm. Muốn kết nối với WordPress? Xem bài Claude Code + WordPress qua MCP.
Đọc thêm lộ trình 8 levels Claude Code để biết bạn đang ở đâu và nên học gì tiếp theo.
Bạn có mẹo tiết kiệm token nào khác? Comment bên dưới hoặc inbox mình nhé!
