Tiết Kiệm Token Claude Code: 15 Mẹo Giảm 60% Chi Phí 2026

Q: Dùng Max plan hay API rẻ hơn?

Nếu bạn dùng dưới $100/tháng qua API thì API rẻ hơn. Trên $100 thì Max 5x ($100/tháng) có thể lợi hơn vì usage gần như không giới hạn. Max 20x ($200/tháng) phù hợp khi bạn cần Opus thường xuyên.

Q: Làm sao biết mình đang tốn bao nhiêu token?

Gõ /cost trong bất kỳ session nào để xem chi phí realtime. Trên API dashboard (console.anthropic.com), bạn thấy usage theo ngày. Ngoài ra, công cụ ccusage từ community cho phép track usage chi tiết theo project.

Q: /compact có mất thông tin không?

Có thể mất chi tiết nhỏ. Nên thêm hướng dẫn cụ thể khi compact, ví dụ /compact Giữ lại file paths đã edit và test results. Thêm compaction rules trong CLAUDE.md cho auto-compact.

Q: Sub-agents có tốn thêm tiền không?

Sub-agents dùng token riêng, nên tổng token session có thể cao hơn. Nhưng context chính nhẹ hơn nên các message sau rẻ hơn. Net effect thường là tiết kiệm, đặc biệt với tasks cần đọc nhiều files.

Q: Tiếng Việt có tốn token hơn tiếng Anh không?

Có. Tiếng Việt có dấu nên mỗi từ thường tốn nhiều tokens hơn tiếng Anh khoảng 20-40%. Nhưng sự rõ ràng trong giao tiếp quan trọng hơn vài trăm tokens.

Q: Prompt caching là gì và có giúp tiết kiệm không?

Prompt caching lưu lại context hay dùng để không tính phí đầy đủ mỗi lần. Cache hit chỉ tính 10% giá gốc theo Anthropic Pricing. Claude Code tự động tận dụng caching.

Q: Nên bắt đầu tối ưu từ đâu?

Thứ tự theo impact/effort: (1) .gitignore, 2 phút, giảm 30%. (2) /clear giữa tasks, thói quen, giảm ngay. (3) CLAUDE.md gọn, 15 phút, giảm 62% startup. Ba mẹo này chiếm 80% hiệu quả tối ưu.

10 tips tiết kiệm token Claude Code - token meter gauge từ expensive đến optimized — 10 mẹo giúp giảm 50-70% chi phí token trong Claude Code

TL;DR

Chi phí trung bình dùng Claude Code qua API: ~$6/ngày/developer, 90% user dưới $12/ngày (Anthropic Docs). Bài này tổng hợp 10 mẹo thực tế giúp bạn giảm 50-70% token, từ cấu hình CLAUDE.md đúng cách, chọn model hợp lý, đến những trick ít người biết như /compact, .gitignore, và subagents. Mỗi mẹo đều kèm con số cụ thể về mức tiết kiệm.

Chi phí trung bình
mỗi ngày/developer

62%

Giảm token
nhờ tối ưu CLAUDE.md

1/5

Chi phí Haiku
so với Opus

72%

Tiết kiệm sau
3 tháng tối ưu

Bạn sẽ học được gì:

Cách giảm 50-70% chi phí token mà không ảnh hưởng chất lượng output
10 kỹ thuật từ cơ bản (2 phút setup) đến nâng cao (hooks, skills)
Tối ưu CLAUDE.md giảm 62% startup tokens (Anthropic Docs)
So sánh chi phí thực tế: trước và sau khi áp dụng 10 mẹo

Mình dùng Claude Code mỗi ngày trên ongboit.com, từ viết blog, sửa code, chạy SEO audit, đến tạo ảnh. Một tháng đầu không để ý, bill API lên gần $300. Sau khi áp dụng 10 mẹo trong bài này, mình giảm xuống còn ~$80/tháng mà output không giảm chút nào.

Claude Code tiêu thụ trung bình 80-120K tokens mỗi session, tương đương $0.50-3.00 tuỳ model. Nếu bạn đang dùng Claude Code là gì và thấy token cháy nhanh hơn mong đợi, bài này dành cho bạn. Mình sẽ đi từng mẹo, kèm con số cụ thể và ví dụ workflow thực tế.

Bạn chưa rõ Claude Code giá bao nhiêu? Đọc bài so sánh Pro vs Max vs API trước khi tiếp tục nhé.

Muốn hiểu sâu cơ chế compaction hoạt động bên trong (3 tầng nén, thrashing error, Compact Instructions)? Đọc bài Context Compaction.

Token Là Gì Và Tại Sao Nó Quan Trọng?

Mỗi lần bạn gửi tin nhắn cho Claude Code, toàn bộ nội dung được chuyển thành tokens, đơn vị nhỏ nhất mà AI xử lý. Theo Anthropic Pricing, giá output tokens đắt gấp 5 lần input. Một token xấp xỉ 4 ký tự tiếng Anh. Tiếng Việt tốn nhiều hơn do dấu.

Vấn đề lớn nhất: mỗi message mới, Claude Code gửi lại toàn bộ conversation history + CLAUDE.md + file contents đã đọc. Conversation dài đồng nghĩa input tokens tăng theo cấp số cộng. Đó là lý do bạn thấy token cháy nhanh hơn trong các session dài, đặc biệt khi debug nhiều vòng.

Theo kinh nghiệm của mình, một session debug kéo dài 30 messages có thể đẩy input tokens lên 150K+. Chỉ riêng history đã chiếm 60-70% tổng token. Hiểu cơ chế này là bước đầu để tối ưu hiệu quả.

Model	Input ($/1M tokens)	Output ($/1M tokens)	So sánh chi phí
Opus 4.6	$5	$25	5x Haiku
Sonnet 4.6	$3	$15	3x Haiku (input)
Haiku 4.5	$1	$5	Rẻ nhất
Prompt Cache Hit	10% giá gốc	–	Tiết kiệm 90%
Batch API	50% off	50% off	Async only, non-urgent

Quan trọng: Subscription vs API là 2 hệ thống riêng biệt. Gói Pro $20/tháng và Max $100-200/tháng là subscription, usage bao gồm trong gói (rate limited). Bảng giá trên chỉ áp dụng cho API pay-as-you-go. Nếu bạn dùng subscription, bạn không trả per-token, chỉ cần quan tâm rate limits. Xem so sánh chi tiết Subscription vs API.

Mẹo 1: Viết CLAUDE.md Gọn Gàng Giảm Bao Nhiêu Token?

CLAUDE.md là cách hiệu quả nhất để giảm token vì nó loại bỏ context lặp lại mỗi session. Theo Anthropic Docs, tối ưu file này từ 2,100 xuống 800 tokens giảm 62% startup cost, từ $189/tháng xuống $72/tháng cho team nhỏ.

CLAUDE.md được đọc mỗi lần bắt đầu session và mỗi message. Nếu file này 500 dòng, bạn đang “nạp” hàng ngàn token thừa vào mỗi request. Theo Anthropic Docs, CLAUDE.md nên dưới 200 dòng và chiếm không quá 10-15% context.

Theo kinh nghiệm của mình trên ongboit.com, CLAUDE.md ban đầu dài 400 dòng vì nhồi đủ thứ workflow vào. Sau khi rút gọn xuống 120 dòng và chuyển phần workflow sang Skills riêng và tổ chức tài liệu trong Obsidian wiki, mỗi session tiết kiệm khoảng 3,000-5,000 tokens ngay từ đầu. Với 10 sessions/ngày, đó là 30,000-50,000 tokens/ngày, tương đương $1-2.

Nguyên tắc: Chỉ viết những gì Claude không thể tự suy ra từ code. Không giải thích “đây là dự án React” nếu đã có package.json. Di chuyển workflow chuyên biệt sang Skills (load theo yêu cầu, không tốn token mỗi session).

# CLAUDE.md TỐI ƯU, Dưới 200 dòng

## Commands
npm run dev          # Chạy dev server
npm test             # Chạy tests
npm run lint         # Kiểm tra ESLint

## Architecture
- /src/api/     → API routes (Express)
- /src/models/  → Mongoose schemas
- /src/hooks/   → React hooks

## Rules
- Comment tiếng Việt cho business logic
- Luôn chạy test trước khi commit
- Dùng .env.example làm template, không đọc .env trực tiếp

# ĐỪNG viết:
# - Giải thích "đây là dự án React/Next.js"
# - Copy paste README vào đây
# - Liệt kê tất cả dependencies

Muốn hiểu sâu hơn về cách viết file này? Đọc bài CLAUDE.md là gì và cách viết file chỉ dẫn hiệu quả.

Mẹo 2: Loại Bỏ File Thừa Khỏi Context Như Thế Nào?

Claude Code tự scan codebase để hiểu context. Chỉ riêng việc exclude .next/ trong dự án Next.js đã giảm 30-40% context tokens. Claude Code không có file ignore riêng (không có .claudeignore), thay vào đó dùng .gitignore (mặc định) và permissions.deny trong settings.json để kiểm soát.

Nếu project có node_modules/, .next/, dist/, hay build output khổng lồ, Claude đang đọc chúng và tốn token vô ích. Cách đơn giản nhất: thêm vào .gitignore. Claude Code tự động respect .gitignore khi dùng @ file picker (setting respectGitignore mặc định bật).

Với files nhạy cảm cần block hoàn toàn (không chỉ ẩn khỏi picker mà deny read/write luôn), dùng permissions.deny:

.gitignore (thêm các dòng này)

# Build artifacts (Claude không cần đọc)
node_modules/
.next/
dist/
build/
.output/

# Lock files (hàng ngàn dòng, tốn token vô ích)
package-lock.json
yarn.lock
pnpm-lock.yaml

# Media & binaries
*.png
*.jpg
*.mp4
*.woff2

# Logs & cache
*.log
.cache/
.turbo/
coverage/

.claude/settings.json (block hoàn toàn)

{
  "permissions": {
    "deny": [
      "Read(.env*)",
      "Read(**/*.secret)",
      "Read(wp-content/uploads/**)"
    ]
  }
}

Nguồn: Claude Code respect .gitignore mặc định qua setting respectGitignore. Với files cần block hoàn toàn, dùng permissions.deny trong settings.json (Anthropic Settings Docs, 2026).

Mẹo 3: /clear Giữa Các Task Tiết Kiệm Được Bao Nhiêu?

Conversation history tích lũy = input tokens tăng dần. Theo Anthropic Docs, sau 20-30 messages, input có thể đạt 50K+ tokens mỗi request chỉ vì history cũ. Lệnh /clear reset về 0 ngay lập tức, tiết kiệm 50-80% tokens cho session tiếp theo.

Nhiều người ngại clear vì sợ mất context. Nhưng thực tế, khi bạn chuyển sang task khác thì context cũ không còn giá trị. Giữ lại chỉ tốn tiền. Mình tạo thói quen: xong 1 task, gõ /clear, bắt đầu task mới sạch sẽ.

Ví dụ cụ thể: mình vừa fix bug auth xong (15 messages, ~40K tokens history). Tiếp theo cần viết blog post mới. Nếu không clear, message đầu tiên của task viết blog đã gửi 40K tokens history về bug auth, hoàn toàn vô ích. Clear trước, tiết kiệm ngay $0.12-0.60 chỉ cho 1 message đó (tuỳ model).

# Workflow tối ưu mình hay dùng:
# 1. Xong task → đặt tên session để dễ tìm lại
/rename "fix-auth-bug"

# 2. Clear conversation, giải phóng token
/clear

# 3. Bắt đầu task mới với context sạch
# (CLAUDE.md vẫn được đọc, nhưng history = 0)

# 4. Muốn quay lại session cũ? Dùng /resume
/resume
# → Chọn "fix-auth-bug" từ danh sách

Mẹo nhỏ: Cần hỏi nhanh 1 câu mà không muốn nó đi vào history? Dùng /btw. Side question này nằm ngoài context chính, không tốn token cho các message sau (MindStudio).

Mẹo 4: /compact Hoạt Động Ra Sao?

Bạn đang giữa task phức tạp, context đã lớn nhưng chưa muốn /clear? Lệnh /compact nén toàn bộ conversation thành bản tóm tắt, giải phóng 40-60% context window mà không mất thông tin quan trọng. Theo ClaudeFast, compact giữ lại đủ context cho task hiện tại.

Bí quyết là thêm hướng dẫn cụ thể khi compact. Thay vì gõ /compact không, hãy nói rõ cần giữ gì. Ví dụ: mình đang refactor module auth qua nhiều file, gõ /compact Focus on auth module changes and test results. Claude giữ đúng phần cần thiết, bỏ phần thảo luận ban đầu.

Mình còn thêm compaction rules vào CLAUDE.md để khi auto-compact xảy ra (context gần limit), thông tin quan trọng không bị mất. Cách này rất hiệu quả cho session dài trên ongboit.com, đặc biệt khi viết blog cần giữ outline nhưng bỏ drafts cũ.

# Compact với hướng dẫn cụ thể:
/compact Focus on API changes and modified files

# Claude sẽ giữ lại thông tin về API changes
# và bỏ đi các cuộc thảo luận không liên quan

# Thêm compaction rules vào CLAUDE.md:
## Compaction Rules
# When compacting, always preserve:
# - Mục tiêu task hiện tại
# - Đường dẫn file đã sửa
# - Kết quả test
# - Outline nếu đang viết content

Mẹo 5: Chọn Model Đúng Việc Tiết Kiệm Được Bao Nhiêu?

Không phải task nào cũng cần Opus. Theo Anthropic, Sonnet 4.6 xử lý 80%+ tasks thông thường với giá chỉ 1/5. Chuyển đúng model cho đúng việc tiết kiệm 40-80% chi phí mỗi session.

Trên thực tế, mình dùng Opus cho 2 việc: lên kiến trúc mới và refactor lớn (multi-file). Còn lại, Sonnet làm tốt hết. Viết blog? Sonnet. Fix bug? Sonnet. Thêm test? Sonnet. Chuyển model chỉ mất 2 giây bằng lệnh /model.

Workflow viết blog trên ongboit.com: mình dùng Opus lên outline (1 message, ~$0.30), rồi chuyển sang Sonnet viết chi tiết (10-15 messages, ~$0.80 tổng). Nếu dùng Opus cả session, chi phí tăng lên $3-5. Bạn thấy sự khác biệt chưa?

Task	Model nên dùng	Lý do	Chi phí ước tính
Bug fix nhỏ, viết test	Sonnet	Đủ mạnh, giá 1/5 Opus	~$0.05-0.15/task
Kiến trúc mới, refactor lớn	Opus	Cần reasoning sâu	~$0.50-2.00/task
Search codebase, read files	Haiku (subagent)	1/5 giá, đủ cho exploration	~$0.01-0.05/task
Viết blog, content creation	Opus (plan) + Sonnet (write)	Hybrid: Opus lên outline, Sonnet viết	~$1.00-1.50/bài

# Chuyển model nhanh trong session:
/model sonnet     # Mặc định cho hầu hết tasks
/model opus       # Chỉ khi cần reasoning sâu
/model haiku      # Rẻ nhất cho tasks đơn giản

# Set mặc định trong settings:
# ~/.claude/settings.json
{
  "model": "sonnet",
  "smallModelOverride": "haiku"  // Cho subagent tasks
}

Xem thêm so sánh Claude Code với Cursor và Copilot để hiểu rõ hơn về chi phí từng công cụ.

Mẹo 6: Delegate Cho Sub-Agents Có Thật Sự Hiệu Quả?

Khi Claude cần đọc 5-10 files để tìm hiểu codebase, toàn bộ nội dung file được đưa vào context chính. Sub-agents chạy trong context window riêng biệt, chỉ trả về summary ngắn gọn. Hàng chục ngàn tokens bị cắt giảm xuống vài trăm.

Có một điều cần biết: agent teams dùng khoảng 7x token so với session thường (Anthropic Docs). Nhưng trick nằm ở chỗ: subagent dùng Haiku ($1/1M input) trong khi context chính dùng Opus ($5/1M input). Token nhiều hơn nhưng giá rẻ hơn.

Ví dụ workflow trên ongboit.com: mình cần audit 14 bài blog để tìm internal link bị hỏng. Thay vì để Opus đọc từng bài (14 files x 3,000 tokens = 42,000 tokens vào context chính), mình delegate cho subagent Haiku scan tất cả, trả về danh sách 20 dòng. Context chính chỉ nhận 500 tokens. Chi phí giảm từ ~$3.15 xuống ~$0.25.

# Thay vì (tốn token):
"Đọc tất cả file trong src/api/ và tìm endpoint thiếu auth middleware"
# → Claude đọc 15 files, mỗi file 200-500 dòng, tất cả vào context chính
# → Tốn ~30,000 tokens

# Hãy dùng (tiết kiệm):
"Use a subagent to investigate: read all files in src/api/
and list endpoints missing auth middleware. Report back a summary."
# → Subagent đọc 15 files trong context riêng (dùng Haiku)
# → Trả về summary 10-20 dòng vào context chính
# → Tốn ~500 tokens trong context chính

Đọc chi tiết cách cấu hình trong bài Claude Code Sub-Agents: điều phối nhiều AI cùng lúc.

Mẹo 7: Plan Mode Giúp Tránh Rework Như Thế Nào?

Một trong những nguyên nhân tốn token nhiều nhất: Claude viết code sai, bạn yêu cầu sửa, sửa tiếp sai, loop 3-4 lần. Theo 32blog, plan mode giảm 20-30% token nhờ tránh rework. Claude đề xuất approach trước, bạn duyệt, rồi mới implement.

Mình đã mắc lỗi này rất nhiều lần. Yêu cầu Claude refactor auth module mà không plan trước, kết quả là 5 vòng sửa, mỗi vòng 10,000+ tokens. Tổng: 50,000+ tokens cho 1 task. Sau khi dùng plan mode, cùng task đó chỉ tốn 20,000 tokens vì implement đúng ngay lần đầu.

Bạn không cần bật plan mode cho mọi thứ. Rename variable? Không cần plan. Nhưng refactor module, thêm feature mới, hay thay đổi database schema? Luôn plan trước. Chỉ 1 message plan tiết kiệm 3-4 messages sửa sai.

# Cách vào Plan mode:
# Nhấn Shift+Tab trước khi gửi message

# Hoặc nói trực tiếp:
"Plan first: how would you refactor the auth module
to support OAuth2? Don't write code yet."

# Claude sẽ:
# 1. Phân tích cấu trúc hiện tại
# 2. Đề xuất approach (2-3 options)
# 3. Chờ bạn approve
# 4. Implement đúng lần đầu → ít rework = ít token

# Mẹo: dùng plan mode cho tasks trên 15 phút

Mẹo 8: Giảm Extended Thinking Budget Có Ảnh Hưởng Chất Lượng?

Mặc định, Claude Code dành 31,999 tokens/request cho extended thinking. Thinking tokens tính như output tokens ($25/1M với Opus 4.6, $15/1M với Sonnet 4.6). Theo ClaudeFast, giảm thinking budget cho simple tasks tiết kiệm lên đến 70% thinking cost per request.

Câu trả lời ngắn gọn: giảm thinking cho task đơn giản thì không ảnh hưởng. Format code, thêm comment, rename variable, Claude không cần “suy nghĩ sâu” cho những việc này. Nhưng nếu giảm thinking cho architecture decisions hay complex debugging thì output sẽ kém.

Mình set MAX_THINKING_TOKENS=8000 làm mặc định. Khi gặp task phức tạp, mình chuyển lên cao hơn hoặc dùng Opus. Theo kinh nghiệm, 8,000 thinking tokens đủ cho 90% công việc hàng ngày. Chỉ riêng việc này giảm chi phí thinking từ ~$2.40/request xuống ~$0.60/request với Opus.

# Giảm thinking budget cho tasks đơn giản:
export MAX_THINKING_TOKENS=8000

# Dùng /effort để điều chỉnh nhanh:
# Trong session, nói:
"Use low effort for this task"
# Claude sẽ thinking ít hơn

# Thêm rule vào CLAUDE.md:
## Efficiency Rules
# For simple file edits: minimal thinking
# For architecture decisions: think deeply
# For code review: medium thinking

Cẩn thận: Không giảm thinking quá thấp cho complex tasks. Claude sẽ cho output kém chất lượng, bạn phải yêu cầu sửa lại, tốn thêm token. Đây là bẫy “tiết kiệm giả” mà mình từng mắc phải.

Mẹo 9: Prompt Cụ Thể Tiết Kiệm Token Ra Sao?

Prompt mơ hồ buộc Claude phải scan nhiều file, thử nhiều approach, output dài dòng. Theo Aslam Doctor, prompts cụ thể giúp tiết kiệm 15-25% tokens nhờ giảm scanning và output thừa. Càng cụ thể, Claude càng đi thẳng vào vấn đề.

Mình có một quy tắc đơn giản: mỗi prompt phải chứa ít nhất 1 trong 3 thứ sau, tên file, số dòng, hoặc tên function. “Fix bug in auth” là prompt tệ. “Fix null pointer in handleSubmit at components/Form.tsx:89” là prompt tốt. Prompt thứ hai giúp Claude bỏ qua 50+ files không liên quan.

Ví dụ thực tế: mình cần Claude thêm input validation cho form đăng ký. Thay vì “add validation to the signup form”, mình viết “Add Zod validation to registerUser() in src/api/auth.ts line 42, validate email format and password min 8 chars”. Claude xong trong 1 message thay vì 3.

Tốn token (prompt mơ hồ)	Tiết kiệm token (prompt cụ thể)
“Improve this codebase”	“Add input validation to loginUser() in src/auth.ts line 42”
“Fix all bugs”	“Fix null pointer in handleSubmit at components/Form.tsx:89”
“Make the app faster”	“Add React.memo to ProductCard to prevent unnecessary re-renders”
“Write tests”	“Write 3 unit tests for calculateTotal() in utils/pricing.ts: empty cart, single item, discount”

Mẹo 10: Hooks Và Skills Giảm Token Ở Tầng Hệ Thống

Đây là mẹo ít người biết nhất nhưng hiệu quả nhất cho power users. Hooks tiền xử lý data trước khi Claude nhận, giảm hàng chục ngàn tokens xuống vài trăm. Skills cung cấp domain knowledge theo yêu cầu thay vì nhồi tất cả vào CLAUDE.md.

Ví dụ hooks: thay vì để Claude đọc file log 10,000 dòng (~40,000 tokens), hook tự grep chỉ lấy dòng ERROR, trả về 50 dòng (~200 tokens). Tiết kiệm 99.5% cho 1 lần đọc file. Trên ongboit.com, mình dùng hook này mỗi khi debug server logs.

Ví dụ skills: mình có workflow viết blog 16 bước (research, write, review, images, SEO audit…). Nếu nhồi cả workflow vào CLAUDE.md, mỗi session tốn thêm 2,000 tokens dù không viết blog. Chuyển sang Skill riêng, chỉ load khi gõ /blog. Các session khác hoàn toàn không bị ảnh hưởng.

# Hook: Tiền xử lý log file (PostToolUse on Read)
#!/bin/bash
INPUT=$(cat)
FILE=$(echo "$INPUT" | jq -r '.file_path // empty')

# Nếu đọc file .log, chỉ giữ dòng ERROR và WARNING
if [[ "$FILE" == *.log ]]; then
  grep -E "ERROR|WARNING" "$FILE" | tail -50
  exit 0
fi
exit 0

# Kết quả: 10,000 dòng log → 50 dòng relevant
# Tiết kiệm: ~39,800 tokens mỗi lần đọc log

Tìm hiểu cách tạo hooks trong bài Claude Code Hooks: tự động hóa workflow không tốn token. Muốn tạo skill riêng? Xem hướng dẫn Claude Code Skills từ cơ bản đến nâng cao.

Bonus: 5 Mẹo Nhanh Thêm

Mẹo	Chi tiết	Mức tiết kiệm
/cost	Xem token usage hiện tại. Mình gõ sau mỗi task lớn để biết task nào tốn nhất.	Nhận biết sớm
Auto mode	Chạy `claude --enable-auto-mode` giảm permission prompts. Mỗi prompt dừng lại tốn thêm context.	5-10%/session
TodoWrite	Viết TODO ra file trước rồi execute. Claude không bị mất track giữa task, giảm rework.	10-20% rework
Max plan thay API	Nếu dùng >$100/tháng qua API, Max 5x ($100/tháng) có thể rẻ hơn. Xem so sánh chi phí chi tiết.	Tuỳ usage
DISABLE_NON_ESSENTIAL_MODEL_CALLS	Set `=1` tắt background model calls (suggestions, tips). Token ngầm bị tiêu mà bạn không thấy.	3-8% ngầm

7 Mẹo Nâng Cao Từ Anthropic Docs (2026)

Ngoài 10 mẹo cơ bản, Anthropic Docs còn nhiều kỹ thuật ít người biết:

Mẹo	Chi tiết	Mức tiết kiệm
/context	Xem chính xác cái gì đang chiếm context: CLAUDE.md, MCP tools, conversation. Biết để cắt đúng chỗ.	Nhận biết
CLI thay MCP	Dùng `gh`, `aws`, `gcloud` trực tiếp thay vì MCP servers. CLI không thêm tool listing vào context, MCP thì có.	10-20% context
Tắt MCP không dùng	Chạy `/mcp` xem servers đang bật, tắt cái không cần. Mỗi MCP server thêm tool definitions vào context.	5-15% mỗi server
CLAUDE.md → Skills	Instructions dài trong CLAUDE.md load MỌI session. Chuyển sang Skills chỉ load khi cần, giảm base context.	Giữ CLAUDE.md <200 dòng
/btw cho side questions	Hỏi phụ bằng `/btw` không làm ô nhiễm context chính. Claude trả lời rồi quay lại task gốc.	Giữ context sạch
Escape + /rewind	Claude đi sai hướng? Nhấn Escape dừng ngay, `/rewind` quay lại checkpoint. Không tốn token cho code sai.	100% token sai hướng
Status line context	Cấu hình status line hiển thị context usage liên tục. Thấy 60%? `/compact` ngay, không đợi đầy.	Phòng ngừa

Chi tiết về các mẹo nâng cao khác: đọc bài 30 mẹo từ beginner đến pro.

Chi Phí Thực Tế: Trước Và Sau Khi Tối Ưu

Mình đã track chi phí Claude Code trên ongboit.com suốt 3 tháng. Trước khi tối ưu: trung bình 200K tokens/session, chi khoảng $5-15/ngày với Opus. Sau khi áp dụng đủ 10 mẹo: giảm xuống 80K tokens/session, chỉ $2-6/ngày.

Con số cụ thể theo tháng: tháng 1/2026 (chưa tối ưu) bill API là $290. Tháng 2 (áp dụng 5 mẹo đầu) giảm xuống $150. Tháng 3 (áp dụng đủ 10 mẹo + chuyển Sonnet mặc định) còn $82. Tiết kiệm $208/tháng, tương đương 72%.

Chỉ số	Trước tối ưu	Sau tối ưu
Tokens/session trung bình	200K	80K
Chi phí/ngày (Opus heavy)	$5-15	$2-6
Chi phí/tháng	$250-350	$60-120
Tiết kiệm hàng tháng	–	$90-270/tháng
Model chính	Opus cho mọi thứ	Sonnet mặc định, Opus khi cần
Thói quen /clear	Hiếm khi	Sau mỗi task

Bạn để ý: output quality không giảm. Mình vẫn viết 2-3 bài blog/tuần, fix bugs, deploy features. Chỉ khác là không trả tiền cho token thừa nữa. Nếu bạn đang trả trên $150/tháng qua API, 10 mẹo này sẽ giảm đáng kể. Dưới $100? Cân nhắc chuyển sang gói Max plan luôn.

Một kỹ thuật nâng cao để giảm chi phí dài hạn là để AI tự tối ưu workflow. AutoResearch Claude Code có thể chạy hàng chục experiments qua đêm để tìm cấu hình prompt rẻ nhất mà vẫn giữ chất lượng output. Thường một đêm chạy tốn 1.5 USD nhưng tiết kiệm hàng chục USD token trong tháng sau đó.

Một nguồn tốn token ít người để ý là các tác vụ lặp đi lặp lại với Google apps. Khi dùng Google Workspace CLI Claude Code, bạn gọi trực tiếp API thay vì để Claude tự scrape hoặc copy-paste, giảm đáng kể số token cần cho mỗi workflow email hay calendar.

Một nguồn tiêu tốn token ít người để ý là web scraping không hiệu quả. Khi dùng Claude Code Firecrawl, output được lưu ra file system thay vì dump vào context window, Claude chỉ đọc đúng phần cần thiết bằng grep thay vì load cả trang.

Tổng Kết: Bảng Cheat Sheet Tiết Kiệm Token

#	Mẹo	Mức tiết kiệm	Độ khó	Thời gian setup
1	CLAUDE.md gọn gàng	62% startup	Dễ	15 phút
2	.gitignore	30-40% context	Dễ	2 phút
3	/clear giữa tasks	50-80% history	Dễ	0 (thói quen)
4	/compact với hướng dẫn	40-60% context	Dễ	0 (lệnh)
5	Chọn model đúng	40-80% cost	Trung bình	5 phút
6	Sub-agents	Giảm context chính 90%+	Trung bình	10 phút
7	Plan mode	20-30% rework	Dễ	0 (Shift+Tab)
8	Giảm thinking budget	70% thinking cost	Trung bình	5 phút
9	Prompt cụ thể	15-25% output	Dễ	0 (thói quen)
10	Hooks + Skills	Hàng chục ngàn tokens	Nâng cao	30 phút+

Câu Hỏi Thường Gặp Về Tiết Kiệm Token Claude Code

Dùng Max plan hay API rẻ hơn?

Nếu bạn dùng dưới $100/tháng qua API thì API rẻ hơn. Trên $100 thì Max 5x ($100/tháng) có thể lợi hơn vì usage gần như không giới hạn. Max 20x ($200/tháng) phù hợp khi cần Opus thường xuyên. Xem bài so sánh chi phí chi tiết để tính cho trường hợp của bạn.

Làm sao biết mình đang tốn bao nhiêu token?

Gõ /cost trong bất kỳ session nào để xem chi phí realtime. Trên API dashboard (console.anthropic.com), bạn thấy usage theo ngày. Công cụ ccusage từ community cho phép track usage chi tiết theo project. Mình gõ /cost sau mỗi task lớn để biết chỗ nào cần tối ưu.

/compact có mất thông tin không?

Có thể mất chi tiết nhỏ. Nên thêm hướng dẫn cụ thể: /compact Giữ lại file paths đã edit và test results để Claude biết ưu tiên giữ gì. Thêm compaction rules trong CLAUDE.md cho auto-compact. Theo kinh nghiệm của mình, compact giữ được 90%+ thông tin quan trọng nếu bạn hướng dẫn rõ.

Sub-agents có tốn thêm tiền không?

Sub-agents dùng token riêng, nên tổng token session có thể cao hơn. Nhưng context chính nhẹ hơn, các message sau rẻ hơn. Net effect thường là tiết kiệm, đặc biệt với tasks cần đọc nhiều files. Trick: set subagent dùng Haiku ($1/1M) thay vì Opus ($5/1M input, $25/1M output).

Tiếng Việt có tốn token hơn tiếng Anh không?

Có. Tiếng Việt có dấu nên mỗi từ thường tốn nhiều tokens hơn tiếng Anh khoảng 20-40%. Nhưng bạn không nên vì vậy mà chuyển sang viết prompt tiếng Anh nếu không thoải mái. Sự rõ ràng trong giao tiếp quan trọng hơn vài trăm tokens. Prompt rõ ràng bằng tiếng Việt vẫn tốt hơn prompt mơ hồ bằng tiếng Anh.

Prompt caching là gì và có giúp tiết kiệm không?

Prompt caching lưu lại context hay dùng (như CLAUDE.md, system prompt) để không tính phí đầy đủ mỗi lần. Cache hit chỉ tính 10% giá gốc (Anthropic Pricing). Claude Code tự động tận dụng caching. Bạn chỉ cần giữ CLAUDE.md ổn định, đừng sửa liên tục.

Nên bắt đầu tối ưu từ đâu?

Thứ tự theo impact/effort: (1) .gitignore, 2 phút setup, giảm 30%. (2) /clear giữa tasks, thói quen, giảm ngay. (3) CLAUDE.md gọn, 15 phút, giảm 62% startup. Ba mẹo này chiếm 80% hiệu quả tối ưu, ai cũng làm được.

Bonus tip: Skills dùng progressive disclosure: chỉ load metadata (~100 tokens/skill) lúc startup, full SKILL.md chỉ load khi trigger. 10 skills = ~1,000 tokens thay vì 50,000+ nếu nhét hết vào CLAUDE.md. Tiết kiệm 98% token cho các instructions lặp lại.

Kết Luận

Token không phải thứ bạn nên sợ, nhưng cũng không nên lãng phí. 10 mẹo trong bài này không làm giảm chất lượng output, chúng chỉ loại bỏ phần thừa. Mình đã giảm từ $290/tháng xuống $82/tháng chỉ bằng cách áp dụng đúng.

Một điểm ít người để ý: context bị lặp lại giữa các sessions cũng tốn token không cần thiết. Nếu bạn phải giải thích lại tech stack và quyết định kiến trúc mỗi ngày, thử setup bộ nhớ dài hạn bằng NotebookLM: giảm context redundancy và tiết kiệm đáng kể token ở mỗi session đầu.

Bắt đầu với 3 mẹo đơn giản nhất: .gitignore (2 phút), /clear (thói quen), CLAUDE.md gọn (15 phút). Bạn sẽ thấy bill giảm ngay tuần đầu. Sau đó từ từ thêm plan mode, chọn model, và hooks khi đã quen.

Nếu bạn mới bắt đầu với Claude Code, đọc hướng dẫn cài đặt Claude Code từ A-Z trước. Đã dùng rồi? Thử tạo hooks tự động hóa và viết skill riêng để tiết kiệm thêm. Muốn kết nối với WordPress? Xem bài Claude Code + WordPress qua MCP.

Đọc thêm lộ trình 8 levels Claude Code để biết bạn đang ở đâu và nên học gì tiếp theo.

Bạn có mẹo tiết kiệm token nào khác? Comment bên dưới hoặc inbox mình nhé!

Tiết Kiệm Token Claude Code: Complete Guide Giảm 60% Chi Phí (2026)

Token Là Gì Và Tại Sao Nó Quan Trọng?

Mẹo 1: Viết CLAUDE.md Gọn Gàng Giảm Bao Nhiêu Token?

Mẹo 2: Loại Bỏ File Thừa Khỏi Context Như Thế Nào?

Mẹo 3: /clear Giữa Các Task Tiết Kiệm Được Bao Nhiêu?

Mẹo 4: /compact Hoạt Động Ra Sao?

Mẹo 5: Chọn Model Đúng Việc Tiết Kiệm Được Bao Nhiêu?

Mẹo 6: Delegate Cho Sub-Agents Có Thật Sự Hiệu Quả?

Mẹo 7: Plan Mode Giúp Tránh Rework Như Thế Nào?

Mẹo 8: Giảm Extended Thinking Budget Có Ảnh Hưởng Chất Lượng?

Mẹo 9: Prompt Cụ Thể Tiết Kiệm Token Ra Sao?

Mẹo 10: Hooks Và Skills Giảm Token Ở Tầng Hệ Thống

Bonus: 5 Mẹo Nhanh Thêm

7 Mẹo Nâng Cao Từ Anthropic Docs (2026)

Chi Phí Thực Tế: Trước Và Sau Khi Tối Ưu

Tổng Kết: Bảng Cheat Sheet Tiết Kiệm Token

Câu Hỏi Thường Gặp Về Tiết Kiệm Token Claude Code

Dùng Max plan hay API rẻ hơn?

Làm sao biết mình đang tốn bao nhiêu token?

/compact có mất thông tin không?

Sub-agents có tốn thêm tiền không?

Tiếng Việt có tốn token hơn tiếng Anh không?

Prompt caching là gì và có giúp tiết kiệm không?

Nên bắt đầu tối ưu từ đâu?

Kết Luận

Top 15 Claude Code Skills & Plugins Hay Nhất (2026)

Prompt Engineering Cho Claude Code: Complete Guide (2026)

VS Code vs Antigravity: IDE Nào Tốt Hơn Để Vibe Code? (2026)

Claude Repurpose: Biến 1 Bài Viết Thành 30+ Post Đa Nền Tảng (2026)

Claude Code trong VS Code: Hướng Dẫn Setup Từng Bước (2026)

Skill Forge: Tạo Claude Code Skill Chuyên Nghiệp Từ A-Z (2026)

Token Là Gì Và Tại Sao Nó Quan Trọng?

Mẹo 1: Viết CLAUDE.md Gọn Gàng Giảm Bao Nhiêu Token?

Mẹo 2: Loại Bỏ File Thừa Khỏi Context Như Thế Nào?

Mẹo 3: /clear Giữa Các Task Tiết Kiệm Được Bao Nhiêu?

Mẹo 4: /compact Hoạt Động Ra Sao?

Mẹo 5: Chọn Model Đúng Việc Tiết Kiệm Được Bao Nhiêu?

Mẹo 6: Delegate Cho Sub-Agents Có Thật Sự Hiệu Quả?

Mẹo 7: Plan Mode Giúp Tránh Rework Như Thế Nào?

Mẹo 8: Giảm Extended Thinking Budget Có Ảnh Hưởng Chất Lượng?

Mẹo 9: Prompt Cụ Thể Tiết Kiệm Token Ra Sao?

Mẹo 10: Hooks Và Skills Giảm Token Ở Tầng Hệ Thống

Bonus: 5 Mẹo Nhanh Thêm

7 Mẹo Nâng Cao Từ Anthropic Docs (2026)

Chi Phí Thực Tế: Trước Và Sau Khi Tối Ưu

Tổng Kết: Bảng Cheat Sheet Tiết Kiệm Token

Câu Hỏi Thường Gặp Về Tiết Kiệm Token Claude Code

Dùng Max plan hay API rẻ hơn?

Làm sao biết mình đang tốn bao nhiêu token?

/compact có mất thông tin không?

Sub-agents có tốn thêm tiền không?

Tiếng Việt có tốn token hơn tiếng Anh không?

Prompt caching là gì và có giúp tiết kiệm không?

Nên bắt đầu tối ưu từ đâu?

Kết Luận

Similar Posts