
Ngày 23 tháng 3 năm 2026, cộng đồng người dùng Claude Code phát hiện điều bất thường: gói Max hết quota trong 19 phút. Không phải do project lớn bất thường, không phải do bug trong code, mà do 2 lỗi cache đang âm thầm thổi phồng chi phí lên 10-20 lần so với thực tế. Vấn đề không nằm ở số token bạn cần dùng, mà ở chỗ bạn không biết token đang đi đâu.
14 repo GitHub trong bài này giải quyết đúng 2 vấn đề đó: giảm token consumed và theo dõi token đang chạy đi đâu. Được chia thành 5 nhóm theo tầng can thiệp để bạn chọn đúng tool cho vấn đề đang gặp, không cần cài hết 14.
TL;DR
- 14 GitHub repo chia 5 nhóm: CLI Proxy (lọc context), Knowledge Graph (đọc code thông minh hơn), Output Compression (nén output), Analytics (theo dõi), Cross-platform (đa AI tool)
- ccusage (13.3K★) là tool phổ biến nhất để xem token đang đi đâu, cài 1 lệnh:
npm i -g ccusage - caveman (46K★) viral nhưng chỉ tiết kiệm output token, tức 25-30% tổng bill. Nhóm 1-2 có ROI cao hơn 3-4 lần
- Đừng cài quá 3 tool cùng lúc. Tránh combine 2 tool cùng nhóm sẽ gây conflict
- Đọc thêm 15 mẹo tiết kiệm token Claude Code để bổ sung góc độ thực hành
Token Claude Code Là Gì Và Tại Sao Cần Quản Lý?
Có 2 loại vấn đề token khác nhau hoàn toàn, và phần lớn developer đang nhầm lẫn giữa chúng. Loại thứ nhất là token consumed (token bạn thực sự dùng, có thể giảm được). Loại thứ hai là token visibility (bạn không nhìn thấy token đang đi đâu, không thể tối ưu cái bạn không đo được).
Tháng 3 năm 2026 là thời điểm vấn đề trở nên không thể bỏ qua. Người dùng gói Max bắt đầu báo cáo quota hết trong 19 phút, theo ghi nhận từ The Register. Điều tra cộng đồng phát hiện 2 lỗi cache đang làm chi phí tăng 10-20 lần so với thực tế, theo GitHub Issue #41930. Cùng thời điểm đó, Anthropic cắt giảm cache TTL từ 1 giờ xuống còn 5 phút, theo XDA Developers.
Điều đáng chú ý là Claude Code không cung cấp breakdown token theo từng project cho individual subscriber. Bạn chỉ biết tổng số token đã dùng trong session, không biết file nào, tác vụ nào đang ngốn nhiều nhất.
Framework để chọn tool đúng: 5 nhóm repo trong bài này chia theo 2 hướng can thiệp. Nhóm 1-3 giải quyết vấn đề “giảm token consumed”. Nhóm 4-5 giải quyết vấn đề “hiểu token đang đi đâu”. Nếu bạn biết rõ mình đang ở vấn đề nào, phần selection matrix cuối bài sẽ giúp chọn nhanh hơn thay vì phải đọc hết từng repo.
Claude Code Lưu Dữ Liệu Token Ở Đâu?
Claude Code lưu toàn bộ dữ liệu token trong các file JSONL tại thư mục ~/.claude/projects/, mỗi session tương ứng với một file riêng. Đây là nguồn dữ liệu thô mà tất cả tool trong nhóm 4-5 đọc và phân tích.
Mỗi dòng trong file JSONL chứa các trường quan trọng sau đây:
{
"input_tokens": 4821,
"output_tokens": 312,
"cache_read_input_tokens": 18430,
"cache_creation_input_tokens": 0,
"model": "claude-sonnet-4-6"
}
Ý nghĩa thực tế của từng trường: input_tokens là số token bạn gửi đi trong lượt đó. output_tokens là số token Claude trả về. cache_read_input_tokens là phần đã được cache, chi phí chỉ bằng 10% so với input thông thường theo trang pricing của Anthropic. cache_creation_input_tokens là chi phí ghi cache lần đầu.
Bạn có thể đọc và tính tổng nhanh bằng lệnh:
cat ~/.claude/projects/*/*.jsonl | jq '.input_tokens + .output_tokens' | paste -sd+ | bc
Hiểu rõ token là gì và cách chúng được tính sẽ giúp bạn đọc dữ liệu JSONL chính xác hơn. Phần này cũng liên quan mật thiết đến context window của mỗi model, vì context window đầy nhanh là nguyên nhân phổ biến nhất khiến token hết trước kế hoạch.
Theo Claude Code documentation, đường dẫn trên macOS và Linux là ~/.claude/projects/. Trên Windows, tương ứng là C:\Users\[username]\.claude\projects\.
Claude Code Có Lệnh Theo Dõi Token Nào Tích Hợp Sẵn?
Trước khi cài bất kỳ repo nào, biết 2 lệnh native này. Claude Code tích hợp sẵn 2 lệnh theo dõi mà không cần cài thêm gì:
/cost: hiển thị cost của session hiện tại, bao gồm input tokens, output tokens, cache read, và tổng chi phí USD ước tính. Chạy bất cứ lúc nào trong session./usage: hiển thị token consumption trong session hiện tại với breakdown chi tiết hơn.
Hai lệnh này đủ để trả lời câu hỏi “session này tốn bao nhiêu?” mà không cần setup gì. Giới hạn: chúng chỉ show data của session đang chạy, không có historical data, không có per-project breakdown, không có daily trend. Đó là lý do 14 repo trong bài này tồn tại.
Ai nên dừng ở đây (không cần cài repo nào): Nếu bạn chỉ dùng Claude Code thỉnh thoảng, không có project dài ngày, và quota chưa bao giờ hết trong session, /cost và /usage là đủ. Chỉ cần repo khi bạn có vấn đề cụ thể cần giải quyết.
Nhóm 1: Nên Dùng CLI Proxy Khi Nào?
CLI Proxy phù hợp nhất khi terminal output đang làm đầy context window của bạn. Hai repo trong nhóm này hoạt động bằng cách lọc và nén output trước khi nó được đưa vào context, thay vì xử lý sau khi damage đã xảy ra.
rtk (35,000★)
rtk là Rust binary chạy như một proxy giữa terminal và Claude Code. Theo trang GitHub của dự án, rtk giảm 60-90% token consumed trên nhiều loại project, đặc biệt hiệu quả với codebase có nhiều file log hoặc build output lặp lại.
# Cài đặt
cargo install rtk
# Sử dụng thay thế cho claude trực tiếp
rtk run -- claude
Best for: Project có nhiều file log, build output dài, hoặc test runner verbose. rtk đặc biệt hiệu quả với monorepo vì nó filter theo pattern file, không filter toàn bộ output một cách mù quáng.
context-mode (v1.0.89)
context-mode là MCP server dùng SQLite để lưu context thông minh hơn. Trang GitHub của dự án ghi nhận khả năng giảm 98% context redundancy trên các codebase lớn. Cơ chế: thay vì đọc lại toàn bộ file mỗi lần Claude cần tham chiếu, context-mode chỉ inject phần đã thay đổi so với lần đọc trước.
# Cài đặt
npm install -g context-mode
# Thêm vào Claude Code settings.json như một MCP server
Best for: Project có file config lớn không thay đổi thường xuyên, hoặc documentation dài mà Claude cần tham chiếu nhiều lần trong cùng một session.
Nhóm 2: Knowledge Graph Giúp Ích Gì Cho Token?
Knowledge Graph giải quyết vấn đề cụ thể: Claude đọc cả repo khi chỉ cần 1 file. Thay vì load toàn bộ codebase vào context, 3 repo trong nhóm này xây dựng dependency graph để Claude chỉ đọc những gì thực sự cần thiết cho từng request.
code-review-graph (13,000★)
code-review-graph phân tích dependency giữa các file trong dự án và tạo ra một graph navigation layer. Khi Claude cần đọc UserService.ts, nó biết chỉ cần kéo thêm AuthRepository.ts và EmailProvider.ts, thay vì load cả thư mục services/.
npm install -g code-review-graph
crg init # chạy 1 lần để build graph ban đầu
crg update # cập nhật khi thêm file mới
Best for: Monorepo với nhiều module độc lập, hoặc project TypeScript/Go có import graph phức tạp.
token-savior
token-savior dùng code-aware summarization: thay vì bỏ qua file không liên quan, nó tóm tắt ngắn gọn để Claude biết file đó tồn tại và chứa gì, tạo ra context “breadth” rộng hơn với chi phí thấp hơn.
pip install token-savior
token-savior setup --project .
Best for: Khi Claude cần biết tổng quan toàn bộ codebase trước khi đi sâu vào 1 file cụ thể. Phù hợp với pattern “explain this system” hoặc “find where X is implemented”.
zilliztech/claude-context
zilliztech/claude-context dùng vector search trên codebase để tìm đoạn code relevant nhất cho từng request. Thay vì rule-based graph như code-review-graph, nó dùng semantic similarity để tìm file có liên quan về nghĩa, không chỉ về import.
git clone https://github.com/zilliztech/claude-context
cd claude-context && pip install -r requirements.txt && python setup.py
Bài học từ thực tế: Mình đã test rtk + context-mode + code-review-graph cùng lúc trên project Node.js 80,000 dòng. Kết quả: race condition giữa rtk và context-mode khiến Claude trả về nội dung trùng lặp ở các response liên tiếp, gây mất context liên kết giữa các bước. Sau khi gỡ rtk, hệ thống ổn định trở lại. Nguyên tắc thực tế: chỉ dùng 1 tool mỗi nhóm, không combine 2 tool cùng nhóm dù README của từng tool không đề cập đến conflict này.
Nhóm 3: Có Thật Là Caveman Tiết Kiệm Token Không?
Câu trả lời ngắn: có, nhưng ít hơn bạn nghĩ. caveman là tool có nhiều GitHub star nhất trong danh sách với 46,000★, nhưng cơ chế hoạt động tập trung vào output token, không phải input token.
caveman (46,000★)
caveman loại bỏ markdown formatting và verbosity từ response của Claude Code. Thay vì nhận response dài 800 từ với bullet point, heading và code block được format đầy đủ, bạn nhận response 200 từ plain text chứa cùng thông tin cốt lõi.
npm install -g caveman
caveman wrap claude
Best for: Workflow thuần terminal, automation script cần output gọn, CI/CD pipeline không cần formatted response.
drona23
drona23 là aggressive output trimmer, cắt response xuống mức tối thiểu hơn cả caveman. Phù hợp cho automation script khi bạn chỉ cần answer cuối cùng, không cần explanation hay context.
pip install drona23
drona23 --wrap claude
Tại sao ROI nhóm này thấp hơn bạn tưởng. Đây là insight quan trọng nhất khi so sánh các nhóm: khi bạn nhìn vào file JSONL thực tế, output token chỉ chiếm 25-30% tổng bill. Phần còn lại đến từ input token và cache creation. caveman tiết kiệm đúng 25-30% đó, nhưng trong khi đó, Nhóm 1-2 tác động lên phần input token lớn hơn (70-75%). Nếu phải chọn giữa caveman và code-review-graph để đầu tư thời gian setup, ROI của code-review-graph cao hơn 3-4 lần về mặt giảm tổng bill.
caveman vẫn có giá trị thực tế với workflow verbose, ví dụ documentation generation hoặc code explanation cho team. Chỉ là đừng kỳ vọng nó sẽ giải quyết được vấn đề quota exhaustion như một số review đang mô tả.
Nhóm 4: Làm Sao Xem Token Đang Chạy Đi Đâu?
5 repo trong nhóm này đọc JSONL files và biến raw data thành insight có thể action được. Sự khác biệt giữa chúng nằm ở interface (CLI vs terminal UI vs web dashboard) và depth của analytics.
~/.claude/projects/[hash]/*.jsonl. Mỗi dòng JSONL chứa input_tokens, output_tokens, cache_read_input_tokens và model. Các tool trong Nhóm 4-5 đọc trực tiếp từ đây, không cần kết nối API Anthropic.
ccusage (13,300★)
ccusage là tool phổ biến nhất để track token Claude Code, với 13,300 GitHub stars tính đến tháng 4 năm 2026. Cài đặt bằng 1 lệnh:
npm install -g ccusage
Sau khi cài, bạn có ngay CLI với các subcommand hữu ích:
ccusage daily # xem breakdown theo ngày
ccusage monthly # xem breakdown theo tháng
ccusage session # xem session gần nhất chi tiết
ccusage cũng có MCP server mode để tích hợp trực tiếp vào Claude Code, cho phép Claude tự biết mình đã dùng bao nhiêu token trong session hiện tại và tự điều chỉnh response length khi gần đạt quota.
Phát hiện từ thực tế: Sau khi cài ccusage và chạy ccusage daily, mình phát hiện 31% token của một session dài đang dùng cho file utils/transform.ts có 2,400 dòng. Claude cần đọc file này liên tục vì nó chứa type transformation logic dùng ở mọi nơi trong project. Giải pháp: split file thành 3 file nhỏ hơn, mỗi file khoảng 800 dòng theo từng domain. Session cost giảm 28% ngay sau đó mà không cần thay đổi logic nào trong code.
Claude-Code-Usage-Monitor (7,800★)
Claude-Code-Usage-Monitor là terminal UI viết bằng Python, hiển thị real-time token consumption với ML prediction về thời điểm session sẽ hết quota.
pip install claude-code-usage-monitor
ccm start
Tool này tính P90 burn rate, tức là phân tích 90th percentile consumption rate để dự báo thực tế hơn so với average rate. Nó cũng hiển thị quota limits theo plan: Pro 44,000 token, Max5 88,000 token, Max20 220,000 token mỗi window 5 giờ.
Best for: Developer làm task phức tạp kéo dài, muốn biết real-time còn bao nhiêu quota trước khi bắt đầu một subtask tốn kém.
claude-usage (1,300★)
claude-usage là web dashboard dùng Chart.js, chạy local trên browser. Nó visualize token usage qua biểu đồ theo ngày, tuần, tháng và hiển thị progress bar so với plan limit của bạn.
pip install claude-usage
claude-usage serve # mở http://localhost:8080
Best for: Người thích visual analytics hơn CLI output, hoặc khi cần share report tổng hợp với team lead.
nateherkai/token-dashboard (261★)
token-dashboard của Nate Herk là web dashboard chi tiết nhất trong danh sách với 7 tab analytics khác nhau. Tính năng nổi bật là per-prompt heatmap, cho phép bạn thấy chính xác request nào đang tốn nhiều token nhất, không chỉ file nào.
git clone https://github.com/nateherkai/token-dashboard
cd token-dashboard && npm install && npm start
Best for: Power user muốn breakdown chi tiết đến từng request trong session, đặc biệt hữu ích để audit session dài nhiều giờ.
alexgreensh/claude-code-usage-dashboard
claude-code-usage-dashboard của alexgreensh là phiên bản lightweight nhất trong nhóm. Setup đơn giản trong 3 bước, phù hợp cho developer muốn bắt đầu nhanh mà không cần tính năng phức tạp.
git clone https://github.com/alexgreensh/claude-code-usage-dashboard
cd claude-code-usage-dashboard && pip install -r requirements.txt && python app.py
Best for: Quick start. Nếu bạn chưa từng dùng token tracker nào, đây là điểm khởi đầu tốt nhất trước khi quyết định có cần feature nâng cao hơn không.
Nhóm 5: Dùng Nhiều AI Tool Khác Nhau Thì Theo Dõi Kiểu Gì?
Nếu bạn dùng nhiều AI tool cùng lúc (Claude Code, Cursor, Codex, Gemini CLI, AmpCode), Nhóm 4 không đủ. Các tool trong Nhóm 4 chỉ đọc JSONL của Claude Code. Nhóm 5 cung cấp tracking cross-platform để bạn có một dashboard duy nhất cho tất cả AI coding tools.
tokscale (junhoyeo)
tokscale track usage đồng thời cho Cursor, GitHub Codex, Gemini CLI, AmpCode và Claude Code. Tool này đặc biệt hữu ích với developer “polyglot AI”, tức là không lock-in vào một tool duy nhất mà chọn tool theo từng loại task.
npm install -g tokscale
tokscale init # detect installed AI tools tự động
tokscale dashboard # mở dashboard tổng hợp
Claude-Usage-Tracker (macOS menubar)
Claude-Usage-Tracker là native macOS app chạy ở menubar, hiển thị token usage real-time ngay trên thanh menu bar mà không cần mở terminal. Viết bằng Swift, không có dependency nào ngoài macOS system frameworks.
Download từ GitHub release của dự án, drag vào Applications folder, authorize để đọc ~/.claude/projects/. Sau đó bạn thấy số token hiện tại ngay trên menubar, cập nhật tự động mỗi 30 giây.
Best for: macOS user muốn quick glance không cần mở terminal hay browser, đặc biệt tiện khi đang làm việc full screen với một app khác.
Bạn Nên Dùng Repo Nào?
Chọn theo vấn đề bạn đang gặp, không chọn theo số sao GitHub:
| Vấn đề bạn đang gặp | Repo gợi ý | Nhóm |
|---|---|---|
| Terminal output làm đầy context quá nhanh | rtk (35K★) | 1 – CLI Proxy |
| Claude đọc lại file không đổi nhiều lần | context-mode | 1 – CLI Proxy |
| Claude đọc cả repo khi chỉ cần 1 module | code-review-graph (13K★) | 2 – Knowledge Graph |
| Cần context breadth, không phải depth | token-savior | 2 – Knowledge Graph |
| Output dài, verbose, không cần format | caveman (46K★) | 3 – Output Compression |
| Muốn biết token đang đi đâu, quick CLI | ccusage (13.3K★) | 4 – Analytics |
| Muốn real-time monitor và dự báo hết quota | Claude-Code-Usage-Monitor (7.8K★) | 4 – Analytics |
| Dùng nhiều AI tool, cần dashboard chung | tokscale | 5 – Cross-platform |
| macOS, muốn quick glance không mở terminal | Claude-Usage-Tracker | 5 – Cross-platform |
Nguyên tắc kết hợp tool:
- OK: combine 1 tool từ Nhóm 1 + 1 tool từ Nhóm 4, ví dụ rtk + ccusage (CLI mode)
- OK: combine 1 tool từ Nhóm 2 + 1 tool từ Nhóm 3, ví dụ code-review-graph + caveman
- TRÁNH: combine 2 tool cùng nhóm, ví dụ rtk + context-mode, hoặc ccusage MCP + context-mode MCP
- GIỚI HẠN: không cài quá 3 tool cùng lúc để tránh conflict khó debug
Combo Stack Nào Là Tốt Nhất?
3 stack được kiểm tra thực tế và có thể dùng ngay:
Stack 1: CLI-first (đơn giản, ít phụ thuộc)
rtk + ccusage. Phù hợp với developer muốn cài nhanh, ít config, không cần web UI. rtk giảm context overflow từ terminal output; ccusage cho biết daily breakdown để bạn biết file nào cần refactor. Tổng setup time dưới 10 phút.
Stack 2: Dashboard (visibility tốt nhất)
code-review-graph + claude-usage. Phù hợp với team lead cần report cho manager, hoặc developer thích visual analytics. code-review-graph giảm token tại nguồn bằng cách chỉ load file cần thiết; claude-usage web dashboard cho thấy trend theo tuần. Tổng setup time khoảng 20 phút.
Stack 3: Real-time (monitoring tối đa)
context-mode + Claude-Code-Usage-Monitor. Phù hợp với developer làm project dài ngày, cần biết real-time còn bao nhiêu quota. context-mode tối ưu cache redundancy; Claude-Code-Usage-Monitor predict khi nào hết dựa trên P90 burn rate. Lưu ý: không dùng ccusage MCP mode song song với context-mode vì cả 2 đều có MCP server. Tổng setup time khoảng 30 phút.
Stack 0: Beginner (chưa gặp vấn đề nghiêm trọng)
Không cài gì cả. Dùng /cost và /usage built-in. Khi quota bắt đầu hết trước dự kiến hoặc bạn muốn biết file nào đang ngốn token, lúc đó mới cần Stack 1.
Stack mình đang dùng hàng ngày là Stack 1 (rtk + ccusage). ccusage giúp phát hiện file nào đang ngốn token, từ đó quyết định có cần refactor cấu trúc file hay không. Sau khi split utils/transform.ts nhờ phát hiện từ ccusage, session cost giảm 28% mỗi ngày làm việc với project đó.
Câu Hỏi Thường Gặp
Làm sao xem token đã dùng trong Claude Code?
Có 2 cách. Cách nhanh nhất là dùng lệnh /usage ngay trong Claude Code để xem tổng session hiện tại. Để có breakdown chi tiết theo ngày và project, cài ccusage với lệnh npm i -g ccusage rồi chạy ccusage daily. ccusage đọc trực tiếp từ JSONL files tại ~/.claude/projects/ và tổng hợp thành báo cáo dễ đọc trong vài giây.
Session 5 tiếng của Claude Code cho bao nhiêu token?
Quota mỗi window 5 giờ phụ thuộc vào plan: gói Pro khoảng 44,000 token, gói Max5 khoảng 88,000 token, gói Max20 khoảng 220,000 token. Đây là tổng input + output, không tính cache read riêng. Con số này được ghi nhận bởi cộng đồng qua Claude-Code-Usage-Monitor, không phải con số chính thức từ Anthropic nên có thể thay đổi theo từng giai đoạn.
Claude Code lưu dữ liệu token ở đâu trên máy tính?
Claude Code lưu dữ liệu token trong file JSONL tại thư mục ~/.claude/projects/, mỗi session tương ứng với một file riêng biệt. Trên macOS và Linux, tìm bằng lệnh ls ~/.claude/projects/. Trên Windows, đường dẫn tương ứng là C:\Users\[username]\.claude\projects\. Đây là nguồn dữ liệu cho tất cả tool analytics trong Nhóm 4-5.
Tại sao token Claude Code hết quá nhanh?
3 nguyên nhân phổ biến nhất. Thứ nhất, context window đang bị đầy bởi terminal output hoặc file lớn, Nhóm 1-2 giải quyết vấn đề này. Thứ hai, lỗi cache đang làm phồng chi phí, đặc biệt sau khi cache TTL bị cắt từ 1 giờ xuống 5 phút vào tháng 3 năm 2026. Thứ ba, 1 file cụ thể trong project đang được Claude đọc lại quá nhiều lần, ccusage giúp phát hiện file này qua per-session breakdown.
ccusage khác Claude-Code-Usage-Monitor như thế nào?
ccusage là CLI tool viết bằng TypeScript, output text thuần túy, có thêm MCP server mode để tích hợp vào Claude Code. Claude-Code-Usage-Monitor là terminal UI viết bằng Python, có giao diện TUI với màu sắc và animation, có ML prediction về thời điểm hết quota và hiển thị P90 burn rate. ccusage phù hợp cho developer thích CLI đơn giản và muốn pipe output vào script. Claude-Code-Usage-Monitor phù hợp hơn cho real-time monitoring khi đang làm task dài phức tạp.
Có cần cài cả 14 repo không?
Không. Phần lớn developer chỉ cần 2-3 tool. Bắt đầu với ccusage để hiểu token đang đi đâu trước, sau đó dựa vào kết quả phân tích mà chọn thêm tool phù hợp từ Nhóm 1-3 nếu cần giảm consumption. Cài nhiều tool cùng lúc trước khi có baseline data là cách tiêu tốn thời gian setup mà không biết mình đang fix vấn đề gì.
Kết Luận
14 repo này không phải để cài hết. Chúng là bản đồ giải pháp để bạn chọn đúng tool cho đúng vấn đề. Nếu bạn mới bắt đầu, khởi động với ccusage, chạy ccusage daily sau 3 ngày làm việc, và dữ liệu đó sẽ chỉ ra nên tối ưu ở đâu tiếp theo.
Bổ sung từ góc độ thực hành: 15 mẹo tiết kiệm token Claude Code là bài đi kèm, cover các kỹ thuật không cần cài tool bên ngoài, từ cách viết prompt hiệu quả đến quản lý context window chủ động. Hai bài đọc kết hợp sẽ cho bạn cái nhìn đầy đủ về token management. Nếu bạn đang cân nhắc nâng gói, xem so sánh chi phí Claude Code Pro, Max và API. Mới bắt đầu và muốn có lộ trình học đầy đủ? Xem Bảng Tổng Hợp Claude Code.
