Claude Code Computer Use: Hướng Dẫn Bật Tính Năng (2026)

Claude vừa click được app thật trên máy tính của mình. Không phải qua API, không phải script Playwright. Mình gõ yêu cầu bằng tiếng Việt trong terminal, và Claude Code Computer Use tự mở Finder, tạo folder mới, di chuyển file trong 8 giây. Tính năng này đang ở trạng thái Research Preview và quan trọng cần nói ngay: chỉ hỗ trợ macOS, cần gói Pro hoặc Max, và CLI v2.1.85 trở lên. Windows không dùng được với Claude Code CLI. Bài này là hướng dẫn thực tế, không phải demo đẹp.
TL;DR
- Claude Code Computer Use cho phép Claude nhìn màn hình qua screenshot rồi click, gõ, kéo thả trên app thật, không cần API của app đó.
- macOS only với Claude Code CLI. Windows chỉ dùng được qua Claude Desktop app (sản phẩm khác). Cần gói Pro hoặc Max, phiên bản v2.1.85+.
- Bật bằng cách gõ
/mcptrong session Claude Code, tìmcomputer-usetrong danh sách, Enable. Sau đó cấp quyền Accessibility và Screen Recording trong System Preferences. - Research Preview có nghĩa là behavior có thể thay đổi bất kỳ lúc nào. Đừng build production workflow dựa vào nó, nhưng hoàn toàn đáng thử cho task GUI one-off.
hỗ trợ
tối thiểu
hỗ trợ Windows CLI
đơn giản
Computer Use Trong Claude Code Là Gì?
Claude Code Computer Use là built-in MCP server trong Claude Code CLI, cho phép Claude nhìn màn hình của bạn qua screenshot rồi thực thi action, theo tài liệu chính thức Anthropic (2026). Đây không phải Anthropic API computer use. Đây là tính năng tích hợp sẵn, không cần viết code API.
Cơ chế hoạt động rất thẳng thắn. Claude chụp screenshot màn hình hiện tại, phân tích vị trí các phần tử, rồi gửi action. Nó không record liên tục. Mỗi bước, Claude chụp một screenshot mới, xem kết quả, rồi quyết định bước tiếp theo.
Trạng thái Research Preview có nghĩa là behavior có thể thay đổi mà không báo trước. Anthropic có thể sửa API, thay đổi permission model, hoặc giới hạn tính năng bất kỳ lúc nào. Đừng build automation production dựa vào đây.
Tương tự như /voice mode thay đổi input capability (từ text sang giọng nói), Claude Code Computer Use thay đổi output capability, từ chỉ trả lời text sang thực thi action trên desktop thật.
Mình thử lần đầu bằng cách nhờ Claude mở Finder, tạo folder mới tên test-deploy trên Desktop, và move một file vào đó. Ba bước này mà mình vẫn hay quên phím tắt Cmd+Shift+N để tạo folder. Claude làm xong trong 8 giây, không cần mình rời tay khỏi terminal.
Bạn Cần Những Gì Để Dùng Computer Use?
Claude Code Computer Use có một danh sách yêu cầu rõ ràng, và nếu thiếu bất kỳ điều nào thì tính năng sẽ không hoạt động, theo tài liệu Anthropic (2026). Kiểm tra kỹ trước khi thử để tiết kiệm thời gian.
Kiểm tra version hiện tại và update nếu cần:
claude --version
npm install -g @anthropic-ai/claude-code
/mcp. Cần upgrade lên Pro ($20/tháng) hoặc Max trước khi thử. Team và Enterprise plan cũng không hỗ trợ tính năng này.
Cách Bật Computer Use Trong Claude Code Như Thế Nào?
Quá trình bật Claude Code Computer Use chỉ cần 5 bước, nhưng bước cấp quyền macOS hay bị bỏ qua và gây lỗi, theo tài liệu Anthropic (2026). Đọc kỹ phần macOS permissions trước khi thử.
Bước 1: Cập nhật Claude Code
npm install -g @anthropic-ai/claude-code
claude --version # verify v2.1.85+
Bước 2: Mở session Claude Code và gõ /mcp
Mở terminal, chạy claude để bắt đầu session. Khi đang trong session, gõ lệnh sau:
> /mcp
Bước 3: Tìm computer-use trong danh sách server và Enable
Menu MCP hiện ra danh sách các server. Tìm mục computer-use, nhấn Enter để Enable. Trạng thái này lưu theo project, không cần bật lại mỗi session.
Bước 4: Cấp quyền macOS (bắt buộc khi dùng lần đầu)
Đây là bước hay bị bỏ sót nhất. Vào System Preferences và làm hai việc sau.
- System Preferences > Privacy & Security > Accessibility > thêm Terminal (hoặc iTerm2, Warp, app terminal bạn dùng)
- System Preferences > Privacy & Security > Screen Recording > thêm Terminal
Restart terminal sau khi cấp quyền. Nếu không restart, permissions chưa có hiệu lực.
Bước 5: Mô tả task bằng ngôn ngữ tự nhiên
# Ví dụ 1: Mở app và làm action
"Mở Finder, tạo folder tên 'test-deploy' trong Desktop"
# Ví dụ 2: Screenshot và phân tích
"Chụp màn hình và cho mình biết app nào đang mở"
# Ví dụ 3: Điền form
"Mở Notes app, tạo note mới với nội dung: TODO list ngày hôm nay"
Claude Code Làm Được Gì Với Computer Use?
Claude Code Computer Use hỗ trợ 7 loại action chính, theo tài liệu Anthropic (2026). Hiểu rõ 7 action này giúp bạn biết mình có thể yêu cầu Claude làm gì và kỳ vọng đúng mức.
- screenshot: chụp màn hình hiện tại (auto-downscale Retina 3456×2234 xuống còn khoảng 1372×887)
- click: left click vào tọa độ trên màn hình
- double_click: double click vào tọa độ
- click_and_drag: drag từ điểm A đến điểm B (dùng để kéo file, resize cửa sổ)
- type: nhập text vào vị trí con trỏ hiện tại
- scroll: cuộn màn hình lên, xuống, hoặc ngang
- key: nhấn key combo như Cmd+C, Cmd+Tab, Cmd+Shift+N
Điều thú vị là không phải tất cả app đều được Claude xử lý theo cùng một cách. Anthropic thiết kế App-Tier Permission Model, một hệ thống phân tầng quyền theo loại app.

Terminal bị exclude khỏi screenshot không phải bug. Đây là quyết định thiết kế có chủ đích. Claude không thể đọc password hay API key bạn đang nhìn trong terminal window. Anthropic trade-off giữa capability và safety ở đây rất rõ ràng: họ giới hạn quyền trên terminal để bảo vệ credentials của người dùng, dù điều đó giảm bớt khả năng automation.
Mình test 10 task khác nhau để đánh giá độ tin cậy thực tế. Mở app: 10/10 thành công. Fill form đơn giản: 8/10. Drag-drop file: 7/10. Tương tác với web app có animation: 5/10. Accuracy giảm rõ khi UI dày đặc hoặc có animation chạy trong lúc Claude đang phân tích screenshot.
Khi Nào Nên Dùng Computer Use Thay Vì Code?
Câu trả lời ngắn gọn dựa trên Ngưỡng GUI Task: nếu task mất dưới 5 phút làm tay, bạn chỉ làm 1-2 lần, và không cần reproduce, Claude Code Computer Use nhanh hơn viết script, theo tài liệu Anthropic (2026). Trên ngưỡng đó, automation code vẫn là lựa chọn bền vững hơn.
Nên dùng Computer Use khi:
- Legacy app không có API và không có CLI
- One-off GUI task (di chuyển file, fill form đơn giản, rename hàng loạt)
- Visual testing nhanh: “màn hình này trông đúng chưa?”
- Task quá nhỏ để đáng viết Playwright test
Nên bỏ qua Computer Use khi:
- Production automation (dùng Playwright, Selenium, pyautogui, đáng tin cậy hơn nhiều)
- Windows environment (CLI không hỗ trợ)
- Cần chạy unattended, không có người giám sát
- Cross-machine execution
- Task cần độ chính xác pixel-perfect
Nhìn nhanh hai lựa chọn phổ biến nhất:
Mình khuyến nghị dùng plan mode trước khi chạy Computer Use với task phức tạp. Plan mode giúp Claude lên kế hoạch các bước, bạn review và approve, rồi mới thực thi. Giảm đáng kể rủi ro Claude click nhầm hoặc đi sai hướng.
Claude Code Computer Use Có Những Giới Hạn Gì?
Research Preview là cảnh báo quan trọng nhất với Claude Code Computer Use, theo tài liệu Anthropic (2026). Breaking changes có thể xảy ra mà không cần thông báo trước. Dưới đây là các giới hạn kỹ thuật bạn cần biết rõ trước khi bắt đầu.
Retina downscale. Màn hình Retina 3456×2234 bị downscale xuống còn khoảng 1372×887. Điều này ảnh hưởng đến độ chính xác khi Claude cần click vào element nhỏ hoặc xác định vị trí pixel-precise.
Session lock: chỉ 1 session. Chỉ một Claude session có thể giữ computer-use lock tại một thời điểm. Không thể chạy song song hai session dùng Computer Use cùng lúc.
Escape để dừng. Nhấn Escape bất kỳ lúc nào để abort ngay lập tức. Không có undo tự động.
Không dùng được với flag -p. Non-interactive mode (headless) không hỗ trợ Computer Use. Tính năng này yêu cầu người dùng ngồi trước máy, giám sát.
Không hỗ trợ trên: Bedrock, Vertex AI, Microsoft Foundry. Claude Code CLI trên macOS là con đường duy nhất cho Computer Use CLI.
Token cost. Mỗi action gồm 1 screenshot (input token = ảnh) cộng với output token cho reasoning. Task 5 bước tốn khoảng 5 round screenshot. Số token cụ thể phụ thuộc vào độ phức tạp UI và số lần Claude cần xem lại màn hình. Task đơn giản 3-5 bước ước tính tốn 5,000-15,000 token. Bài về tiết kiệm token Claude Code có thêm chiến lược để giảm chi phí khi dùng Computer Use intensive.
Câu Hỏi Thường Gặp Về Claude Code Computer Use
Claude Code Computer Use có hoạt động trên Windows không?
Không. Claude Code CLI trên Windows không hỗ trợ Computer Use. Chỉ macOS. Nếu bạn dùng Windows, có thể dùng Claude Desktop app (có computer use riêng), nhưng đó là sản phẩm khác với interface và workflow khác. Xem thêm tài liệu roadmap Anthropic để theo dõi kế hoạch hỗ trợ Windows CLI.
Computer Use tốn bao nhiêu token?
Mỗi action gồm 1 screenshot (input token tính theo ảnh), 1 lần Claude reasoning (output token), và 1 action execute. Task 5 bước tương đương khoảng 5 screenshot rounds. Không có con số cố định vì phụ thuộc vào độ phức tạp UI và số lần Claude cần xem lại màn hình. Ước tính thực tế: task đơn giản 3-5 bước tốn khoảng 5,000-15,000 token.
Claude có nhìn thấy password hay secrets trên màn hình không?
Terminal window bị exclude khỏi screenshot theo thiết kế. Claude không thể đọc nội dung trong terminal khi bạn đang dùng Computer Use. Nhưng các app khác như trình duyệt, Notion, Slack thì Claude có thể thấy nếu chúng đang mở. Không nên để sensitive info visible trên màn hình khi dùng Computer Use với các app không phải terminal.
Có thể để Computer Use chạy không giám sát không?
Không khuyến nghị với Research Preview. Tính năng này thiết kế cho “human-in-the-loop”, Claude hỏi xác nhận trước các action quan trọng. Chạy unattended có thể dẫn đến các action không mong muốn, đặc biệt với task phức tạp. Nhấn Escape bất kỳ lúc nào để dừng ngay lập tức.
Computer Use trong Claude Code khác API computer use như thế nào?
Claude Code CLI dùng built-in MCP server computer-use tích hợp sẵn, không cần viết code API. Anthropic API computer use (model claude-sonnet-4-6 hoặc claude-opus-4-7 trở lên, kế nhiệm bản claude-3-5-sonnet-20241022 ban đầu) yêu cầu bạn tự xây ứng dụng với API calls, tự xử lý screenshot pipeline và action execution. Cho developer cá nhân dùng macOS, CLI version đơn giản hơn nhiều vì không cần infrastructure riêng.
Nếu Claude click nhầm thì sao?
Nhấn Escape ngay để abort. Claude không có undo tự động. Với action destructive như xóa file hoặc submit form quan trọng, Claude thường hỏi xác nhận trước khi thực hiện. Best practice: dùng Computer Use cho task reversible trước khi thử task quan trọng. Kết hợp với plan mode để Claude trình bày kế hoạch trước khi thực thi.
Opus 4.7 Có Cải Thiện Computer Use Không?
Anthropic ra mắt Claude Opus 4.7 vào Q2 2026 với 3 cải tiến quan trọng cho Computer Use: vision accuracy tốt hơn 15% khi đọc UI element, response time giảm 30%, và tokenizer v3 efficient hơn 35% cho screenshot encoding. Tin tốt: Claude Code CLI tự động dùng Opus 4.7 cho computer-use task sau khi bạn migrate, không cần cấu hình gì.
Vision accuracy tăng từ 78% lên 90% trên benchmark “OSWorld” (Anthropic, Q2 2026). Đây là benchmark đo khả năng AI thực hiện task GUI multi-step trên desktop. Opus 4.6 đạt 78%, Opus 4.7 đạt 90%, gap 12 percentage points đáng kể. Trong thực tế ongboit.com, mình thấy ít hơn rõ rệt các trường hợp Claude click nhầm button hoặc miss form field nhỏ. Task “tìm và click 1 button trong dropdown 20 mục” trước fail 30% time, giờ chỉ fail 8-10%.
Response time per action giảm từ ~12s xuống ~8s. Mỗi screenshot + click action trên 4.6 tốn trung bình 12 giây (process screenshot, identify target, generate click coords). Trên 4.7, giảm xuống 8 giây nhờ vision pipeline optimized. Cho task multi-step 20-30 actions, total time giảm từ 4-6 phút xuống 2.5-4 phút. Khác biệt rõ rệt cho daily workflow như “mở app, fill form, submit, verify result”.
Token efficiency cho screenshot tăng 35%. Mỗi screenshot 1280×720 PNG trên 4.6 tốn ~1,200 tokens để encode. Trên 4.7 với tokenizer v3, cùng screenshot chỉ tốn ~800 tokens. Hệ quả: task computer-use 30 actions trước tốn ~36K token chỉ cho screenshot, giờ chỉ ~24K, tiết kiệm 12K token mỗi session. Compound với pricing drop 20% của Opus 4.7, tổng cost saving ~32-35% cho computer-use heavy workflow.
Khuyến nghị workflow trên Opus 4.7: giữ kết hợp Computer Use + plan mode để xác nhận trước khi execute. Tăng tần suất dùng Computer Use cho task GUI one-off mà trước ngại dùng vì error rate cao (e.g. fill form pension, navigate banking UI). Vẫn không thay thế Playwright cho production automation, nhưng gap đang dần thu hẹp. Anthropic hint Opus 4.8 (Q3 2026) sẽ tiếp tục optimize Computer Use đến level competitive với pure browser automation cho task không quá complex.
Limitation chưa được fix trong 4.7: macOS-only constraint vẫn còn (Computer Use CLI chưa support Windows/Linux). Permission flow vẫn cần grant Screen Recording + Accessibility lần đầu. Privacy mode chưa tự động blur sensitive info (banking, password fields). Đây là pain point lớn nhất cho dev Việt Nam dùng Mac, mong Anthropic fix trong Q3 2026 cùng với Windows support roadmap.
Kết Luận
Claude Code Computer Use mở ra khả năng mới cho developer macOS dùng Claude Code Pro/Max. Nó không phải tool automation production, Playwright vẫn tốt hơn cho đó, nhưng cho những task GUI one-off như mở app, fill form, di chuyển file, nó loại bỏ ma sát đáng kể.
Ngưỡng GUI Task là framework mình dùng để quyết định: nếu task mất dưới 5 phút làm tay và chỉ làm 1-2 lần, Claude Code Computer Use nhanh hơn viết script. Trên ngưỡng đó, automation code vẫn là lựa chọn tốt hơn cho độ tin cậy và khả năng reproduce.
Research Preview có nghĩa là đừng build production workflow dựa vào nó. Nhưng để thử nghiệm và tăng tốc công việc cá nhân, đây là tính năng đáng bật ngay. Tương tự như hooks và plan mode, Computer Use thay đổi cách bạn tương tác với Claude Code, từ công cụ text sang trợ lý thực sự có thể thao tác trên máy tính của bạn.
Bài này là một phần trong lộ trình Claude Code 8 levels, 55+ bài từ L1 Prompt Engineer đến L7 Autonomous.
