Apidog

Nền tảng phát triển API hợp tác tất cả trong một

Thiết kế API

Tài liệu API

Gỡ lỗi API

Giả lập API

Kiểm thử API tự động

Tự động hóa Mac với Cách Sử Dụng Máy Tính của Claude, Đây Là Cách Thực hiện:

中村 拓也

中村 拓也

Updated on tháng 4 9, 2025

Hãy tưởng tượng việc điều khiển Mac của bạn chỉ bằng một vài dòng ngôn ngữ tự nhiên. Giấc mơ đó giờ đây đã trở thành hiện thực, nhờ vào công cụ Sử Dụng Máy Tính mới của Claude. Dù bạn đang tự động hóa các quy trình UI nhàm chán, mô phỏng đầu vào của người dùng, hay tạo các bản demo tương tác với giao diện macOS, công cụ Sử Dụng Máy Tính của Claude cung cấp một giải pháp mạnh mẽ và bất ngờ trực quan.

Trong bài viết này, chúng tôi sẽ hướng dẫn bạn về tính năng này, cách sử dụng nó, và phân tích cách thức hoạt động bên trong của công cụ này. Dù bạn là một nhà phát triển muốn tự động hóa các nhiệm vụ lặp đi lặp lại, hoặc chỉ là một người muốn điều khiển ứng dụng mà không cần tay, hướng dẫn này sẽ giúp bạn bắt đầu một cách toàn diện.

💡
Trước khi đắm sâu vào chi tiết về việc tự động hóa Mac của bạn với Claude, hãy dành một chút thời gian để xem qua Apidog—một công cụ mạnh mẽ để thiết kế, thử nghiệm và tài liệu APIs. Apiog cho phép tích hợp API liền mạch, nâng cao quy trình làm việc của bạn với các mô hình có cấu trúc và dễ dàng hợp tác. Nếu bạn muốn tinh giản quy trình tự động hóa và nâng cao quản lý API của mình, Apidog là công cụ mà bạn cần.
button

Sử Dụng Máy Tính của Claude là gì?

Sử Dụng Máy Tính là một công cụ beta riêng biệt của Claude được phát hành bởi Anthropic, cho phép một tác nhân AI tương tác trực tiếp với bàn phím, chuột và màn hình của Mac. Sự tương tác này được thực hiện chương trình bằng cách sử dụng các tiện ích dòng lệnh macOS ở phía bên dưới.

Claude, khi sử dụng công cụ này, có thể:

  • Mô phỏng việc gõ hoặc nhấn các phím cụ thể
  • Di chuyển con trỏ chuột đến một vị trí
  • Thực hiện các lần nhấp chuột trái, phải hoặc kép
  • Chụp ảnh màn hình của màn hình hiện tại
  • Lấy vị trí của con trỏ

Tất cả các hành động này được phơi bày qua một giao diện giống như API và được đóng gói trong một công cụ dựa trên Python mà các tác nhân Anthropic có thể gọi.

Tại sao tự động hóa macOS với Claude?

Các công cụ tự động hóa macOS truyền thống như AppleScript hoặc Automator có thể rất mạnh mẽ nhưng thường có tính dễ hỏng, cụ thể cho ứng dụng hoặc hạn chế về phạm vi. Với Computer Use API của Claude, bạn không còn bị ràng buộc bởi những quy tắc đó. Bạn có thể tương tác với hệ thống như một tổng thể — điều hướng các ứng dụng, nhấp chuột, gõ phím, kéo thả, và thậm chí diễn giải màn hình một cách trực quan — giống như một con người.

Claude hoạt động như một phi công thông minh, diễn giải những gì trên màn hình của bạn và thực hiện các nhiệm vụ trong thời gian thực thông qua các hướng dẫn bằng ngôn ngữ tự nhiên và các lệnh hệ thống cấp thấp.

Những gì bạn cần

Để bắt đầu, hãy đảm bảo bạn có những điều sau:

  • Một chiếc Mac chạy macOS 12 (Monterey) hoặc mới hơn
  • Python 3.8+ đã được cài đặt
  • Homebrew (trình quản lý gói macOS)
  • Một ứng dụng terminal như Terminal.app hoặc iTerm2

Truy cập vào Computer Use API của Claude và khóa API của bạn

Bạn cũng sẽ sử dụng một tiện ích dòng lệnh có tên cliclick cho tương tác cấp thấp như gõ bàn phím và điều khiển chuột.

Thiết lập Môi Trường macOS của Bạn

Trước khi Claude có thể điều khiển Mac của bạn, bạn cần cấp quyền truy cập cho terminal:

  • Mở Cài đặt Hệ thống
  • Đi đến Bảo mật & Quyền riêng tưKhả năng tiếp cận
  • Bật quyền điều khiển cho ứng dụng terminal mà bạn đang sử dụng

Khi không có những quyền này, việc tự động hóa sẽ không hoạt động.

Nó Hoạt Động Như Thế Nào: Claude + cliclick + Python

Hệ thống được xây dựng trên ba lớp chính:

  • Claude’s Computer Use API – Xử lý diễn giải màn hình, quyết định hành động nào cần thực hiện.
  • cliclick – Một công cụ dòng lệnh mô phỏng chuyển động chuột, nhấp chuột và đầu vào bàn phím.
  • Cầu nối Python (computer.py) – Kết nối các lệnh của Claude với cliclick và hệ thống macOS của bạn.

API của Claude diễn giải thông tin hình ảnh (như các ứng dụng đang mở hoặc vị trí của các nút) và phát hành các lệnh cấp cao. Các lệnh này sau đó được thực hiện trên Mac của bạn thông qua cliclick, được điều phối bởi lớp Python.

Cài Đặt Các Công Cụ

Thực hiện các bước sau để cài đặt và chạy thiết lập tự động hóa:

1. Cài đặt cliclick

brew install cliclick

2. Nhân bản Kho Lưu Trữ Quickstart

git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo

3. Thay thế Tập Tin Chương Trình Cơ Bản

Thay thế tập tin computer.py hiện có bằng phiên bản đã được sửa đổi được cung cấp trong hướng dẫn Tự động hóa macOS bằng Sử Dụng Máy Tính của Claude.

4. Chạy Kịch Bản Thiết Lập

./setup.sh

Kịch bản này tạo ra một môi trường ảo Python và cài đặt các phụ thuộc.

5. Kích Hoạt Môi Trường

source .venv/bin/activate

6. Thiết Lập Các Biến Môi Trường của Bạn

Thay thế các vị trí giữ chỗ bằng dữ liệu thực tế của bạn.

export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512  # Chiều rộng màn hình của bạn
export HEIGHT=982  # Chiều cao màn hình của bạn

Bạn có thể tìm độ phân giải của mình dưới Menu Apple > Giới thiệu về Mac này > Màn hình.

7. Khởi Động Ứng Dụng Streamlit

python -m streamlit run computer_use_demo/streamlit.py

Một trình duyệt cục bộ sẽ mở ra nơi bạn có thể bắt đầu phát lệnh cho Claude.

Tự Động Hóa Các Nhiệm Vụ Thực Tế trên macOS

Giờ đây, khi mọi thứ đã hoạt động, hãy xem bạn có thể làm gì.

1. Khởi Động Ứng Dụng

Yêu cầu Claude “Mở Safari” hoặc “Khởi động Spotify.” Claude sẽ xác định trực quan các biểu tượng hoặc mục menu và mô phỏng các lần nhấp chuột và gõ phím cần thiết.

2. Gõ Văn Bản trong Ứng Dụng

Bạn có thể yêu cầu Claude mở Notes và gõ một tin nhắn. Điều này hữu ích để tạo nhật ký tự động hoặc nhật ký hàng ngày.

3. Điều Hướng Menu và Cửa Sổ

Claude có thể mô phỏng các phím tắt, nhấp qua các menu, hoặc kéo cửa sổ đến các vị trí cụ thể. Điều này rất tốt để tạo ra các quy trình đa bước như xuất tệp hoặc thiết lập không gian làm việc của bạn.

Thích thú với Sử Dụng Máy Tính? Hãy Đi Sâu Hơn:

Kịch bản computer.py hoạt động như một middleware xử lý:

  • Chuyển đổi tọa độ màn hình dựa trên độ phân giải
  • Thực hiện các hành động chuột và bàn phím với thời gian chính xác
  • Bắt và mã hóa ảnh chụp màn hình để xác nhận hình ảnh
  • Mỗi lệnh được phát bởi Claude (ví dụ: left_click, mouse_move, type) đều được xác thực, phân tích cú pháp, và sau đó chuyển cho cliclick.

Ví dụ: Yêu cầu Claude mở Safari. Khi đã được thiết lập, bạn có thể yêu cầu Claude một điều gì đó như:

"Hãy mở Safari, truy cập apple.com, và chụp một bức ảnh màn hình."

Ở phía dưới, Claude sẽ:

  1. Sử dụng cliclick để nhấn Cmd+Space
  2. Gõ "Safari"
  3. Nhấn Enter
  4. Chờ trình duyệt tải
  5. Gõ "apple.com"
  6. Nhấn Enter
  7. Sử dụng screenshot() để chụp màn hình

Tất cả những bước này đều được trừu tượng hóa trong ngôn ngữ tự nhiên.

Nó cũng hỗ trợ các vòng phản hồi, như trả về vị trí chuột hiện tại hoặc một bức ảnh chụp màn hình, để Claude có thể "thấy" những gì đã xảy ra và phản hồi một cách thông minh. Hãy nghĩ về những gì Sử Dụng Máy Tính của Claude có thể làm cho bạn:

  • Tạo Nội Dung: Tự động mở Photoshop, tải một mẫu, và xuất một thiết kế.
  • Cuộc Họp: Mở Zoom, tham gia các cuộc họp, và tắt/mở âm thanh bằng các lời nhắc đơn giản.
  • Lập Trình: Mở IDE của bạn, tải một dự án, và biên dịch — tất cả đều được kích hoạt bởi một yêu cầu bằng ngôn ngữ tự nhiên.
  • Dọn Dẹp Hệ Thống: Mở Finder, đi đến Tải về, và xóa các tệp cũ.

Cách Sử Dụng Máy Tính của Claude Hoạt Động Ở Phía Dưới

Ở trung tâm của tính năng này là tập tin computer.py, một công cụ triển khai cung cấp một giao diện giống như API cho một tác nhân AI.

Hãy phân tích các thành phần chính của computer.py.

1. Cấu Hình và Thiết Lập Công Cụ

class ComputerTool(BaseAnthropicTool):
    name: Literal["computer"] = "computer"
    api_type: Literal["computer_20241022"] = "computer_20241022"

Class này thiết lập tên và loại API của công cụ. Nó kế thừa từ BaseAnthropicTool, tiêu chuẩn hóa cách các công cụ giao tiếp với Claude.

Constructor tải chiều rộng màn hình, chiều cao, và số màn hình từ các biến môi trường. Điều này đảm bảo rằng việc ánh xạ tọa độ chuột hoạt động chính xác trên các màn hình độ phân giải cao.

self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)

2. Thực Hiện Các Hành Động

Công cụ xử lý nhiều hành động khác nhau như mouse_move, type, key, và screenshot. Mỗi hành động kích hoạt một lệnh shell khác nhau:

if action == "mouse_move":
    return await self.shell(f"cliclick m:{x},{y}")

Việc gõ được xử lý bằng cách chia văn bản đầu vào thành các khối và mô phỏng các lần gõ phím:

for chunk in chunks(text, TYPING_GROUP_SIZE):
    cmd = f"cliclick t:'{chunk}'"
    results.append(await self.shell(cmd, take_screenshot=False))

Điều này mô phỏng việc người dùng gõ từng ký tự một, bao gồm cả chụp ảnh màn hình sau đó.


3. Chức Năng Chụp Ảnh Màn Hình

Hàm screenshot() chụp ảnh màn hình bằng screencapture, thay đổi kích thước bằng convert của ImageMagick, và trả về nó đã được mã hóa trong base64:

screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")

Điều này cho phép Claude "thấy" những gì đang xảy ra trên màn hình trước hoặc sau khi thực hiện các hành động.


4. Tỉ Lệ Tọa Độ

Không phải tất cả các màn hình đều có cùng độ phân giải. Phương pháp scale_coordinates() điều chỉnh tọa độ để các tương tác vẫn giữ được tính nhất quán trên các màn hình khác nhau:

x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height

Điều này đảm bảo rằng khi AI nói "nhấp chuột tại (400, 300)", nó sẽ đến đúng vị trí, bất kể kích thước màn hình thực tế.


5. Xử Lý Lỗi và Xác Thực

Trong mã, các lỗi như thiếu văn bản hoặc tọa độ không hợp lệ đều được phát hiện sớm với thông điệp hữu ích:

if text is None:
    raise ToolError(f"text is required for {action}")

Điều này bảo vệ công cụ và đảm bảo hành vi dự đoán khi Claude tương tác với hệ thống.


Suy Nghĩ Cuối Cùng

API Sử Dụng Máy Tính của Claude cung cấp một cách tiếp cận tương lai cho tự động hóa — ít lập trình hơn, nhiều trí tuệ hơn. Bằng cách diễn giải hình ảnh màn hình và phản hồi như một trợ lý con người, Claude mang đến sự tự động hóa mạnh mẽ cho bất kỳ người dùng macOS nào mà không cần các kỹ năng kỹ thuật sâu.

Chỉ với Python, một vài công cụ, và khóa API của bạn, bạn có thể xây dựng các quy trình làm việc thích ứng với thói quen và sở thích của bạn — giúp bạn có thêm thời gian để tập trung vào những gì thực sự quan trọng.