Bayangkan mengendalikan Mac Anda hanya dengan beberapa baris bahasa alami. Impian itu kini menjadi kenyataan, berkat alat Penggunaan Komputer baru dari Claude. Baik Anda mengotomatiskan alur kerja UI yang membosankan, mensimulasikan input pengguna, atau membuat demo yang berinteraksi dengan antarmuka macOS, alat Penggunaan Komputer Claude menawarkan solusi yang kuat dan sangat intuitif.
Dalam artikel ini, kita akan membahas apa fitur ini, cara menggunakannya, dan menguraikan cara kerja inti alat ini. Baik Anda seorang pengembang yang ingin mengotomatiskan tugas-tugas berulang, atau hanya seseorang yang ingin mengendalikan aplikasi tanpa menggunakan tangan, panduan ini adalah panduan komprehensif untuk memulai.

Apa itu Penggunaan Komputer Claude?
Penggunaan Komputer adalah alat beta khusus Claude yang dirilis oleh Anthropic yang memungkinkan agen AI untuk berinteraksi langsung dengan keyboard, mouse, dan layar Mac. Interaksi ini dicapai secara terprogram menggunakan utilitas baris perintah macOS di balik layar.
Claude, menggunakan alat ini, dapat:
- Mensimulasikan pengetikan atau penekanan tombol tertentu
- Memindahkan kursor mouse ke suatu lokasi
- Melakukan klik kiri, kanan, atau ganda
- Mengambil tangkapan layar dari layar saat ini
- Mendapatkan posisi kursor
Semua tindakan ini diekspos melalui antarmuka seperti API dan dibungkus dalam alat berbasis Python yang dapat dipanggil oleh agen Anthropic.
Mengapa Mengotomatiskan macOS dengan Claude?
Alat otomatisasi macOS tradisional seperti AppleScript atau Automator bisa sangat kuat tetapi cenderung rapuh, khusus aplikasi, atau terbatas dalam cakupan. Dengan API Penggunaan Komputer Claude, Anda tidak lagi dibatasi oleh aturan tersebut. Anda dapat berinteraksi dengan sistem secara keseluruhan — menavigasi aplikasi, mengklik, mengetik, menyeret, dan bahkan menafsirkan layar secara visual — seperti yang dilakukan manusia.
Claude bertindak seperti co-pilot cerdas, menafsirkan apa yang ada di layar Anda dan menjalankan tugas secara real time menggunakan instruksi bahasa alami dan perintah sistem tingkat rendah.
Apa yang Anda Butuhkan
Untuk memulai, pastikan Anda memiliki yang berikut:
- Mac yang menjalankan macOS 12 (Monterey) atau lebih baru
- Python 3.8+ terinstal
- Homebrew (pengelola paket macOS)
- Aplikasi terminal seperti Terminal.app atau iTerm2
Akses ke Claude API Penggunaan Komputer dan kunci API Anda
Anda juga akan menggunakan utilitas baris perintah yang disebut cliclick
untuk interaksi tingkat rendah seperti pengetikan keyboard dan kontrol mouse.
Menyiapkan Lingkungan macOS Anda
Sebelum Claude dapat mengendalikan Mac Anda, Anda perlu memberikan izin aksesibilitas terminal:
- Buka Pengaturan Sistem
- Buka Privasi & Keamanan → Aksesibilitas
- Aktifkan kontrol untuk aplikasi terminal yang Anda gunakan
Tanpa izin ini, otomatisasi tidak akan berfungsi.
Cara Kerjanya: Claude + cliclick + Python
Sistem ini dibangun di atas tiga lapisan utama:
- API Penggunaan Komputer Claude – Menangani interpretasi layar, memutuskan tindakan apa yang harus diambil.
- cliclick – Alat baris perintah yang mensimulasikan gerakan mouse, klik, dan input keyboard.
- Jembatan Python (
computer.py
) – Menghubungkan perintah Claude ke cliclick dan sistem macOS Anda.
API Claude menafsirkan informasi visual (seperti aplikasi apa yang terbuka atau di mana tombol berada) dan mengeluarkan perintah tingkat tinggi. Perintah-perintah ini kemudian dieksekusi di Mac Anda melalui cliclick, yang diatur oleh lapisan Python.
Memasang Alat
Ikuti langkah-langkah ini untuk memasang dan menjalankan pengaturan otomatisasi:
1. Pasang cliclick
brew install cliclick
2. Kloning Repositori Mulai Cepat
git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo
3. Ganti Skrip Inti
Ganti file computer.py
yang ada dengan versi modifikasi yang disediakan dalam panduan Mengotomatiskan macOS menggunakan Penggunaan Komputer Claude.
4. Jalankan Skrip Pengaturan
./setup.sh
Skrip ini membuat lingkungan virtual Python dan memasang dependensi.
5. Aktifkan Lingkungan
source .venv/bin/activate
6. Atur Variabel Lingkungan Anda
Ganti placeholder dengan data aktual Anda.
export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512 # Lebar layar Anda
export HEIGHT=982 # Tinggi layar Anda
Anda dapat menemukan resolusi Anda di bawah Menu Apple > Tentang Mac Ini > Layar.
7. Mulai Aplikasi Streamlit
python -m streamlit run computer_use_demo/streamlit.py
Browser lokal akan terbuka di mana Anda dapat mulai mengeluarkan perintah ke Claude.
Mengotomatiskan Tugas Dunia Nyata di macOS
Sekarang semuanya sudah siap dan berjalan, mari kita lihat apa yang dapat Anda lakukan.
1. Meluncurkan Aplikasi
Minta Claude untuk "Buka Safari" atau "Luncurkan Spotify." Claude akan secara visual mengidentifikasi ikon atau entri menu dan mensimulasikan klik dan penekanan tombol yang diperlukan.

2. Mengetik Teks di Aplikasi
Anda dapat meminta Claude untuk membuka Catatan dan mengetik pesan. Ini berguna untuk membuat log otomatis atau jurnal harian.
3. Menavigasi Menu dan Jendela
Claude dapat mensimulasikan pintasan keyboard, mengklik menu, atau menyeret jendela ke posisi tertentu. Ini bagus untuk membuat alur kerja multi-langkah seperti mengekspor file atau menyiapkan ruang kerja Anda.
Tertarik dengan Penggunaan Komputer? Mari Kita Selami Lebih Dalam:
Skrip computer.py
bertindak sebagai middleware yang menangani:
- Menerjemahkan koordinat layar berdasarkan resolusi
- Menjalankan tindakan mouse dan keyboard dengan waktu yang tepat
- Menangkap dan menyandikan tangkapan layar untuk konfirmasi visual
- Setiap perintah yang dikeluarkan oleh Claude (misalnya,
left_click
,mouse_move
,type
) divalidasi, diurai, dan kemudian diserahkan ke cliclick.
Contoh: Memberi tahu Claude untuk Membuka Safari. Setelah disiapkan, Anda dapat meminta Claude dengan sesuatu seperti:
"Tolong buka Safari, buka apple.com, dan ambil tangkapan layar."
Di balik layar, Claude akan:
- Gunakan
cliclick
untuk menekanCmd+Space
- Ketik "Safari"
- Tekan
Enter
- Tunggu browser memuat
- Ketik "apple.com"
- Tekan
Enter
- Gunakan
screenshot()
untuk menangkap layar
Semua langkah ini diabstraksikan dalam bahasa alami.
Ini juga mendukung loop umpan balik, seperti mengembalikan posisi mouse saat ini atau tangkapan layar layar, sehingga Claude dapat "melihat" apa yang terjadi dan merespons dengan cerdas. Pikirkan tentang apa yang dapat dilakukan Penggunaan Komputer Claude untuk Anda:
- Pembuatan Konten: Otomatiskan pembukaan Photoshop, memuat templat, dan mengekspor desain.
- Rapat: Buka Zoom, bergabung dengan rapat, dan bisukan/aktifkan suara menggunakan perintah sederhana.
- Pengkodean: Buka IDE Anda, muat proyek, dan kompilasi — semuanya dipicu oleh instruksi bahasa alami.
- Pembersihan Sistem: Buka Finder, buka Unduhan, dan hapus file lama.
Cara Kerja Penggunaan Komputer Claude di Balik Layar
Inti dari fitur ini adalah file computer.py
, implementasi alat yang mengekspos antarmuka seperti API ke agen AI.
Mari kita bedah komponen utama dari computer.py
.
1. Konfigurasi dan Pengaturan Alat
class ComputerTool(BaseAnthropicTool):
name: Literal["computer"] = "computer"
api_type: Literal["computer_20241022"] = "computer_20241022"
Kelas ini mengatur nama dan jenis API alat. Ini mewarisi dari BaseAnthropicTool
, yang menstandarkan cara alat berkomunikasi dengan Claude.
Konstruktor memuat lebar layar, tinggi, dan nomor tampilan dari variabel lingkungan. Ini memastikan bahwa pemetaan koordinat mouse berfungsi dengan benar pada tampilan resolusi tinggi.
self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)
2. Menjalankan Tindakan
Alat ini menangani berbagai tindakan seperti mouse_move
, type
, key
, dan screenshot
. Setiap tindakan memicu perintah shell yang berbeda:
if action == "mouse_move":
return await self.shell(f"cliclick m:{x},{y}")
Pengetikan ditangani dengan memecah teks input menjadi potongan dan mensimulasikan penekanan tombol:
for chunk in chunks(text, TYPING_GROUP_SIZE):
cmd = f"cliclick t:'{chunk}'"
results.append(await self.shell(cmd, take_screenshot=False))
Ini meniru pengguna yang mengetik karakter demi karakter, termasuk tangkapan layar sesudahnya.
3. Fungsionalitas Tangkapan Layar
Fungsi screenshot()
mengambil tangkapan layar menggunakan screencapture
, mengubah ukurannya menggunakan convert
ImageMagick, dan mengembalikannya yang disandikan dalam base64:
screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")
Ini memungkinkan Claude untuk "melihat" apa yang terjadi di layar sebelum atau sesudah melakukan tindakan.
4. Penskalaan Koordinat
Tidak semua layar memiliki resolusi yang sama. Metode scale_coordinates()
menyesuaikan koordinat sehingga interaksi tetap konsisten di seluruh tampilan:
x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height
Ini memastikan bahwa ketika AI mengatakan "klik di (400, 300)", itu mendarat di tempat yang tepat, terlepas dari ukuran layar sebenarnya.
5. Penanganan dan Validasi Kesalahan
Di seluruh kode, kesalahan seperti teks yang hilang atau koordinat yang tidak valid ditangkap lebih awal dengan pesan yang bermanfaat:
if text is None:
raise ToolError(f"text is required for {action}")
Ini melindungi alat dan memastikan perilaku yang dapat diprediksi ketika Claude berinteraksi dengan sistem.
Kesimpulan
API Penggunaan Komputer Claude menawarkan pendekatan futuristik untuk otomatisasi — lebih sedikit skrip, lebih banyak kecerdasan. Dengan menafsirkan visual layar dan merespons seperti asisten manusia, Claude menghadirkan otomatisasi yang kuat kepada setiap pengguna macOS tanpa memerlukan keterampilan teknis yang mendalam.
Hanya dengan Python, beberapa alat, dan kunci API Anda, Anda dapat membangun alur kerja yang beradaptasi dengan kebiasaan dan preferensi Anda — memberi Anda lebih banyak waktu untuk fokus pada apa yang benar-benar penting.