Otomatiskan Mac dengan Penggunaan Komputer Claude, Begini Caranya:

Bayangkan mengendalikan Mac Anda hanya dengan beberapa baris bahasa alami. Impian itu kini menjadi kenyataan, berkat alat Penggunaan Komputer baru dari Claude. Baik Anda mengotomatiskan alur kerja UI yang membosankan, mensimulasikan input pengguna, atau membuat demo yang berinteraksi dengan antarmuka macOS, alat Penggunaan Komputer Claude menawarkan solusi yang kuat dan sangat intuitif.

Dalam artikel ini, kita akan membahas apa fitur ini, cara menggunakannya, dan menguraikan cara kerja inti alat ini. Baik Anda seorang pengembang yang ingin mengotomatiskan tugas-tugas berulang, atau hanya seseorang yang ingin mengendalikan aplikasi tanpa menggunakan tangan, panduan ini adalah panduan komprehensif untuk memulai.

💡

Sebelum menyelami detail mengotomatiskan Mac Anda dengan Claude, luangkan waktu sejenak untuk memeriksa Apidog—alat yang ampuh untuk mendesain, menguji, dan mendokumentasikan API. Apiog memungkinkan integrasi API yang mulus, meningkatkan alur kerja Anda dengan model terstruktur dan kolaborasi yang mudah. Jika Anda ingin menyederhanakan otomatisasi dan meningkatkan manajemen API Anda, Apidog adalah alat yang Anda butuhkan.

tombol

Apa itu Penggunaan Komputer Claude?

Penggunaan Komputer adalah alat beta khusus Claude yang dirilis oleh Anthropic yang memungkinkan agen AI untuk berinteraksi langsung dengan keyboard, mouse, dan layar Mac. Interaksi ini dicapai secara terprogram menggunakan utilitas baris perintah macOS di balik layar.

Claude, menggunakan alat ini, dapat:

Mensimulasikan pengetikan atau penekanan tombol tertentu
Memindahkan kursor mouse ke suatu lokasi
Melakukan klik kiri, kanan, atau ganda
Mengambil tangkapan layar dari layar saat ini
Mendapatkan posisi kursor

Semua tindakan ini diekspos melalui antarmuka seperti API dan dibungkus dalam alat berbasis Python yang dapat dipanggil oleh agen Anthropic.

Mengapa Mengotomatiskan macOS dengan Claude?

Alat otomatisasi macOS tradisional seperti AppleScript atau Automator bisa sangat kuat tetapi cenderung rapuh, khusus aplikasi, atau terbatas dalam cakupan. Dengan API Penggunaan Komputer Claude, Anda tidak lagi dibatasi oleh aturan tersebut. Anda dapat berinteraksi dengan sistem secara keseluruhan — menavigasi aplikasi, mengklik, mengetik, menyeret, dan bahkan menafsirkan layar secara visual — seperti yang dilakukan manusia.

Claude bertindak seperti co-pilot cerdas, menafsirkan apa yang ada di layar Anda dan menjalankan tugas secara real time menggunakan instruksi bahasa alami dan perintah sistem tingkat rendah.

Apa yang Anda Butuhkan

Untuk memulai, pastikan Anda memiliki yang berikut:

Mac yang menjalankan macOS 12 (Monterey) atau lebih baru
Python 3.8+ terinstal
Homebrew (pengelola paket macOS)
Aplikasi terminal seperti Terminal.app atau iTerm2

Akses ke Claude API Penggunaan Komputer dan kunci API Anda

Anda juga akan menggunakan utilitas baris perintah yang disebut cliclick untuk interaksi tingkat rendah seperti pengetikan keyboard dan kontrol mouse.

Menyiapkan Lingkungan macOS Anda

Sebelum Claude dapat mengendalikan Mac Anda, Anda perlu memberikan izin aksesibilitas terminal:

Buka Pengaturan Sistem
Buka Privasi & Keamanan → Aksesibilitas
Aktifkan kontrol untuk aplikasi terminal yang Anda gunakan

Tanpa izin ini, otomatisasi tidak akan berfungsi.

Cara Kerjanya: Claude + cliclick + Python

Sistem ini dibangun di atas tiga lapisan utama:

API Penggunaan Komputer Claude – Menangani interpretasi layar, memutuskan tindakan apa yang harus diambil.
cliclick – Alat baris perintah yang mensimulasikan gerakan mouse, klik, dan input keyboard.
Jembatan Python (computer.py) – Menghubungkan perintah Claude ke cliclick dan sistem macOS Anda.

API Claude menafsirkan informasi visual (seperti aplikasi apa yang terbuka atau di mana tombol berada) dan mengeluarkan perintah tingkat tinggi. Perintah-perintah ini kemudian dieksekusi di Mac Anda melalui cliclick, yang diatur oleh lapisan Python.

Memasang Alat

Ikuti langkah-langkah ini untuk memasang dan menjalankan pengaturan otomatisasi:

1. Pasang `cliclick`

brew install cliclick

2. Kloning Repositori Mulai Cepat

git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo

3. Ganti Skrip Inti

Ganti file computer.py yang ada dengan versi modifikasi yang disediakan dalam panduan Mengotomatiskan macOS menggunakan Penggunaan Komputer Claude.

4. Jalankan Skrip Pengaturan

./setup.sh

Skrip ini membuat lingkungan virtual Python dan memasang dependensi.

5. Aktifkan Lingkungan

source .venv/bin/activate

6. Atur Variabel Lingkungan Anda

Ganti placeholder dengan data aktual Anda.

export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512  # Lebar layar Anda
export HEIGHT=982  # Tinggi layar Anda

Anda dapat menemukan resolusi Anda di bawah Menu Apple > Tentang Mac Ini > Layar.

7. Mulai Aplikasi Streamlit

python -m streamlit run computer_use_demo/streamlit.py

Browser lokal akan terbuka di mana Anda dapat mulai mengeluarkan perintah ke Claude.

Mengotomatiskan Tugas Dunia Nyata di macOS

Sekarang semuanya sudah siap dan berjalan, mari kita lihat apa yang dapat Anda lakukan.

1. Meluncurkan Aplikasi

Minta Claude untuk "Buka Safari" atau "Luncurkan Spotify." Claude akan secara visual mengidentifikasi ikon atau entri menu dan mensimulasikan klik dan penekanan tombol yang diperlukan.

2. Mengetik Teks di Aplikasi

Anda dapat meminta Claude untuk membuka Catatan dan mengetik pesan. Ini berguna untuk membuat log otomatis atau jurnal harian.

Claude dapat mensimulasikan pintasan keyboard, mengklik menu, atau menyeret jendela ke posisi tertentu. Ini bagus untuk membuat alur kerja multi-langkah seperti mengekspor file atau menyiapkan ruang kerja Anda.

Tertarik dengan Penggunaan Komputer? Mari Kita Selami Lebih Dalam:

Skrip computer.py bertindak sebagai middleware yang menangani:

Menerjemahkan koordinat layar berdasarkan resolusi
Menjalankan tindakan mouse dan keyboard dengan waktu yang tepat
Menangkap dan menyandikan tangkapan layar untuk konfirmasi visual
Setiap perintah yang dikeluarkan oleh Claude (misalnya, left_click, mouse_move, type) divalidasi, diurai, dan kemudian diserahkan ke cliclick.

Contoh: Memberi tahu Claude untuk Membuka Safari. Setelah disiapkan, Anda dapat meminta Claude dengan sesuatu seperti:

"Tolong buka Safari, buka apple.com, dan ambil tangkapan layar."

Di balik layar, Claude akan:

Gunakan cliclick untuk menekan Cmd+Space
Ketik "Safari"
Tekan Enter
Tunggu browser memuat
Ketik "apple.com"
Tekan Enter
Gunakan screenshot() untuk menangkap layar

Semua langkah ini diabstraksikan dalam bahasa alami.

Ini juga mendukung loop umpan balik, seperti mengembalikan posisi mouse saat ini atau tangkapan layar layar, sehingga Claude dapat "melihat" apa yang terjadi dan merespons dengan cerdas. Pikirkan tentang apa yang dapat dilakukan Penggunaan Komputer Claude untuk Anda:

Pembuatan Konten: Otomatiskan pembukaan Photoshop, memuat templat, dan mengekspor desain.
Rapat: Buka Zoom, bergabung dengan rapat, dan bisukan/aktifkan suara menggunakan perintah sederhana.
Pengkodean: Buka IDE Anda, muat proyek, dan kompilasi — semuanya dipicu oleh instruksi bahasa alami.
Pembersihan Sistem: Buka Finder, buka Unduhan, dan hapus file lama.

Cara Kerja Penggunaan Komputer Claude di Balik Layar

Inti dari fitur ini adalah file computer.py, implementasi alat yang mengekspos antarmuka seperti API ke agen AI.

Mari kita bedah komponen utama dari computer.py.

1. Konfigurasi dan Pengaturan Alat

class ComputerTool(BaseAnthropicTool):
    name: Literal["computer"] = "computer"
    api_type: Literal["computer_20241022"] = "computer_20241022"

Kelas ini mengatur nama dan jenis API alat. Ini mewarisi dari BaseAnthropicTool, yang menstandarkan cara alat berkomunikasi dengan Claude.

Konstruktor memuat lebar layar, tinggi, dan nomor tampilan dari variabel lingkungan. Ini memastikan bahwa pemetaan koordinat mouse berfungsi dengan benar pada tampilan resolusi tinggi.

self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)

2. Menjalankan Tindakan

Alat ini menangani berbagai tindakan seperti mouse_move, type, key, dan screenshot. Setiap tindakan memicu perintah shell yang berbeda:

if action == "mouse_move":
    return await self.shell(f"cliclick m:{x},{y}")

Pengetikan ditangani dengan memecah teks input menjadi potongan dan mensimulasikan penekanan tombol:

for chunk in chunks(text, TYPING_GROUP_SIZE):
    cmd = f"cliclick t:'{chunk}'"
    results.append(await self.shell(cmd, take_screenshot=False))

Ini meniru pengguna yang mengetik karakter demi karakter, termasuk tangkapan layar sesudahnya.

3. Fungsionalitas Tangkapan Layar

Fungsi screenshot() mengambil tangkapan layar menggunakan screencapture, mengubah ukurannya menggunakan convert ImageMagick, dan mengembalikannya yang disandikan dalam base64:

screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")

Ini memungkinkan Claude untuk "melihat" apa yang terjadi di layar sebelum atau sesudah melakukan tindakan.

4. Penskalaan Koordinat

Tidak semua layar memiliki resolusi yang sama. Metode scale_coordinates() menyesuaikan koordinat sehingga interaksi tetap konsisten di seluruh tampilan:

x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height

Ini memastikan bahwa ketika AI mengatakan "klik di (400, 300)", itu mendarat di tempat yang tepat, terlepas dari ukuran layar sebenarnya.

5. Penanganan dan Validasi Kesalahan

Di seluruh kode, kesalahan seperti teks yang hilang atau koordinat yang tidak valid ditangkap lebih awal dengan pesan yang bermanfaat:

if text is None:
    raise ToolError(f"text is required for {action}")

Ini melindungi alat dan memastikan perilaku yang dapat diprediksi ketika Claude berinteraksi dengan sistem.

Kesimpulan

API Penggunaan Komputer Claude menawarkan pendekatan futuristik untuk otomatisasi — lebih sedikit skrip, lebih banyak kecerdasan. Dengan menafsirkan visual layar dan merespons seperti asisten manusia, Claude menghadirkan otomatisasi yang kuat kepada setiap pengguna macOS tanpa memerlukan keterampilan teknis yang mendalam.

Hanya dengan Python, beberapa alat, dan kunci API Anda, Anda dapat membangun alur kerja yang beradaptasi dengan kebiasaan dan preferensi Anda — memberi Anda lebih banyak waktu untuk fokus pada apa yang benar-benar penting.