Apidog

Platform Pengembangan API Kolaboratif All-in-one

Desain API

Dokumentasi API

Debug API

Mocking API

Pengujian Otomatis API

Otomatiskan Mac dengan Penggunaan Komputer Claude, Begini Caranya:

Pelajari cara menggunakan Computer Use API Claude dengan Python untuk otomatisasi macOS.

Ardianto Nugroho

Ardianto Nugroho

Updated on April 15, 2025

Bayangkan mengendalikan Mac Anda hanya dengan beberapa baris bahasa alami. Impian itu kini menjadi kenyataan, berkat alat Penggunaan Komputer baru dari Claude. Baik Anda mengotomatiskan alur kerja UI yang membosankan, mensimulasikan input pengguna, atau membuat demo yang berinteraksi dengan antarmuka macOS, alat Penggunaan Komputer Claude menawarkan solusi yang kuat dan sangat intuitif.

Dalam artikel ini, kita akan membahas apa fitur ini, cara menggunakannya, dan menguraikan cara kerja inti alat ini. Baik Anda seorang pengembang yang ingin mengotomatiskan tugas-tugas berulang, atau hanya seseorang yang ingin mengendalikan aplikasi tanpa menggunakan tangan, panduan ini adalah panduan komprehensif untuk memulai.

💡
Sebelum menyelami detail mengotomatiskan Mac Anda dengan Claude, luangkan waktu sejenak untuk memeriksa Apidog—alat yang ampuh untuk mendesain, menguji, dan mendokumentasikan API. Apiog memungkinkan integrasi API yang mulus, meningkatkan alur kerja Anda dengan model terstruktur dan kolaborasi yang mudah. Jika Anda ingin menyederhanakan otomatisasi dan meningkatkan manajemen API Anda, Apidog adalah alat yang Anda butuhkan.
tombol

Apa itu Penggunaan Komputer Claude?

Penggunaan Komputer adalah alat beta khusus Claude yang dirilis oleh Anthropic yang memungkinkan agen AI untuk berinteraksi langsung dengan keyboard, mouse, dan layar Mac. Interaksi ini dicapai secara terprogram menggunakan utilitas baris perintah macOS di balik layar.

Claude, menggunakan alat ini, dapat:

  • Mensimulasikan pengetikan atau penekanan tombol tertentu
  • Memindahkan kursor mouse ke suatu lokasi
  • Melakukan klik kiri, kanan, atau ganda
  • Mengambil tangkapan layar dari layar saat ini
  • Mendapatkan posisi kursor

Semua tindakan ini diekspos melalui antarmuka seperti API dan dibungkus dalam alat berbasis Python yang dapat dipanggil oleh agen Anthropic.

Mengapa Mengotomatiskan macOS dengan Claude?

Alat otomatisasi macOS tradisional seperti AppleScript atau Automator bisa sangat kuat tetapi cenderung rapuh, khusus aplikasi, atau terbatas dalam cakupan. Dengan API Penggunaan Komputer Claude, Anda tidak lagi dibatasi oleh aturan tersebut. Anda dapat berinteraksi dengan sistem secara keseluruhan — menavigasi aplikasi, mengklik, mengetik, menyeret, dan bahkan menafsirkan layar secara visual — seperti yang dilakukan manusia.

Claude bertindak seperti co-pilot cerdas, menafsirkan apa yang ada di layar Anda dan menjalankan tugas secara real time menggunakan instruksi bahasa alami dan perintah sistem tingkat rendah.

Apa yang Anda Butuhkan

Untuk memulai, pastikan Anda memiliki yang berikut:

  • Mac yang menjalankan macOS 12 (Monterey) atau lebih baru
  • Python 3.8+ terinstal
  • Homebrew (pengelola paket macOS)
  • Aplikasi terminal seperti Terminal.app atau iTerm2

Akses ke Claude API Penggunaan Komputer dan kunci API Anda

Anda juga akan menggunakan utilitas baris perintah yang disebut cliclick untuk interaksi tingkat rendah seperti pengetikan keyboard dan kontrol mouse.

Menyiapkan Lingkungan macOS Anda

Sebelum Claude dapat mengendalikan Mac Anda, Anda perlu memberikan izin aksesibilitas terminal:

  • Buka Pengaturan Sistem
  • Buka Privasi & KeamananAksesibilitas
  • Aktifkan kontrol untuk aplikasi terminal yang Anda gunakan

Tanpa izin ini, otomatisasi tidak akan berfungsi.

Cara Kerjanya: Claude + cliclick + Python

Sistem ini dibangun di atas tiga lapisan utama:

  • API Penggunaan Komputer Claude – Menangani interpretasi layar, memutuskan tindakan apa yang harus diambil.
  • cliclick – Alat baris perintah yang mensimulasikan gerakan mouse, klik, dan input keyboard.
  • Jembatan Python (computer.py) – Menghubungkan perintah Claude ke cliclick dan sistem macOS Anda.

API Claude menafsirkan informasi visual (seperti aplikasi apa yang terbuka atau di mana tombol berada) dan mengeluarkan perintah tingkat tinggi. Perintah-perintah ini kemudian dieksekusi di Mac Anda melalui cliclick, yang diatur oleh lapisan Python.

Memasang Alat

Ikuti langkah-langkah ini untuk memasang dan menjalankan pengaturan otomatisasi:

1. Pasang cliclick

brew install cliclick

2. Kloning Repositori Mulai Cepat

git clone https://github.com/anthropics/anthropic-quickstarts.git
cd anthropic-quickstarts/computer-use-demo

3. Ganti Skrip Inti

Ganti file computer.py yang ada dengan versi modifikasi yang disediakan dalam panduan Mengotomatiskan macOS menggunakan Penggunaan Komputer Claude.

4. Jalankan Skrip Pengaturan

./setup.sh

Skrip ini membuat lingkungan virtual Python dan memasang dependensi.

5. Aktifkan Lingkungan

source .venv/bin/activate

6. Atur Variabel Lingkungan Anda

Ganti placeholder dengan data aktual Anda.

export ANTHROPIC_API_KEY=sk-xxxxxx
export WIDTH=1512  # Lebar layar Anda
export HEIGHT=982  # Tinggi layar Anda

Anda dapat menemukan resolusi Anda di bawah Menu Apple > Tentang Mac Ini > Layar.

7. Mulai Aplikasi Streamlit

python -m streamlit run computer_use_demo/streamlit.py

Browser lokal akan terbuka di mana Anda dapat mulai mengeluarkan perintah ke Claude.

Mengotomatiskan Tugas Dunia Nyata di macOS

Sekarang semuanya sudah siap dan berjalan, mari kita lihat apa yang dapat Anda lakukan.

1. Meluncurkan Aplikasi

Minta Claude untuk "Buka Safari" atau "Luncurkan Spotify." Claude akan secara visual mengidentifikasi ikon atau entri menu dan mensimulasikan klik dan penekanan tombol yang diperlukan.

2. Mengetik Teks di Aplikasi

Anda dapat meminta Claude untuk membuka Catatan dan mengetik pesan. Ini berguna untuk membuat log otomatis atau jurnal harian.

3. Menavigasi Menu dan Jendela

Claude dapat mensimulasikan pintasan keyboard, mengklik menu, atau menyeret jendela ke posisi tertentu. Ini bagus untuk membuat alur kerja multi-langkah seperti mengekspor file atau menyiapkan ruang kerja Anda.

Tertarik dengan Penggunaan Komputer? Mari Kita Selami Lebih Dalam:

Skrip computer.py bertindak sebagai middleware yang menangani:

  • Menerjemahkan koordinat layar berdasarkan resolusi
  • Menjalankan tindakan mouse dan keyboard dengan waktu yang tepat
  • Menangkap dan menyandikan tangkapan layar untuk konfirmasi visual
  • Setiap perintah yang dikeluarkan oleh Claude (misalnya, left_click, mouse_move, type) divalidasi, diurai, dan kemudian diserahkan ke cliclick.

Contoh: Memberi tahu Claude untuk Membuka Safari. Setelah disiapkan, Anda dapat meminta Claude dengan sesuatu seperti:

"Tolong buka Safari, buka apple.com, dan ambil tangkapan layar."

Di balik layar, Claude akan:

  1. Gunakan cliclick untuk menekan Cmd+Space
  2. Ketik "Safari"
  3. Tekan Enter
  4. Tunggu browser memuat
  5. Ketik "apple.com"
  6. Tekan Enter
  7. Gunakan screenshot() untuk menangkap layar

Semua langkah ini diabstraksikan dalam bahasa alami.

Ini juga mendukung loop umpan balik, seperti mengembalikan posisi mouse saat ini atau tangkapan layar layar, sehingga Claude dapat "melihat" apa yang terjadi dan merespons dengan cerdas. Pikirkan tentang apa yang dapat dilakukan Penggunaan Komputer Claude untuk Anda:

  • Pembuatan Konten: Otomatiskan pembukaan Photoshop, memuat templat, dan mengekspor desain.
  • Rapat: Buka Zoom, bergabung dengan rapat, dan bisukan/aktifkan suara menggunakan perintah sederhana.
  • Pengkodean: Buka IDE Anda, muat proyek, dan kompilasi — semuanya dipicu oleh instruksi bahasa alami.
  • Pembersihan Sistem: Buka Finder, buka Unduhan, dan hapus file lama.

Cara Kerja Penggunaan Komputer Claude di Balik Layar

Inti dari fitur ini adalah file computer.py, implementasi alat yang mengekspos antarmuka seperti API ke agen AI.

Mari kita bedah komponen utama dari computer.py.

1. Konfigurasi dan Pengaturan Alat

class ComputerTool(BaseAnthropicTool):
    name: Literal["computer"] = "computer"
    api_type: Literal["computer_20241022"] = "computer_20241022"

Kelas ini mengatur nama dan jenis API alat. Ini mewarisi dari BaseAnthropicTool, yang menstandarkan cara alat berkomunikasi dengan Claude.

Konstruktor memuat lebar layar, tinggi, dan nomor tampilan dari variabel lingkungan. Ini memastikan bahwa pemetaan koordinat mouse berfungsi dengan benar pada tampilan resolusi tinggi.

self.width = int(os.getenv("WIDTH") or 0)
self.height = int(os.getenv("HEIGHT") or 0)

2. Menjalankan Tindakan

Alat ini menangani berbagai tindakan seperti mouse_move, type, key, dan screenshot. Setiap tindakan memicu perintah shell yang berbeda:

if action == "mouse_move":
    return await self.shell(f"cliclick m:{x},{y}")

Pengetikan ditangani dengan memecah teks input menjadi potongan dan mensimulasikan penekanan tombol:

for chunk in chunks(text, TYPING_GROUP_SIZE):
    cmd = f"cliclick t:'{chunk}'"
    results.append(await self.shell(cmd, take_screenshot=False))

Ini meniru pengguna yang mengetik karakter demi karakter, termasuk tangkapan layar sesudahnya.


3. Fungsionalitas Tangkapan Layar

Fungsi screenshot() mengambil tangkapan layar menggunakan screencapture, mengubah ukurannya menggunakan convert ImageMagick, dan mengembalikannya yang disandikan dalam base64:

screenshot_cmd = f"{self._display_prefix}screencapture {path}"
await self.shell(f"convert {path} -resize {x}x{y}! {path}")

Ini memungkinkan Claude untuk "melihat" apa yang terjadi di layar sebelum atau sesudah melakukan tindakan.


4. Penskalaan Koordinat

Tidak semua layar memiliki resolusi yang sama. Metode scale_coordinates() menyesuaikan koordinat sehingga interaksi tetap konsisten di seluruh tampilan:

x_scaling_factor = target_dimension["width"] / self.width
y_scaling_factor = target_dimension["height"] / self.height

Ini memastikan bahwa ketika AI mengatakan "klik di (400, 300)", itu mendarat di tempat yang tepat, terlepas dari ukuran layar sebenarnya.


5. Penanganan dan Validasi Kesalahan

Di seluruh kode, kesalahan seperti teks yang hilang atau koordinat yang tidak valid ditangkap lebih awal dengan pesan yang bermanfaat:

if text is None:
    raise ToolError(f"text is required for {action}")

Ini melindungi alat dan memastikan perilaku yang dapat diprediksi ketika Claude berinteraksi dengan sistem.


Kesimpulan

API Penggunaan Komputer Claude menawarkan pendekatan futuristik untuk otomatisasi — lebih sedikit skrip, lebih banyak kecerdasan. Dengan menafsirkan visual layar dan merespons seperti asisten manusia, Claude menghadirkan otomatisasi yang kuat kepada setiap pengguna macOS tanpa memerlukan keterampilan teknis yang mendalam.

Hanya dengan Python, beberapa alat, dan kunci API Anda, Anda dapat membangun alur kerja yang beradaptasi dengan kebiasaan dan preferensi Anda — memberi Anda lebih banyak waktu untuk fokus pada apa yang benar-benar penting.

Cara Menggunakan Lovable AI (Alternatif Cursor untuk Pengembang Web)Tutorial

Cara Menggunakan Lovable AI (Alternatif Cursor untuk Pengembang Web)

Pelajari cara buat web apa pun dgn Lovable. Panduan lengkap, fitur inovatif, & integrasi Apidog (API gratis).

Ardianto Nugroho

April 15, 2025

Cara Menambahkan Kunci API Kustom ke Cursor: Panduan KomprehensifTutorial

Cara Menambahkan Kunci API Kustom ke Cursor: Panduan Komprehensif

Tutorial ini memandu Anda menyiapkan & mengelola API key khusus di Cursor: OpenAI, Anthropic, Google, & Azure.

Ardianto Nugroho

April 11, 2025

Cara Menggunakan NVIDIA Llama Nemotron API untuk Agen AI Tingkat LanjutTutorial

Cara Menggunakan NVIDIA Llama Nemotron API untuk Agen AI Tingkat Lanjut

Pelajari API NVIDIA Llama Nemotron utk buat agen AI canggih.

Ardianto Nugroho

April 11, 2025