Testando CUA: o Servidor MCP para Agentes de Uso de Computador, Aqui Estão Minhas Opiniões

CUA, o framework Computer-Use Agent, e seu elegante servidor MCP, Cua, permitem que agentes de IA controlem seu sistema macOS ou Linux com linguagem natural. Eu mergulhei na configuração do servidor MCP CUA no meu Mac com Apple Silicon, e deixem-me dizer—é uma mudança de jogo para automatizar tarefas localmente. Neste guia para iniciantes, compartilharei minhas impressões sobre como instalar e testar o servidor MCP do CUA, com um exemplo divertido: fazendo-o abrir um terminal e listar os conteúdos do diretório. Não são necessárias habilidades técnicas—apenas um pouco de curiosidade! Pronto para transformar sua IA em um sussurrador de computadores? Vamos nessa!

💡

Quer uma ótima ferramenta de teste de API que gera documentação de API bonita?

Quer uma plataforma integrada e All-in-One para sua equipe de desenvolvedores trabalhar junta com máxima produtividade?

O Apidog atende todas as suas demandas e substitui o Postman a um preço muito mais acessível!

button

O que é Cua e o Servidor MCP CUA?

CUA (Computer-Use Agent) é um framework de código aberto que permite que agentes de IA interajam com seu computador—pense em controle de tela, automação de teclado/mouse, e máquinas virtuais (VMs) isoladas no macOS e Linux, especialmente Apple Silicon. O servidor MCP Cua é seu componente do Protocolo de Contexto do Modelo (MCP), atuando como uma ponte para permitir que clientes de IA como Claude Desktop ou Cursor executem tarefas do CUA via linguagem natural. É como dar ao seu IA um controle remoto para seu sistema, executando comandos com segurança, sem dependências na nuvem. Vamos configurá-lo e testá-lo com uma tarefa simples, mantendo as coisas privadas e divertidas. Vamos lá!

Configurando Seu Ambiente: Preparando-se para o CUA

Antes de lançarmos o servidor MCP CUA, vamos preparar seu sistema. Isso é amigável para iniciantes, com cada passo explicado para mantê-lo informado.

1. Verifique os Pré-requisitos: Certifique-se de que você tem essas ferramentas prontas:

Python: Versão 3.10 ou superior. Execute python --version em seu terminal. Se estiver faltando ou desatualizado, faça o download de python.org. O Python alimenta os scripts e o servidor do CUA.
Git: Necessário para clonar o repositório Cua. Verifique com git --version. Instale a partir de git-scm.com se necessário.
Docker: Necessário para a configuração do servidor MCP em contêineres. Faça o download de docker.com e verifique com docker --version.
Hardware: Um Mac com Apple Silicon (M1/M2/M3) ou sistema Linux, CPU com 4 ou mais núcleos, 16GB ou mais de RAM, e 10GB ou mais de armazenamento livre para dependências. Falta algo? Instale agora para evitar problemas.

2. Crie uma Pasta de Projeto: Vamos manter as coisas organizadas com uma pasta dedicada:

mkdir cua-mcp-test
cd cua-mcp-test

Essa pasta conterá seu projeto CUA, e cd o prepara para os próximos passos.

3. Clone o Repositório Cua: Pegue o código fonte do CUA do GitHub:

git clone https://github.com/trycua/cua.git
cd cua

O git clone busca o repositório Cua, incluindo o código do servidor MCP em libs/mcp-server. O cd cua o move para o diretório do projeto.

4. Configure um Ambiente Virtual: Para evitar conflitos de pacotes, crie um ambiente virtual Python:

python -m venv venv

Ative-o:

Mac/Linux: source venv/bin/activate
Windows: venv\Scripts\activate. Ver que (venv) no seu terminal significa que você está em um ambiente Python limpo, isolando as dependências do CUA.

5. Abra no VS Code: Inicie o projeto no Visual Studio Code para facilitar a programação:

code .

O VS Code abre a pasta cua, pronta para scriptar. Se você não tiver o VS Code, baixe de code.visualstudio.com ou use outro editor, mas a integração do Python no VS Code é de primeira linha.

Instalando o Servidor MCP CUA

Vamos instalar o servidor MCP CUA para trabalhar com Claude 3.7. Usaremos um script simples para uma configuração sem complicações, garantindo que todas as dependências estejam no lugar.

1. Execute o Script de Configuração Fácil: O repositório CUA fornece uma linha de comando para simplificar a instalação:

curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/mcp-server/scripts/install_mcp_server.sh | bash

Esse script faz muito trabalho pesado:

Cria o diretório ~/.cua se ele não existir.
Gera um script de inicialização em ~/.cua/start_mcp_server.sh.
Torna o script executável.
Gerencia ambientes virtuais Python e instala/atualiza o pacote cua-mcp-server. É direcionado para macOS e Linux, usando Docker para um servidor em contêiner. Espere que leve um minuto, pois ele busca dependências.

2. Instale as Dependências do Python: Se você preferir a instalação manual ou encontrar problemas, instale o servidor MCP CUA diretamente:

pip install cua-mcp-server

Isso instala:

O próprio servidor MCP.
Agente CUA e dependências do computador (por exemplo, para controle de tela, automação de teclado/mouse).
Um script ejecutável cua-mcp-server no seu PATH.

3. Verifique o Docker: O servidor MCP roda em um contêiner Docker, então certifique-se de que o Docker esteja ativo:

docker ps

Se o Docker não estiver rodando, inicie-o via Docker Desktop (Mac) ou sudo systemctl start docker (Linux). Isso é crucial para o ambiente isolado do servidor.

Configurando o Servidor MCP CUA para Claude Desktop

Agora, vamos configurar o servidor MCP CUA para funcionar com Claude 3.7 no Claude Desktop, configurando as chaves de API necessárias e variáveis de ambiente.

1. Obtenha uma Chave de API da Anthropic: Inscreva-se em anthropic.com, navegue até a seção de API e gere uma chave de API. Salve-a com segurança (não compartilhe!). Essa chave permite que Claude 3.7 se comunique com o servidor MCP CUA.

2. Atualize a Configuração do Claude Desktop: Adicione o servidor MCP CUA ao arquivo de configuração do Claude Desktop, tipicamente em ~/.config/claude-desktop/claude_desktop_config.json (Mac). Crie-o se não existir:

{
  "mcpServers": {
    "cua-agent": {
      "command": "/bin/bash",
      "args": ["~/.cua/start_mcp_server.sh"],
      "env": {
        "CUA_AGENT_LOOP": "OMNI",
        "CUA_MODEL_PROVIDER": "ANTHROPIC",
        "CUA_MODEL_NAME": "claude-3-7-sonnet-20250219",
        "ANTHROPIC_API_KEY": "sua-chave-api"
      }
    }
  }
}

Substitua sua-chave-api pela sua chave de API da Anthropic. Essa configuração:

Usa o script de inicialização da etapa de instalação.
Define o loop do agente como OMNI para um gerenciamento flexível de tarefas.
Especifica Claude 3.7 (claude-3-7-sonnet-20250219) como o modelo.
Passa a chave de API com segurança. Salve o arquivo no local correto. Para mais detalhes, consulte o Guia do Usuário do MCP da Anthropic.

3. Opcional: Integração com o Cursor: Quer usar o CUA com o Cursor? Crie um arquivo de configuração MCP:

Específico do projeto: Adicione .cursor/mcp.json no diretório do seu projeto.
Global: Adicione ~/.cursor/mcp.json no seu diretório home. Use a mesma configuração de mcpServers que acima. Então, no chat do Agente do Cursor, diga: “Use as ferramentas de controle do computador para abrir o Safari,” e CUA assumirá. Consulte a documentação do MCP do Cursor para mais informações.

Testando Seu Servidor MCP CUA com Claude 3.7

Hora de testar o servidor MCP CUA fazendo Claude 3.7 abrir um terminal e listar os conteúdos do diretório! Vamos criar um script para simular a tarefa e executá-lo no VS Code.

1. Crie um Script de Teste: No VS Code, com seu projeto cua aberto, crie um arquivo chamado test.py na pasta cua. Cole este código:

import os
import asyncio
from computer import Computer
from agent import ComputerAgent, LLM, AgentLoop, LLMProvider

async def run_task() -> str:
    async with Computer(verbosity='DEBUG') as computer:
        agent = ComputerAgent(
            computer=computer,
            loop=AgentLoop.OMNI,
            model=LLM(
                provider=LLMProvider.ANTHROPIC,
                model_name="claude-3-7-sonnet-20250219",
                api_key="sua-chave-api"
            )
        )
        task = "Abra um terminal e liste os conteúdos do diretório atual"
        async for result in agent.run(task):
            return result

async def main():
    result = await run_task()
    print("\n\nResultado:", result)

if __name__ == "__main__":
    asyncio.run(main())

Substitua sua-chave-api pela sua chave de API da Anthropic (alternativamente, defina ANTHROPIC_API_KEY como uma variável de ambiente no seu perfil de shell). Este script:

Inicializa um CUA Computer para interação com o sistema.
Configura um ComputerAgent com Claude 3.7 via API da Anthropic.
Determina que o agente abra um terminal (por exemplo, Terminal.app no macOS) e execute ls.
Imprime o resultado, como uma lista de arquivos.

2. Selecione o Interpretador Python no VS Code: Certifique-se de que o VS Code use o ambiente Python do seu projeto:

Pressione Ctrl + P (ou Cmd + P no Mac).
Digite > Selecionar Interpretador Python e pressione Enter.
Escolha o interpretador do seu ambiente virtual (por exemplo, ./venv/bin/python). Isso garante que as dependências do CUA estejam disponíveis, evitando erros de “módulo não encontrado”.

3. Execute o Script: Certifique-se de que o Docker esteja rodando e a configuração do Claude Desktop esteja configurada. Com test.py aberto, clique no botão “Executar” no VS Code (triângulo no canto superior direito) ou, no terminal (com o ambiente virtual ativo):

python test.py

O servidor MCP CUA iniciará, Claude 3.7 processará a tarefa e um terminal se abrirá, executando ls. Eu obtive “Resultado: cua test.py venv” no meu Mac—bem legal! Se falhar, verifique o Docker, a chave da API e a porta 11434 (se estiver usando a alternativa Ollama). Consulte ~/Library/Logs/Claude/mcp*.log (Mac) para informações de depuração.

4. Teste no Claude Desktop: Abra o Claude Desktop, digite: “Abra um terminal e liste os conteúdos do diretório atual.” Claude usará o servidor MCP CUA para executar a tarefa, mostrando os resultados no chat. Meu teste listou meus arquivos de projeto instantaneamente!

Ferramentas CUA Disponíveis e Uso

O servidor MCP CUA expõe duas ferramentas poderosas para Claude 3.7:

run_cua_task: Executa uma única tarefa, como “Abra o Chrome e vá para github.com.”
run_multi_cua_tasks: Executa múltiplas tarefas em sequência, por exemplo, “Crie uma pasta chamada ‘Projetos’ na minha área de trabalho, e então a abra.”

Você pode usar essas ferramentas no Claude Desktop ou Cursor pedindo:

“Crie uma pasta chamada ‘Projetos’ na minha área de trabalho.”
“Encontre todos os PDFs na minha pasta de Downloads.”
“Tire uma captura de tela e destaque a mensagem de erro.”

Claude automaticamente roteia essas solicitações para o agente CUA, tornando a automação muito fácil.

Minhas Impressões sobre o CUA com Claude 3.7

Após testar o CUA com Claude 3.7, aqui está minha sensação:

Potência Local: Executar tudo no meu Mac mantém os dados privados—sem necessidade de nuvem.
Claude 3.7 brilha: Seu raciocínio torna tarefas como comandos de terminal pareçam sem esforço.
Dificuldades na Configuração: A configuração do Docker e da chave API exigiu um pouco de ajuste, mas o script de instalação economizou tempo.
Poder Sem Fim: Desde abrir aplicativos até gerenciar arquivos, o CUA parece um superpoder.

Se você encontrar problemas, verifique novamente o Docker e sua chave de API, e consulte os problemas do GitHub do CUA para soluções.

Dicas Profissionais para o Sucesso do CUA

Logs de Depuração: Verifique os logs do Claude (~/Library/Logs/Claude/mcp*.log) ou logs do Docker (docker logs) para erros.
Tente Novas Tarefas: Peça a Claude para “Abrir um navegador e ir para github.com” ou “Criar um arquivo chamado hello.txt” em test.py ou no aplicativo Desktop.
Otimize a Configuração: Defina CUA_MAX_IMAGES=5 na configuração para manter mais capturas de tela em contexto para tarefas como “Destacar um erro.”

Considerações Finais: Sua Aventura com CUA e Claude 3.7 Começa

Você conseguiu—configurou o servidor MCP CUA e liberou Claude 3.7 para controlar seu computador! Desde abrir um terminal até listar arquivos, você viu como o CUA faz a automação parecer mágica. Tente tarefas como abrir aplicativos ou organizar arquivos a seguir, e compartilhe seus sucessos. Qual é o seu próximo movimento? Um assistente de codificação CUA? Um bot de captura de tela? E para mais, confira o CUA GitHub, e boa automação!

button