Kiểm Tra Ứng Dụng LLM: Hướng Dẫn Toàn Diện về Promptfoo (2026)

Ashley Innocent

Ashley Innocent

19 tháng 3 2026

Kiểm Tra Ứng Dụng LLM: Hướng Dẫn Toàn Diện về Promptfoo (2026)

TL;DR

Promptfoo là một framework mã nguồn mở để đánh giá và kiểm thử an ninh (red-teaming) cho LLM, giúp các nhà phát triển kiểm tra ứng dụng AI một cách có hệ thống. Nó hỗ trợ hơn 90 nhà cung cấp mô hình, cung cấp hơn 67 plugin tấn công bảo mật và chạy hoàn toàn cục bộ để bảo vệ quyền riêng tư. Với 1,6 triệu lượt tải xuống trên npm và được sử dụng trong sản xuất tại các công ty phục vụ hơn 10 triệu người dùng, nó đã trở thành tiêu chuẩn cho việc kiểm thử LLM. Hãy bắt đầu với npm install -g promptfoopromptfoo init --example getting-started.

Giới thiệu

Bạn đã dành nhiều tuần để xây dựng chatbot hỗ trợ khách hàng do AI cung cấp. Nó trả lời các câu hỏi một cách hoàn hảo trong giai đoạn phát triển. Nhưng sau đó người dùng bắt đầu tìm cách khiến nó rò rỉ dữ liệu nhạy cảm, vượt qua các rào cản an toàn và đưa ra các phản hồi không nhất quán.

Kịch bản này diễn ra hàng ngày. Các nhóm phát hành ứng dụng LLM dựa trên cảm tính và kiểm thử thủ công, chỉ để rồi phát hiện ra các lỗ hổng và vấn đề chất lượng trong môi trường sản xuất. Chi phí khắc phục những vấn đề này sau khi ra mắt cao gấp 100 lần so với việc phát hiện chúng trong quá trình phát triển.

Promptfoo giải quyết vấn đề này bằng cách mang đến kiểm thử tự động, có hệ thống cho các ứng dụng LLM. Nó cho phép bạn đánh giá các prompt trên nhiều mô hình, chạy các đánh giá kiểm thử an ninh (red-team) và phát hiện các lỗi hồi quy trước khi chúng đến tay người dùng.

Tôi đã phân tích codebase của promptfoo (phiên bản 0.121.2) và kiểm thử các tính năng cốt lõi của nó để mang đến cho bạn hướng dẫn toàn diện này. Bạn sẽ học cách thiết lập các đánh giá, chạy quét bảo mật, tích hợp với CI/CD và tránh các lỗi thường gặp.

Cuối cùng, bạn sẽ có một bộ kiểm thử hoạt động cho ứng dụng LLM của mình và biết cách triển khai một cách tự tin.

💡
Nếu bạn làm việc với kiểm thử API hoặc cần xác thực hành vi API cùng với các kiểm thử LLM của mình, Apidog cung cấp một nền tảng thống nhất cho thiết kế, kiểm thử và tài liệu API. Bạn có thể sử dụng cả hai công cụ cùng nhau: promptfoo để đánh giá LLM và Apidog để xác thực lớp API.
tải ứng dụng

Promptfoo là gì và tại sao bạn cần nó

Promptfoo là một công cụ dòng lệnh và thư viện Node.js để đánh giá và kiểm thử an ninh (red-teaming) cho các ứng dụng LLM. Hãy nghĩ nó như một framework kiểm thử được xây dựng đặc biệt cho những đặc thù của quá trình phát triển AI.

hình ảnh

Các công cụ kiểm thử truyền thống thất bại với LLM vì đầu ra không xác định. Bạn không thể khẳng định khớp chuỗi chính xác khi cùng một prompt tạo ra các phản hồi khác nhau mỗi lần. Promptfoo giải quyết vấn đề này bằng cách:

Công cụ này chạy cục bộ trên máy của bạn. Các prompt và dữ liệu kiểm thử của bạn không bao giờ rời khỏi môi trường của bạn trừ khi bạn chọn sử dụng các tính năng đám mây. Thiết kế ưu tiên quyền riêng tư này làm cho nó phù hợp để kiểm thử với dữ liệu nhạy cảm.

Vấn đề mà Promptfoo giải quyết

Hầu hết các nhóm đều kiểm thử ứng dụng LLM một cách thủ công. Họ gửi một vài prompt, đọc đầu ra và quyết định xem mọi thứ có ổn không. Cách tiếp cận này có ba nhược điểm chí mạng:

  1. Không phát hiện hồi quy – Bạn không thể biết liệu bản cập nhật mô hình có làm hỏng chức năng hiện có hay không
  2. Khoảng trống bao phủ – Kiểm thử thủ công bỏ sót các trường hợp biên và các đầu vào đối địch
  3. Không có số liệu – Bạn không thể theo dõi sự cải thiện hoặc so sánh các mô hình một cách khách quan

Promptfoo thay thế điều này bằng các đánh giá tự động chạy trên mỗi thay đổi. Bạn định nghĩa các trường hợp kiểm thử một lần và thực thi chúng đối với bất kỳ mô hình nào. Kết quả bao gồm tỷ lệ pass/fail, so sánh chi phí và các số liệu về độ trễ.

Ai sử dụng Promptfoo

Dự án này có 1,6 triệu lượt tải xuống trên npm và cung cấp năng lượng cho các ứng dụng LLM phục vụ hơn 10 triệu người dùng cuối. Các công ty sử dụng nó cho:

Vào tháng 3 năm 2026, Promptfoo đã gia nhập OpenAI. Dự án vẫn là mã nguồn mở và được cấp phép MIT, với sự phát triển tiếp tục dưới quyền sở hữu mới.

Bắt đầu: Cài đặt và Chạy Đánh giá Đầu tiên của Bạn

Bạn có thể cài đặt promptfoo trên toàn hệ thống hoặc chạy nó mà không cần cài đặt bằng npx.

Cài đặt

# Cài đặt toàn cầu (khuyến nghị)
npm install -g promptfoo

# Hoặc chạy mà không cần cài đặt
npx promptfoo@latest

# Người dùng macOS cũng có thể sử dụng Homebrew
brew install promptfoo

# Người dùng Python cũng có thể sử dụng pip
pip install promptfoo

Đặt khóa API của bạn làm biến môi trường:

export OPENAI_API_KEY=sk-abc123
export ANTHROPIC_API_KEY=sk-ant-xxx

Tạo Đánh giá Đầu tiên của Bạn

Khởi tạo một dự án ví dụ:

promptfoo init --example getting-started
cd getting-started

Thao tác này tạo một tệp promptfooconfig.yaml với các prompt mẫu, nhà cung cấp và trường hợp kiểm thử.

Chạy đánh giá:

promptfoo eval

Xem kết quả trong giao diện web:

promptfoo view

Giao diện người dùng mở tại localhost:3000 và hiển thị so sánh song song các đầu ra từ mỗi mô hình, với trạng thái pass/fail cho mỗi khẳng định.

Hiểu tệp cấu hình

Tệp promptfooconfig.yaml định nghĩa bộ đánh giá của bạn:

description: "My First Eval Suite"

prompts:
  - prompts/greeting.txt
  - prompts/farewell.txt

providers:
  - openai:gpt-4o
  - anthropic:claude-sonnet-4-5

tests:
  - vars:
      input: "Hello"
    assert:
      - type: contains
        value: "Hi"
      - type: latency
        threshold: 3000

Bạn có thể mở rộng điều này lên hàng trăm trường hợp kiểm thử. Nhiều nhóm giữ các cấu hình đánh giá trong kiểm soát phiên bản và chạy chúng trong CI trên mỗi pull request.

Các tính năng cốt lõi: Promptfoo có thể làm gì

1. Đánh giá Tự động

Các đánh giá tự động là nền tảng của promptfoo. Bạn định nghĩa các trường hợp kiểm thử với kết quả mong đợi, và công cụ sẽ chạy chúng đối với các mô hình bạn đã chọn.

Các loại Khẳng định

Promptfoo bao gồm hơn 30 loại khẳng định tích hợp:

Khẳng định Mục đích
contains Đầu ra bao gồm một chuỗi con
equals Khớp chuỗi chính xác
regex Khớp với mẫu regex
json-schema Xác thực cấu trúc JSON
javascript Hàm JS tùy chỉnh trả về pass/fail
python Hàm Python tùy chỉnh
llm-rubric Sử dụng LLM để chấm điểm đầu ra
similar Điểm tương đồng ngữ nghĩa
latency Thời gian phản hồi dưới ngưỡng
cost Chi phí mỗi yêu cầu dưới ngưỡng

Ví dụ với nhiều khẳng định:

tests:
  - vars:
      question: "What is the capital of France?"
    assert:
      - type: contains
        value: "Paris"
      - type: javascript
        value: output.length < 100
      - type: latency
        threshold: 2000
      - type: cost
        threshold: 0.001

Kiểm thử này kiểm tra xem câu trả lời có đề cập đến Paris, có dưới 100 ký tự, phản hồi trong vòng dưới 2 giây và có chi phí dưới 0,001 USD hay không.

Đánh giá do LLM chấm điểm

Khẳng định llm-rubric sử dụng một LLM để chấm điểm đầu ra của một LLM khác. Điều này rất mạnh mẽ cho các tiêu chí chủ quan như giọng điệu hoặc tính hữu ích:

assert:
  - type: llm-rubric
    value: "Response should be helpful, harmless, and honest"

LLM chấm điểm đọc đầu ra và chấm điểm nó theo tiêu chí của bạn. Bạn có thể sử dụng một mô hình rẻ hơn để chấm điểm nhằm giảm chi phí.

2. Kiểm thử an ninh (Red Teaming) và Kiểm thử Bảo mật

Promptfoo bao gồm kiểm thử bảo mật toàn diện thông qua mô-đun red team của nó. Nó tự động tạo ra các đầu vào đối địch để dò tìm các lỗ hổng.

hình ảnh

Các Vector Tấn công được Hỗ trợ

Hệ thống red team bao gồm hơn 67 plugin được tổ chức theo danh mục:

Danh mục Nó kiểm thử điều gì
Prompt Injection Các cuộc tấn công injection trực tiếp, gián tiếp và theo ngữ cảnh
Jailbreaks DAN, chuyển đổi persona, vượt qua vai trò
Data Exfiltration SSRF, trích xuất prompt hệ thống, rò rỉ prompt
Harmful Content Ngôn ngữ kích động thù địch, hoạt động nguy hiểm, yêu cầu tự hại
Compliance Rò rỉ PII, vi phạm HIPAA, lộ dữ liệu tài chính
Audio/Visual Tấn công bằng cách chèn âm thanh và hình ảnh

Chạy quét Red Team

Khởi tạo cấu hình red team:

promptfoo redteam init

Chạy quét bảo mật:

promptfoo redteam run

Xem báo cáo:

promptfoo redteam report [directory]

Lệnh redteam run thực hiện hai bước:

  1. Tạo các đầu dò tấn công động được tùy chỉnh cho ứng dụng của bạn
  2. Đánh giá các đầu dò chống lại mục tiêu của bạn và chấm điểm các lỗ hổng

Kết quả bao gồm xếp hạng mức độ nghiêm trọng (Nghiêm trọng, Cao, Trung bình, Thấp), các trường hợp kiểm thử có thể bị khai thác và các khuyến nghị khắc phục.

Ví dụ về Đầu ra Red Team

Tóm tắt lỗ hổng:
- Nghiêm trọng: 2 (rò rỉ PII, trích xuất prompt)
- Cao: 5 (jailbreaks, tấn công injection)
- Trung bình: 12 (thiên vị, phản hồi không nhất quán)
- Thấp: 23 (vi phạm chính sách nhỏ)

Khắc phục các vấn đề nghiêm trọng trước khi triển khai. Chạy lại quét sau khi thay đổi để xác minh các bản sửa lỗi.

3. Quét mã cho Pull Request

Promptfoo tích hợp với GitHub Actions để quét các pull request tìm các vấn đề bảo mật liên quan đến LLM.

# .github/workflows/promptfoo-scan.yml
name: Promptfoo Code Scan
on: [pull_request]
jobs:
  scan:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
        with:
          node-version: '22'
      - run: npm install -g promptfoo
      - run: promptfoo eval -c promptfooconfig.yaml
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}

Điều này phát hiện:

4. So sánh Mô hình

So sánh đầu ra từ nhiều mô hình cạnh nhau để chọn mô hình tốt nhất cho trường hợp sử dụng của bạn.

# Chạy đánh giá với nhiều nhà cung cấp
promptfoo eval

# Xem so sánh trong giao diện web
promptfoo view

Giao diện web hiển thị:

Cách tiếp cận dựa trên dữ liệu này ngăn chặn sự thiên vị đối với các mô hình quen thuộc. Bạn có thể thấy rằng một mô hình rẻ hơn vượt trội hơn GPT-4 trong các đánh giá cụ thể của bạn.

Các Nhà cung cấp được Hỗ trợ: Hơn 90 Tích hợp LLM

Promptfoo hỗ trợ hơn 90 nhà cung cấp LLM sẵn có. Bạn có thể kiểm thử cùng một prompt trên OpenAI, Anthropic, Google, Amazon và các mô hình cục bộ mà không cần thay đổi mã của mình.

Các Nhà cung cấp Lớn

Nhà cung cấp Mô hình
OpenAI GPT-4, GPT-4o, GPT-4o-mini, o1, o3
Anthropic Claude 3.5/3.7/4.5/4.6, các mô hình Thinking
Google Gemini 1.5/2.0, Vertex AI
Microsoft Azure OpenAI, Phi
Amazon Bedrock (Claude, Llama, Titan)
Meta Llama 3, 3.1, 3.2 (qua nhiều nhà cung cấp)
Ollama Các mô hình cục bộ (Llama, Mistral, Phi)

Các Nhà cung cấp Tùy chỉnh

Bạn có thể viết các nhà cung cấp tùy chỉnh bằng Python hoặc JavaScript nếu mô hình của bạn không được hỗ trợ.

Ví dụ Python:

# custom_provider.py
from typing import Any

class CustomProvider:
    async def call_api(self, prompt: str, options: dict, context: dict) -> dict:
        response = await my_async_api.generate(prompt)
        return {
            "output": response.text,
            "tokenUsage": {
                "total": response.usage.total_tokens,
                "prompt": response.usage.prompt_tokens,
                "completion": response.usage.completion_tokens
            }
        }

Ví dụ JavaScript:

// customProvider.js
export default class CustomProvider {
  async callApi(prompt) {
    return {
      output: await myApi.generate(prompt),
      tokenUsage: { total: 50, prompt: 20, completion: 30 }
    };
  }
}

Đăng ký các nhà cung cấp tùy chỉnh trong cấu hình của bạn:

providers:
  - id: file://custom_provider.py
    config:
      api_key: ${MY_API_KEY}

Giao diện dòng lệnh: Các lệnh thiết yếu

CLI của Promptfoo cung cấp tất cả chức năng bạn cần cho các quy trình làm việc hàng ngày.

Các lệnh cốt lõi

# Chạy đánh giá
promptfoo eval -c promptfooconfig.yaml

# Mở giao diện web
promptfoo view

# Chia sẻ kết quả trực tuyến
promptfoo share

# Kiểm thử red team
promptfoo redteam init
promptfoo redteam run

# Cấu hình
promptfoo init
promptfoo validate [config]

# Quản lý kết quả
promptfoo list
promptfoo show <id>
promptfoo delete <id>
promptfoo export <id>

# Tiện ích
promptfoo cache clear
promptfoo retry <id>

Các cờ hữu ích

--no-cache              # Vô hiệu hóa bộ nhớ đệm để có kết quả mới nhất
--max-concurrency <n>   # Giới hạn các cuộc gọi API song song
--output <file>         # Ghi kết quả vào tệp JSON
--verbose               # Bật ghi nhật ký gỡ lỗi
--env-file <path>       # Tải biến môi trường từ tệp
--filter <pattern>      # Chạy các trường hợp kiểm thử cụ thể

Ví dụ: Chạy đánh giá với Cài đặt Tùy chỉnh

promptfoo eval \
  -c promptfooconfig.yaml \
  --no-cache \
  --max-concurrency 3 \
  --output results.json \
  --env-file .env

Thao tác này chạy các đánh giá mới (không sử dụng bộ nhớ đệm), giới hạn đồng thời ở 3 cuộc gọi song song, lưu kết quả vào JSON và tải khóa API từ .env.

Tích hợp CI/CD: Tự động hóa kiểm thử LLM

Tích hợp promptfoo vào pipeline CI/CD của bạn để phát hiện lỗi hồi quy trước khi triển khai.

Ví dụ GitHub Actions

name: LLM Tests
on: [push, pull_request]
jobs:
  eval:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
        with:
          node-version: '22'
      - run: npm install -g promptfoo
      - run: promptfoo eval -c promptfooconfig.yaml
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}

Cổng Chất lượng

Đặt ngưỡng pass/fail trong cấu hình của bạn:

commandLineOptions:
  threshold: 0.8  # Yêu cầu tỷ lệ pass 80%

Điều này sẽ làm CI thất bại nếu các đánh giá không đạt ngưỡng, ngăn chặn việc hợp nhất các lỗi hồi quy.

Bộ nhớ đệm trong CI

Bật bộ nhớ đệm để tăng tốc các lần chạy CI:

- uses: actions/cache@v4
  with:
    path: ~/.cache/promptfoo
    key: ${{ runner.os }}-promptfoo-${{ hashFiles('promptfooconfig.yaml') }}

Kết quả được lưu vào bộ nhớ đệm sẽ bỏ qua các cuộc gọi API cho các kiểm thử không thay đổi, giảm thời gian và chi phí CI.

Giao diện Web: Trực quan hóa và Chia sẻ Kết quả

Giao diện web tích hợp sẵn (promptfoo view) cung cấp một giao diện tương tác để xem xét các đánh giá.

Các tính năng

Truy cập và Bảo mật

Giao diện người dùng chạy trên localhost:3000 theo mặc định. Nó bao gồm bảo vệ CSRF bằng cách sử dụng các tiêu đề Sec-Fetch-SiteOrigin để chặn các yêu cầu liên trang từ các nguồn không đáng tin cậy.

Không để lộ máy chủ web cục bộ ra các mạng không đáng tin cậy. Để truy cập nhóm, hãy sử dụng lệnh promptfoo share để tải kết quả lên đám mây hoặc tự host với xác thực.

Cơ sở dữ liệu và Bộ nhớ đệm

Vị trí Bộ nhớ đệm

Bộ nhớ đệm lưu trữ kết quả đánh giá để tăng tốc các lần chạy lặp lại. Sử dụng --no-cache trong quá trình phát triển để đảm bảo kết quả mới nhất.

Vị trí Cơ sở dữ liệu

Cơ sở dữ liệu lưu trữ các lần chạy đánh giá lịch sử để so sánh và phân tích xu hướng. Đừng xóa tệp này trừ khi bạn muốn mất dữ liệu lịch sử.

Mô hình Bảo mật: Những gì bạn có thể tin cậy

Promptfoo hoạt động trên mô hình tin cậy theo cấu hình. Hiểu điều này giúp ngăn chặn các bất ngờ về bảo mật.

Đầu vào đáng tin cậy (Được xử lý như Mã)

Các đầu vào này được thực thi dưới dạng mã và chỉ nên đến từ các nguồn đáng tin cậy:

Đầu vào không đáng tin cậy (Chỉ dữ liệu)

Các đầu vào này được xử lý dưới dạng dữ liệu và không nên kích hoạt thực thi mã:

Các khuyến nghị tăng cường bảo mật

Đối với môi trường bảo mật cao:

  1. Chạy bên trong một container hoặc VM với các đặc quyền tối thiểu
  2. Sử dụng các khóa API dành riêng, có đặc quyền thấp nhất
  3. Tránh đặt bí mật trong các prompt hoặc tệp cấu hình
  4. Hạn chế thoát mạng cho mã của bên thứ ba
  5. Không để lộ máy chủ web cục bộ ra các mạng không đáng tin cậy

Hiệu suất: Tối ưu hóa các đánh giá của bạn

Các mẹo tối ưu hóa

  1. Sử dụng bộ nhớ đệm – Hành vi mặc định tăng tốc các lần chạy lặp lại
  2. Điều chỉnh đồng thời--max-concurrency cân bằng tốc độ với giới hạn tỷ lệ
  3. Lọc kiểm thử – Sử dụng --filter để chạy các trường hợp kiểm thử cụ thể trong quá trình phát triển
  4. Lấy mẫu tập dữ liệu – Sử dụng --repeat với các tập con để lặp lại trước khi chạy đầy đủ

Mở rộng cho các Đánh giá Lớn

Đối với các đánh giá quy mô lớn với hàng nghìn trường hợp kiểm thử:

Khả năng mở rộng: Xây dựng các tính năng tùy chỉnh

Khẳng định Tùy chỉnh

Viết các khẳng định tùy chỉnh cho các kiểm tra dành riêng cho lĩnh vực:

// assertions/customCheck.js
export default function customCheck(output, context) {
  const pass = output.includes('expected');
  return {
    pass,
    score: pass ? 1 : 0,
    reason: pass ? 'Output matched' : 'Missing expected content'
  };
}

Sử dụng trong cấu hình của bạn:

assert:
  - type: file://assertions/customCheck.js

Máy chủ MCP

Promptfoo bao gồm một máy chủ Giao thức Ngữ cảnh Mô hình (MCP) để tích hợp với các trợ lý AI như Claude Code:

promptfoo mcp

Điều này cho phép các tác nhân AI:

Các Trường hợp Sử dụng Thực tế

Chatbot Hỗ trợ Khách hàng

Một công ty SaaS sử dụng promptfoo để kiểm thử chatbot hỗ trợ của họ trước mỗi lần triển khai:

Kết quả: Giảm 90% các vấn đề do khách hàng báo cáo sau khi triển khai các đánh giá tự động.

Pipeline Tạo Nội dung

Một nhóm tiếp thị xác thực nội dung do AI tạo ra để phù hợp với giọng điệu thương hiệu:

Kết quả: Giọng điệu thương hiệu nhất quán trên tất cả nội dung với chi phí API thấp hơn 40%.

Ứng dụng Y tế

Một startup công nghệ y tế đảm bảo tuân thủ các kiểm thử nghiêm ngặt:

Kết quả: Đã vượt qua kiểm toán SOC 2 với các đánh giá promptfoo làm bằng chứng.

Kết luận

Promptfoo mang lại kiểm thử có hệ thống cho các ứng dụng LLM. Nó thay thế các quy trình thủ công, dễ gây lỗi bằng các đánh giá tự động giúp phát hiện lỗi hồi quy, vấn đề bảo mật và các vấn đề chất lượng trước khi triển khai.

Những điểm chính cần ghi nhớ:

Tương lai của phát triển AI là dựa trên dữ liệu. Với promptfoo, bạn có các công cụ để xây dựng, kiểm thử và bảo mật các ứng dụng LLM ở quy mô lớn.

tải ứng dụng

Nếu bạn cũng làm việc với API, hãy cân nhắc sử dụng Apidog cùng với promptfoo. Apidog xử lý thiết kế, kiểm thử và tài liệu API, trong khi promptfoo tập trung vào đánh giá LLM. Cùng nhau, chúng bao phủ toàn bộ stack kiểm thử ứng dụng hiện đại.

Câu hỏi thường gặp

Promptfoo được dùng để làm gì?

Promptfoo được sử dụng để kiểm thử và đánh giá các ứng dụng LLM. Nó chạy các kiểm thử tự động đối với các prompt, so sánh đầu ra giữa các mô hình và thực hiện các đánh giá kiểm thử an ninh (red-team) để tìm các lỗ hổng.

Promptfoo có miễn phí không?

Có, promptfoo là mã nguồn mở và được cấp phép MIT. Bạn có thể sử dụng nó miễn phí cho các dự án cá nhân và thương mại. Các tính năng đám mây và hỗ trợ doanh nghiệp có thể yêu cầu gói trả phí.

Làm thế nào để cài đặt promptfoo?

Chạy npm install -g promptfoo để cài đặt toàn cầu. Bạn cũng có thể sử dụng npx promptfoo@latest mà không cần cài đặt, hoặc cài đặt qua brew install promptfoo trên macOS hoặc pip install promptfoo cho Python.

Promptfoo hỗ trợ những mô hình nào?

Promptfoo hỗ trợ hơn 90 nhà cung cấp LLM bao gồm OpenAI (GPT-4, GPT-4o, o1), Anthropic (Claude 3.5/4/4.5), Google (Gemini), Microsoft (Azure OpenAI), Amazon Bedrock và các mô hình cục bộ qua Ollama.

Làm thế nào để chạy quét red team?

Chạy promptfoo redteam init để tạo cấu hình, sau đó promptfoo redteam run để thực hiện quét bảo mật. Xem kết quả bằng promptfoo redteam report.

Tôi có thể sử dụng promptfoo trong CI/CD không?

Có. Cài đặt promptfoo trong pipeline CI của bạn và chạy promptfoo eval với tệp cấu hình của bạn. Đặt cổng chất lượng bằng tùy chọn threshold để làm CI thất bại nếu các đánh giá không đạt tỷ lệ pass.

Promptfoo có gửi dữ liệu của tôi đến máy chủ bên ngoài không?

Không. Promptfoo chạy 100% cục bộ theo mặc định. Các prompt và dữ liệu kiểm thử của bạn không bao giờ rời khỏi máy của bạn trừ khi bạn rõ ràng chọn sử dụng các tính năng đám mây. Các tệp bộ nhớ đệm và cơ sở dữ liệu được lưu trữ cục bộ.

Làm thế nào để so sánh các mô hình với promptfoo?

Liệt kê nhiều nhà cung cấp trong tệp cấu hình của bạn, sau đó chạy promptfoo eval. Xem so sánh trong giao diện web bằng promptfoo view, hiển thị tỷ lệ pass/fail, chi phí và độ trễ cho mỗi mô hình.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API