Kiểm Tra Ứng Dụng LLM: Hướng Dẫn Toàn Diện về Promptfoo (2026)

TL;DR

Promptfoo là một framework mã nguồn mở để đánh giá và kiểm thử an ninh (red-teaming) cho LLM, giúp các nhà phát triển kiểm tra ứng dụng AI một cách có hệ thống. Nó hỗ trợ hơn 90 nhà cung cấp mô hình, cung cấp hơn 67 plugin tấn công bảo mật và chạy hoàn toàn cục bộ để bảo vệ quyền riêng tư. Với 1,6 triệu lượt tải xuống trên npm và được sử dụng trong sản xuất tại các công ty phục vụ hơn 10 triệu người dùng, nó đã trở thành tiêu chuẩn cho việc kiểm thử LLM. Hãy bắt đầu với npm install -g promptfoo và promptfoo init --example getting-started.

Giới thiệu

Bạn đã dành nhiều tuần để xây dựng chatbot hỗ trợ khách hàng do AI cung cấp. Nó trả lời các câu hỏi một cách hoàn hảo trong giai đoạn phát triển. Nhưng sau đó người dùng bắt đầu tìm cách khiến nó rò rỉ dữ liệu nhạy cảm, vượt qua các rào cản an toàn và đưa ra các phản hồi không nhất quán.

Kịch bản này diễn ra hàng ngày. Các nhóm phát hành ứng dụng LLM dựa trên cảm tính và kiểm thử thủ công, chỉ để rồi phát hiện ra các lỗ hổng và vấn đề chất lượng trong môi trường sản xuất. Chi phí khắc phục những vấn đề này sau khi ra mắt cao gấp 100 lần so với việc phát hiện chúng trong quá trình phát triển.

Promptfoo giải quyết vấn đề này bằng cách mang đến kiểm thử tự động, có hệ thống cho các ứng dụng LLM. Nó cho phép bạn đánh giá các prompt trên nhiều mô hình, chạy các đánh giá kiểm thử an ninh (red-team) và phát hiện các lỗi hồi quy trước khi chúng đến tay người dùng.

Tôi đã phân tích codebase của promptfoo (phiên bản 0.121.2) và kiểm thử các tính năng cốt lõi của nó để mang đến cho bạn hướng dẫn toàn diện này. Bạn sẽ học cách thiết lập các đánh giá, chạy quét bảo mật, tích hợp với CI/CD và tránh các lỗi thường gặp.

Cuối cùng, bạn sẽ có một bộ kiểm thử hoạt động cho ứng dụng LLM của mình và biết cách triển khai một cách tự tin.

💡

Nếu bạn làm việc với kiểm thử API hoặc cần xác thực hành vi API cùng với các kiểm thử LLM của mình, Apidog cung cấp một nền tảng thống nhất cho thiết kế, kiểm thử và tài liệu API. Bạn có thể sử dụng cả hai công cụ cùng nhau: promptfoo để đánh giá LLM và Apidog để xác thực lớp API.

tải ứng dụng

Promptfoo là gì và tại sao bạn cần nó

Promptfoo là một công cụ dòng lệnh và thư viện Node.js để đánh giá và kiểm thử an ninh (red-teaming) cho các ứng dụng LLM. Hãy nghĩ nó như một framework kiểm thử được xây dựng đặc biệt cho những đặc thù của quá trình phát triển AI.

Các công cụ kiểm thử truyền thống thất bại với LLM vì đầu ra không xác định. Bạn không thể khẳng định khớp chuỗi chính xác khi cùng một prompt tạo ra các phản hồi khác nhau mỗi lần. Promptfoo giải quyết vấn đề này bằng cách:

Các khẳng định ngữ nghĩa kiểm tra ý nghĩa thay vì văn bản chính xác
Các đánh giá do LLM chấm điểm, nơi một mô hình đánh giá đầu ra của mô hình khác
So sánh đa mô hình để kiểm thử cùng một prompt trên GPT-4, Claude và các mô hình khác
Các plugin bảo mật tự động dò tìm các lỗ hổng

Công cụ này chạy cục bộ trên máy của bạn. Các prompt và dữ liệu kiểm thử của bạn không bao giờ rời khỏi môi trường của bạn trừ khi bạn chọn sử dụng các tính năng đám mây. Thiết kế ưu tiên quyền riêng tư này làm cho nó phù hợp để kiểm thử với dữ liệu nhạy cảm.

Vấn đề mà Promptfoo giải quyết

Hầu hết các nhóm đều kiểm thử ứng dụng LLM một cách thủ công. Họ gửi một vài prompt, đọc đầu ra và quyết định xem mọi thứ có ổn không. Cách tiếp cận này có ba nhược điểm chí mạng:

Không phát hiện hồi quy – Bạn không thể biết liệu bản cập nhật mô hình có làm hỏng chức năng hiện có hay không
Khoảng trống bao phủ – Kiểm thử thủ công bỏ sót các trường hợp biên và các đầu vào đối địch
Không có số liệu – Bạn không thể theo dõi sự cải thiện hoặc so sánh các mô hình một cách khách quan

Promptfoo thay thế điều này bằng các đánh giá tự động chạy trên mỗi thay đổi. Bạn định nghĩa các trường hợp kiểm thử một lần và thực thi chúng đối với bất kỳ mô hình nào. Kết quả bao gồm tỷ lệ pass/fail, so sánh chi phí và các số liệu về độ trễ.

Ai sử dụng Promptfoo

Dự án này có 1,6 triệu lượt tải xuống trên npm và cung cấp năng lượng cho các ứng dụng LLM phục vụ hơn 10 triệu người dùng cuối. Các công ty sử dụng nó cho:

Chatbot hỗ trợ khách hàng cần phản hồi nhất quán, chính xác
Các pipeline tạo nội dung phải duy trì giọng điệu thương hiệu
Các ứng dụng y tế và fintech với các yêu cầu tuân thủ nghiêm ngặt
Các hệ thống nhạy cảm về bảo mật không thể rò rỉ dữ liệu hoặc chấp nhận đầu vào độc hại

Vào tháng 3 năm 2026, Promptfoo đã gia nhập OpenAI. Dự án vẫn là mã nguồn mở và được cấp phép MIT, với sự phát triển tiếp tục dưới quyền sở hữu mới.

Bắt đầu: Cài đặt và Chạy Đánh giá Đầu tiên của Bạn

Bạn có thể cài đặt promptfoo trên toàn hệ thống hoặc chạy nó mà không cần cài đặt bằng npx.

Cài đặt

# Cài đặt toàn cầu (khuyến nghị)
npm install -g promptfoo

# Hoặc chạy mà không cần cài đặt
npx promptfoo@latest

# Người dùng macOS cũng có thể sử dụng Homebrew
brew install promptfoo

# Người dùng Python cũng có thể sử dụng pip
pip install promptfoo

Đặt khóa API của bạn làm biến môi trường:

export OPENAI_API_KEY=sk-abc123
export ANTHROPIC_API_KEY=sk-ant-xxx

Tạo Đánh giá Đầu tiên của Bạn

Khởi tạo một dự án ví dụ:

promptfoo init --example getting-started
cd getting-started

Thao tác này tạo một tệp promptfooconfig.yaml với các prompt mẫu, nhà cung cấp và trường hợp kiểm thử.

Chạy đánh giá:

promptfoo eval

Xem kết quả trong giao diện web:

promptfoo view

Giao diện người dùng mở tại localhost:3000 và hiển thị so sánh song song các đầu ra từ mỗi mô hình, với trạng thái pass/fail cho mỗi khẳng định.

Hiểu tệp cấu hình

Tệp promptfooconfig.yaml định nghĩa bộ đánh giá của bạn:

description: "My First Eval Suite"

prompts:
  - prompts/greeting.txt
  - prompts/farewell.txt

providers:
  - openai:gpt-4o
  - anthropic:claude-sonnet-4-5

tests:
  - vars:
      input: "Hello"
    assert:
      - type: contains
        value: "Hi"
      - type: latency
        threshold: 3000

prompts: Các tệp hoặc văn bản nội tuyến để kiểm thử
providers: Các mô hình để đánh giá (hỗ trợ hơn 90 nhà cung cấp)
tests: Các trường hợp kiểm thử với biến và khẳng định

Bạn có thể mở rộng điều này lên hàng trăm trường hợp kiểm thử. Nhiều nhóm giữ các cấu hình đánh giá trong kiểm soát phiên bản và chạy chúng trong CI trên mỗi pull request.

Các tính năng cốt lõi: Promptfoo có thể làm gì

1. Đánh giá Tự động

Các đánh giá tự động là nền tảng của promptfoo. Bạn định nghĩa các trường hợp kiểm thử với kết quả mong đợi, và công cụ sẽ chạy chúng đối với các mô hình bạn đã chọn.

Các loại Khẳng định

Promptfoo bao gồm hơn 30 loại khẳng định tích hợp:

Khẳng định	Mục đích
`contains`	Đầu ra bao gồm một chuỗi con
`equals`	Khớp chuỗi chính xác
`regex`	Khớp với mẫu regex
`json-schema`	Xác thực cấu trúc JSON
`javascript`	Hàm JS tùy chỉnh trả về pass/fail
`python`	Hàm Python tùy chỉnh
`llm-rubric`	Sử dụng LLM để chấm điểm đầu ra
`similar`	Điểm tương đồng ngữ nghĩa
`latency`	Thời gian phản hồi dưới ngưỡng
`cost`	Chi phí mỗi yêu cầu dưới ngưỡng

Ví dụ với nhiều khẳng định:

tests:
  - vars:
      question: "What is the capital of France?"
    assert:
      - type: contains
        value: "Paris"
      - type: javascript
        value: output.length < 100
      - type: latency
        threshold: 2000
      - type: cost
        threshold: 0.001

Kiểm thử này kiểm tra xem câu trả lời có đề cập đến Paris, có dưới 100 ký tự, phản hồi trong vòng dưới 2 giây và có chi phí dưới 0,001 USD hay không.

Đánh giá do LLM chấm điểm

Khẳng định llm-rubric sử dụng một LLM để chấm điểm đầu ra của một LLM khác. Điều này rất mạnh mẽ cho các tiêu chí chủ quan như giọng điệu hoặc tính hữu ích:

assert:
  - type: llm-rubric
    value: "Response should be helpful, harmless, and honest"

LLM chấm điểm đọc đầu ra và chấm điểm nó theo tiêu chí của bạn. Bạn có thể sử dụng một mô hình rẻ hơn để chấm điểm nhằm giảm chi phí.

2. Kiểm thử an ninh (Red Teaming) và Kiểm thử Bảo mật

Promptfoo bao gồm kiểm thử bảo mật toàn diện thông qua mô-đun red team của nó. Nó tự động tạo ra các đầu vào đối địch để dò tìm các lỗ hổng.

Các Vector Tấn công được Hỗ trợ

Hệ thống red team bao gồm hơn 67 plugin được tổ chức theo danh mục:

Danh mục	Nó kiểm thử điều gì
Prompt Injection	Các cuộc tấn công injection trực tiếp, gián tiếp và theo ngữ cảnh
Jailbreaks	DAN, chuyển đổi persona, vượt qua vai trò
Data Exfiltration	SSRF, trích xuất prompt hệ thống, rò rỉ prompt
Harmful Content	Ngôn ngữ kích động thù địch, hoạt động nguy hiểm, yêu cầu tự hại
Compliance	Rò rỉ PII, vi phạm HIPAA, lộ dữ liệu tài chính
Audio/Visual	Tấn công bằng cách chèn âm thanh và hình ảnh

Chạy quét Red Team

Khởi tạo cấu hình red team:

promptfoo redteam init

Chạy quét bảo mật:

promptfoo redteam run

Xem báo cáo:

promptfoo redteam report [directory]

Lệnh redteam run thực hiện hai bước:

Tạo các đầu dò tấn công động được tùy chỉnh cho ứng dụng của bạn
Đánh giá các đầu dò chống lại mục tiêu của bạn và chấm điểm các lỗ hổng

Kết quả bao gồm xếp hạng mức độ nghiêm trọng (Nghiêm trọng, Cao, Trung bình, Thấp), các trường hợp kiểm thử có thể bị khai thác và các khuyến nghị khắc phục.

Ví dụ về Đầu ra Red Team

Tóm tắt lỗ hổng:
- Nghiêm trọng: 2 (rò rỉ PII, trích xuất prompt)
- Cao: 5 (jailbreaks, tấn công injection)
- Trung bình: 12 (thiên vị, phản hồi không nhất quán)
- Thấp: 23 (vi phạm chính sách nhỏ)

Khắc phục các vấn đề nghiêm trọng trước khi triển khai. Chạy lại quét sau khi thay đổi để xác minh các bản sửa lỗi.

3. Quét mã cho Pull Request

Promptfoo tích hợp với GitHub Actions để quét các pull request tìm các vấn đề bảo mật liên quan đến LLM.

# .github/workflows/promptfoo-scan.yml
name: Promptfoo Code Scan
on: [pull_request]
jobs:
  scan:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
        with:
          node-version: '22'
      - run: npm install -g promptfoo
      - run: promptfoo eval -c promptfooconfig.yaml
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}

Điều này phát hiện:

Khóa API được mã hóa cứng trong các tệp cấu hình
Các mẫu prompt không an toàn
Thiếu xác thực đầu vào
Các vector prompt injection tiềm năng

4. So sánh Mô hình

So sánh đầu ra từ nhiều mô hình cạnh nhau để chọn mô hình tốt nhất cho trường hợp sử dụng của bạn.

# Chạy đánh giá với nhiều nhà cung cấp
promptfoo eval

# Xem so sánh trong giao diện web
promptfoo view

Giao diện web hiển thị:

Tỷ lệ pass/fail cho mỗi mô hình
Chi phí trên 1000 yêu cầu
Độ trễ trung bình
Sự khác biệt đầu ra định tính

Cách tiếp cận dựa trên dữ liệu này ngăn chặn sự thiên vị đối với các mô hình quen thuộc. Bạn có thể thấy rằng một mô hình rẻ hơn vượt trội hơn GPT-4 trong các đánh giá cụ thể của bạn.

Các Nhà cung cấp được Hỗ trợ: Hơn 90 Tích hợp LLM

Promptfoo hỗ trợ hơn 90 nhà cung cấp LLM sẵn có. Bạn có thể kiểm thử cùng một prompt trên OpenAI, Anthropic, Google, Amazon và các mô hình cục bộ mà không cần thay đổi mã của mình.

Các Nhà cung cấp Lớn

Nhà cung cấp	Mô hình
OpenAI	GPT-4, GPT-4o, GPT-4o-mini, o1, o3
Anthropic	Claude 3.5/3.7/4.5/4.6, các mô hình Thinking
Google	Gemini 1.5/2.0, Vertex AI
Microsoft	Azure OpenAI, Phi
Amazon	Bedrock (Claude, Llama, Titan)
Meta	Llama 3, 3.1, 3.2 (qua nhiều nhà cung cấp)
Ollama	Các mô hình cục bộ (Llama, Mistral, Phi)

Các Nhà cung cấp Tùy chỉnh

Bạn có thể viết các nhà cung cấp tùy chỉnh bằng Python hoặc JavaScript nếu mô hình của bạn không được hỗ trợ.

Ví dụ Python:

# custom_provider.py
from typing import Any

class CustomProvider:
    async def call_api(self, prompt: str, options: dict, context: dict) -> dict:
        response = await my_async_api.generate(prompt)
        return {
            "output": response.text,
            "tokenUsage": {
                "total": response.usage.total_tokens,
                "prompt": response.usage.prompt_tokens,
                "completion": response.usage.completion_tokens
            }
        }

Ví dụ JavaScript:

// customProvider.js
export default class CustomProvider {
  async callApi(prompt) {
    return {
      output: await myApi.generate(prompt),
      tokenUsage: { total: 50, prompt: 20, completion: 30 }
    };
  }
}

Đăng ký các nhà cung cấp tùy chỉnh trong cấu hình của bạn:

providers:
  - id: file://custom_provider.py
    config:
      api_key: ${MY_API_KEY}

Giao diện dòng lệnh: Các lệnh thiết yếu

CLI của Promptfoo cung cấp tất cả chức năng bạn cần cho các quy trình làm việc hàng ngày.

Các lệnh cốt lõi

# Chạy đánh giá
promptfoo eval -c promptfooconfig.yaml

# Mở giao diện web
promptfoo view

# Chia sẻ kết quả trực tuyến
promptfoo share

# Kiểm thử red team
promptfoo redteam init
promptfoo redteam run

# Cấu hình
promptfoo init
promptfoo validate [config]

# Quản lý kết quả
promptfoo list
promptfoo show <id>
promptfoo delete <id>
promptfoo export <id>

# Tiện ích
promptfoo cache clear
promptfoo retry <id>

Các cờ hữu ích

--no-cache              # Vô hiệu hóa bộ nhớ đệm để có kết quả mới nhất
--max-concurrency <n>   # Giới hạn các cuộc gọi API song song
--output <file>         # Ghi kết quả vào tệp JSON
--verbose               # Bật ghi nhật ký gỡ lỗi
--env-file <path>       # Tải biến môi trường từ tệp
--filter <pattern>      # Chạy các trường hợp kiểm thử cụ thể

Ví dụ: Chạy đánh giá với Cài đặt Tùy chỉnh

promptfoo eval \
  -c promptfooconfig.yaml \
  --no-cache \
  --max-concurrency 3 \
  --output results.json \
  --env-file .env

Thao tác này chạy các đánh giá mới (không sử dụng bộ nhớ đệm), giới hạn đồng thời ở 3 cuộc gọi song song, lưu kết quả vào JSON và tải khóa API từ .env.

Tích hợp CI/CD: Tự động hóa kiểm thử LLM

Tích hợp promptfoo vào pipeline CI/CD của bạn để phát hiện lỗi hồi quy trước khi triển khai.

Ví dụ GitHub Actions

name: LLM Tests
on: [push, pull_request]
jobs:
  eval:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
        with:
          node-version: '22'
      - run: npm install -g promptfoo
      - run: promptfoo eval -c promptfooconfig.yaml
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}

Cổng Chất lượng

Đặt ngưỡng pass/fail trong cấu hình của bạn:

commandLineOptions:
  threshold: 0.8  # Yêu cầu tỷ lệ pass 80%

Điều này sẽ làm CI thất bại nếu các đánh giá không đạt ngưỡng, ngăn chặn việc hợp nhất các lỗi hồi quy.

Bộ nhớ đệm trong CI

Bật bộ nhớ đệm để tăng tốc các lần chạy CI:

- uses: actions/cache@v4
  with:
    path: ~/.cache/promptfoo
    key: ${{ runner.os }}-promptfoo-${{ hashFiles('promptfooconfig.yaml') }}

Kết quả được lưu vào bộ nhớ đệm sẽ bỏ qua các cuộc gọi API cho các kiểm thử không thay đổi, giảm thời gian và chi phí CI.

Giao diện Web: Trực quan hóa và Chia sẻ Kết quả

Giao diện web tích hợp sẵn (promptfoo view) cung cấp một giao diện tương tác để xem xét các đánh giá.

Các tính năng

Ma trận đánh giá – So sánh các đầu ra cạnh nhau
Lọc – Tìm các trường hợp kiểm thử cụ thể theo trạng thái hoặc nhà cung cấp
Chế độ xem khác biệt – Xem chính xác những gì đã thay đổi giữa các lần chạy
Chia sẻ – Tạo liên kết có thể chia sẻ để nhóm xem xét
Cập nhật thời gian thực – Theo dõi các đánh giá chạy trực tiếp

Truy cập và Bảo mật

Giao diện người dùng chạy trên localhost:3000 theo mặc định. Nó bao gồm bảo vệ CSRF bằng cách sử dụng các tiêu đề Sec-Fetch-Site và Origin để chặn các yêu cầu liên trang từ các nguồn không đáng tin cậy.

Không để lộ máy chủ web cục bộ ra các mạng không đáng tin cậy. Để truy cập nhóm, hãy sử dụng lệnh promptfoo share để tải kết quả lên đám mây hoặc tự host với xác thực.

Cơ sở dữ liệu và Bộ nhớ đệm

Vị trí Bộ nhớ đệm

macOS/Linux: ~/.cache/promptfoo
Windows: %LOCALAPPDATA%\promptfoo

Bộ nhớ đệm lưu trữ kết quả đánh giá để tăng tốc các lần chạy lặp lại. Sử dụng --no-cache trong quá trình phát triển để đảm bảo kết quả mới nhất.

Vị trí Cơ sở dữ liệu

Tất cả các nền tảng: ~/.promptfoo/promptfoo.db (SQLite)

Cơ sở dữ liệu lưu trữ các lần chạy đánh giá lịch sử để so sánh và phân tích xu hướng. Đừng xóa tệp này trừ khi bạn muốn mất dữ liệu lịch sử.

Mô hình Bảo mật: Những gì bạn có thể tin cậy

Promptfoo hoạt động trên mô hình tin cậy theo cấu hình. Hiểu điều này giúp ngăn chặn các bất ngờ về bảo mật.

Đầu vào đáng tin cậy (Được xử lý như Mã)

Các đầu vào này được thực thi dưới dạng mã và chỉ nên đến từ các nguồn đáng tin cậy:

Các tệp cấu hình (promptfooconfig.yaml)
Các khẳng định JavaScript/Python/Ruby tùy chỉnh
Cấu hình nhà cung cấp
Các hàm biến đổi

Đầu vào không đáng tin cậy (Chỉ dữ liệu)

Các đầu vào này được xử lý dưới dạng dữ liệu và không nên kích hoạt thực thi mã:

Văn bản prompt
Các biến trường hợp kiểm thử
Đầu ra của mô hình
Nội dung từ xa được tìm nạp trong quá trình đánh giá

Các khuyến nghị tăng cường bảo mật

Đối với môi trường bảo mật cao:

Chạy bên trong một container hoặc VM với các đặc quyền tối thiểu
Sử dụng các khóa API dành riêng, có đặc quyền thấp nhất
Tránh đặt bí mật trong các prompt hoặc tệp cấu hình
Hạn chế thoát mạng cho mã của bên thứ ba
Không để lộ máy chủ web cục bộ ra các mạng không đáng tin cậy

Hiệu suất: Tối ưu hóa các đánh giá của bạn

Các mẹo tối ưu hóa

Sử dụng bộ nhớ đệm – Hành vi mặc định tăng tốc các lần chạy lặp lại
Điều chỉnh đồng thời – --max-concurrency cân bằng tốc độ với giới hạn tỷ lệ
Lọc kiểm thử – Sử dụng --filter để chạy các trường hợp kiểm thử cụ thể trong quá trình phát triển
Lấy mẫu tập dữ liệu – Sử dụng --repeat với các tập con để lặp lại trước khi chạy đầy đủ

Mở rộng cho các Đánh giá Lớn

Đối với các đánh giá quy mô lớn với hàng nghìn trường hợp kiểm thử:

Sử dụng trình lập lịch (src/scheduler/) cho các lần chạy phân tán
Tận dụng tính năng tạo từ xa để giảm tải tính toán
Xuất kết quả sang Google Sheets để cả nhóm dễ dàng xem

Khả năng mở rộng: Xây dựng các tính năng tùy chỉnh

Khẳng định Tùy chỉnh

Viết các khẳng định tùy chỉnh cho các kiểm tra dành riêng cho lĩnh vực:

// assertions/customCheck.js
export default function customCheck(output, context) {
  const pass = output.includes('expected');
  return {
    pass,
    score: pass ? 1 : 0,
    reason: pass ? 'Output matched' : 'Missing expected content'
  };
}

Sử dụng trong cấu hình của bạn:

assert:
  - type: file://assertions/customCheck.js

Máy chủ MCP

Promptfoo bao gồm một máy chủ Giao thức Ngữ cảnh Mô hình (MCP) để tích hợp với các trợ lý AI như Claude Code:

promptfoo mcp

Điều này cho phép các tác nhân AI:

Chạy đánh giá trực tiếp từ trò chuyện
Truy cập các khả năng của red team
Truy vấn kết quả đã lưu trữ
Tạo các trường hợp kiểm thử mới

Các Trường hợp Sử dụng Thực tế

Chatbot Hỗ trợ Khách hàng

Một công ty SaaS sử dụng promptfoo để kiểm thử chatbot hỗ trợ của họ trước mỗi lần triển khai:

500 trường hợp kiểm thử bao gồm các câu hỏi phổ biến
Đánh giá trên GPT-4 và Claude để so sánh chất lượng
Quét red team tìm rò rỉ PII và jailbreaks
Tích hợp CI chặn triển khai nếu có đánh giá thất bại

Kết quả: Giảm 90% các vấn đề do khách hàng báo cáo sau khi triển khai các đánh giá tự động.

Pipeline Tạo Nội dung

Một nhóm tiếp thị xác thực nội dung do AI tạo ra để phù hợp với giọng điệu thương hiệu:

Các đánh giá do LLM chấm điểm kiểm tra giọng điệu và phong cách
Ngưỡng độ trễ đảm bảo tạo nhanh chóng
Giám sát chi phí giúp kiểm soát chi phí
So sánh mô hình tìm ra nhà cung cấp có giá trị tốt nhất

Kết quả: Giọng điệu thương hiệu nhất quán trên tất cả nội dung với chi phí API thấp hơn 40%.

Ứng dụng Y tế

Một startup công nghệ y tế đảm bảo tuân thủ các kiểm thử nghiêm ngặt:

Quét red team tìm vi phạm HIPAA
Các khẳng định tùy chỉnh xác thực độ chính xác y tế
Tất cả các đánh giá chạy cục bộ để bảo vệ quyền riêng tư dữ liệu
Dấu vết kiểm toán cho các yêu cầu quy định

Kết quả: Đã vượt qua kiểm toán SOC 2 với các đánh giá promptfoo làm bằng chứng.

Kết luận

Promptfoo mang lại kiểm thử có hệ thống cho các ứng dụng LLM. Nó thay thế các quy trình thủ công, dễ gây lỗi bằng các đánh giá tự động giúp phát hiện lỗi hồi quy, vấn đề bảo mật và các vấn đề chất lượng trước khi triển khai.

Những điểm chính cần ghi nhớ:

Cài đặt bằng npm install -g promptfoo và bắt đầu với promptfoo init
Sử dụng các khẳng định để xác thực đầu ra vượt ra ngoài khớp chuỗi chính xác
Chạy quét red team để tìm các lỗ hổng bảo mật
Tích hợp với CI/CD để chặn lỗi hồi quy
So sánh các mô hình một cách khách quan với các đánh giá song song
Các nhà cung cấp và khẳng định tùy chỉnh mở rộng chức năng

Tương lai của phát triển AI là dựa trên dữ liệu. Với promptfoo, bạn có các công cụ để xây dựng, kiểm thử và bảo mật các ứng dụng LLM ở quy mô lớn.

tải ứng dụng

Nếu bạn cũng làm việc với API, hãy cân nhắc sử dụng Apidog cùng với promptfoo. Apidog xử lý thiết kế, kiểm thử và tài liệu API, trong khi promptfoo tập trung vào đánh giá LLM. Cùng nhau, chúng bao phủ toàn bộ stack kiểm thử ứng dụng hiện đại.

Câu hỏi thường gặp

Promptfoo được dùng để làm gì?

Promptfoo được sử dụng để kiểm thử và đánh giá các ứng dụng LLM. Nó chạy các kiểm thử tự động đối với các prompt, so sánh đầu ra giữa các mô hình và thực hiện các đánh giá kiểm thử an ninh (red-team) để tìm các lỗ hổng.

Promptfoo có miễn phí không?

Có, promptfoo là mã nguồn mở và được cấp phép MIT. Bạn có thể sử dụng nó miễn phí cho các dự án cá nhân và thương mại. Các tính năng đám mây và hỗ trợ doanh nghiệp có thể yêu cầu gói trả phí.

Làm thế nào để cài đặt promptfoo?

Chạy npm install -g promptfoo để cài đặt toàn cầu. Bạn cũng có thể sử dụng npx promptfoo@latest mà không cần cài đặt, hoặc cài đặt qua brew install promptfoo trên macOS hoặc pip install promptfoo cho Python.

Promptfoo hỗ trợ những mô hình nào?

Promptfoo hỗ trợ hơn 90 nhà cung cấp LLM bao gồm OpenAI (GPT-4, GPT-4o, o1), Anthropic (Claude 3.5/4/4.5), Google (Gemini), Microsoft (Azure OpenAI), Amazon Bedrock và các mô hình cục bộ qua Ollama.

Làm thế nào để chạy quét red team?

Chạy promptfoo redteam init để tạo cấu hình, sau đó promptfoo redteam run để thực hiện quét bảo mật. Xem kết quả bằng promptfoo redteam report.

Tôi có thể sử dụng promptfoo trong CI/CD không?

Có. Cài đặt promptfoo trong pipeline CI của bạn và chạy promptfoo eval với tệp cấu hình của bạn. Đặt cổng chất lượng bằng tùy chọn threshold để làm CI thất bại nếu các đánh giá không đạt tỷ lệ pass.

Promptfoo có gửi dữ liệu của tôi đến máy chủ bên ngoài không?

Không. Promptfoo chạy 100% cục bộ theo mặc định. Các prompt và dữ liệu kiểm thử của bạn không bao giờ rời khỏi máy của bạn trừ khi bạn rõ ràng chọn sử dụng các tính năng đám mây. Các tệp bộ nhớ đệm và cơ sở dữ liệu được lưu trữ cục bộ.

Làm thế nào để so sánh các mô hình với promptfoo?

Liệt kê nhiều nhà cung cấp trong tệp cấu hình của bạn, sau đó chạy promptfoo eval. Xem so sánh trong giao diện web bằng promptfoo view, hiển thị tỷ lệ pass/fail, chi phí và độ trễ cho mỗi mô hình.