Chạy các mô hình AI tiên tiến tại chỗ mang đến cho các nhà phát triển và những người đam mê công nghệ sự kiểm soát, quyền riêng tư và tùy chỉnh chưa từng có. Nếu bạn muốn tận dụng sức mạnh của trí tuệ nhân tạo tiên tiến trên máy của mình, Mistral Small 3.1, kết hợp với Ollama, cung cấp một giải pháp tuyệt vời. Mistral Small 3.1 là một mô hình ngôn ngữ tiên tiến được phát triển bởi Mistral AI, với 24 tỷ tham số và hiệu suất hàng đầu trong lớp trọng lượng của nó. Trong khi đó, Ollama đơn giản hóa quy trình triển khai các mô hình ngôn ngữ lớn (LLMs) tại chỗ, giúp nó trở nên khả thi ngay cả với những người có thiết lập kỹ thuật khiêm tốn. Trong hướng dẫn toàn diện này, chúng tôi sẽ hướng dẫn bạn từng bước để đưa Mistral Small 3.1 vào hoạt động trên hệ thống của bạn bằng cách sử dụng Ollama. Thêm vào đó, chúng tôi sẽ chỉ cho bạn cách nâng cao trải nghiệm của bạn bằng cách tích hợp Apidog, một công cụ mạnh mẽ cho phát triển và thử nghiệm API.

Tại sao lại làm ở chỗ? Bằng cách chạy Mistral Small 3.1 trên máy của bạn, bạn giữ dữ liệu của mình riêng tư, tránh chi phí đám mây và có được sự linh hoạt để điều chỉnh mô hình cho nhu cầu của bạn, dù đó là xây dựng một chatbot, tạo mã hay xử lý văn bản đa ngôn ngữ.
Tại sao chọn Mistral Small 3.1 và Ollama?
Trước khi bắt đầu thiết lập, hãy cùng khám phá lý do tại sao Mistral Small 3.1 và Ollama lại là một cặp đôi hấp dẫn như vậy. Mistral Small 3.1, được phát hành dưới giấy phép mã nguồn mở Apache 2.0, cung cấp hiệu suất tuyệt vời cho kích thước của nó. Với một cửa sổ ngữ cảnh 128k-token, nó xử lý các cuộc trò chuyện dài hoặc tài liệu một cách dễ dàng. Nó cũng hỗ trợ nhiều ngôn ngữ và đầu vào đa phương thức, làm cho nó linh hoạt cho các tác vụ như tạo văn bản, dịch thuật hoặc phân tích chú thích hình ảnh. Các nhà phát triển yêu thích hiệu quả của nó, vì nó cạnh tranh với các mô hình lớn hơn trong khi chạy trên phần cứng tương đối khiêm tốn.

Ollama, ngược lại, là một công cụ nhẹ nhàng được thiết kế để chạy LLMs tại chỗ. Nó trừu tượng hóa đi phần lớn sự phức tạp, nghĩ đến việc quản lý phụ thuộc hoặc cấu hình GPU, để bạn có thể tập trung vào việc sử dụng mô hình chứ không phải vật lộn với những rào cản cài đặt. Cùng nhau, Mistral Small 3.1 và Ollama trao quyền cho bạn triển khai một mô hình AI hiệu suất cao mà không phụ thuộc vào các dịch vụ đám mây.
Cài đặt Ollama trên máy của bạn
Ollama đơn giản hóa việc chạy LLMs tại chỗ, và cài đặt nó rất dễ dàng. Hãy làm theo các bước sau để thiết lập:
Cài đặt Ollama: Tải nó từ trang web chính thức của Ollama và làm theo hướng dẫn.

Xác nhận Cài đặt: Xác nhận Ollama đã được cài đặt đúng cách bằng cách kiểm tra phiên bản của nó:
ollama --version

Bạn sẽ thấy một số phiên bản (ví dụ: 0.1.x
). Nếu không, hãy kiểm tra lại để đảm bảo rằng PATH của bạn bao gồm nhị phân của Ollama.
Sau khi cài đặt Ollama, bạn đã gần đạt được việc chạy Mistral Small 3.1. Tiếp theo, bạn cần tải mô hình.
Tải trọng số mô hình Mistral Small 3.1
Mở terminal của bạn và nhập:
ollama pull cnjack/mistral-samll-3.1
Điều này tải trọng số mô hình vào bộ nhớ cục bộ của bạn (một phiên bản cộng đồng của Mistral Small 3.1). Liên kết: https://ollama.com/cnjack/mistral-samll-3.1
Tùy thuộc vào tốc độ internet của bạn, điều này có thể mất từ 15-30 phút do kích thước tệp lớn hơn 50GB.
Xác nhận Tải xuống: Chạy lại ollama list
. Bạn nên thấy mistral-small-3.1
được liệt kê, cho thấy nó đã sẵn sàng để sử dụng.
Bây giờ bạn đã có mô hình, hãy tải nó vào Ollama và bắt đầu khám phá khả năng của nó.
Tải Mistral Small 3.1 vào Ollama
Tải mô hình chuẩn bị cho việc suy diễn. Ollama xử lý công việc nặng, vì vậy bước này rất nhanh:
- Tải mô hình: Thực hiện lệnh này để tải Mistral Small 3.1 vào bộ nhớ:
ollama run cnjack/mistral-samll-3.1:24b-it-q4_K_S
Lần đầu tiên bạn chạy lệnh này, Ollama khởi tạo mô hình, điều này có thể mất vài phút tùy thuộc vào phần cứng của bạn. Các lần chạy sau sẽ nhanh hơn.
- Thử nghiệm: Khi đã tải, Ollama sẽ đưa bạn vào một giao diện tương tác. Nhập một truy vấn đơn giản:
Xin chào, Mistral Small 3.1 hoạt động như thế nào?
Mô hình sẽ trả lời trực tiếp trong terminal, thể hiện sự khéo léo trong việc tạo văn bản của nó.
Vào thời điểm này, Mistral Small 3.1 đã hoạt động. Tuy nhiên, để mở khóa đầy đủ tiềm năng của nó, đặc biệt là cho truy cập lập trình, hãy cùng khám phá cách tương tác với nó hơn nữa.
Tương tác với Mistral Small 3.1 tại chỗ
Bạn có thể tương tác với Mistral Small 3.1 theo hai cách chính: suy diễn qua dòng lệnh trực tiếp hoặc thông qua một máy chủ API. Cả hai phương pháp đều tận dụng sự linh hoạt của Ollama, và chúng tôi sẽ tích hợp Apidog cho phương pháp API.
Phương pháp 1: Suy diễn trực tiếp qua dòng lệnh
Để kiểm tra nhanh hoặc tạo một lần, hãy sử dụng lệnh run
của Ollama với một thông điệp:
ollama run cnjack/mistral-samll-3.1:24b-it-q4_K_S "Viết một bài thơ ngắn về AI."
Mô hình sẽ xử lý đầu vào và xuất ra một phản hồi, chẳng hạn như:
Những bộ óc nhân tạo trong các mạch sâu,
Học hỏi các mẫu trong khi chúng ta ngủ,
Giọng nói của mã, chúng thì thầm nhẹ nhàng,
Một tương lai tươi sáng, những suy nghĩ của chúng ta giữ lại.
Phương pháp này phù hợp cho việc thử nghiệm nhưng thiếu khả năng mở rộng. Đối với các ứng dụng mạnh mẽ hơn, hãy thiết lập một máy chủ API.
Phương pháp 2: Chạy Mistral Small 3.1 như một máy chủ API
Để tích hợp Mistral Small 3.1 vào các dự án hoặc thử nghiệm nó có hệ thống, hãy chạy nó như một máy chủ API cục bộ:
- Bắt đầu máy chủ: Khởi động Ollama ở chế độ máy chủ:
ollama serve
Điều này khởi động một API REST trên http://localhost:11434
(cổng mặc định của Ollama). Giữ cho điều này hoạt động trong một terminal.
- Kiểm tra API: Trong một terminal mới, sử dụng
curl
để gửi một yêu cầu:
curl http://localhost:11434/api/generate -d '{"model": "mistral-small-3.1", "prompt": "Giải thích AI trong một câu."}'
Phản hồi có thể trông như:
{
"response": "AI là sự mô phỏng trí thông minh của con người bởi các máy móc, cho phép chúng học hỏi, lý luận và thực hiện các nhiệm vụ một cách tự động."
}
Bộ thiết lập API này mở ra cánh cửa cho các tương tác nâng cao, nơi Apidog tỏa sáng.
Sử dụng Apidog để tương tác với API của Mistral Small 3.1
Apidog đơn giản hóa việc thử nghiệm và phát triển API, làm cho nó hoàn hảo để truy vấn máy chủ Mistral Small 3.1 cục bộ của bạn. Đây là cách thiết lập:
Cài đặt Apidog:
- Truy cập trang web Apidog và tải ứng dụng máy tính miễn phí cho hệ điều hành của bạn.
- Cài đặt nó theo hướng dẫn trên màn hình.
Tạo một Dự án Mới:
- Mở Apidog và nhấn "Dự án Mới."
- Đặt tên cho nó là “Mistral Small 3.1 Local API.”

Thêm một Yêu cầu API:
- Nhấp vào “Yêu cầu Mới” và thiết lập phương thức là
POST
. - Nhập điểm cuối:
http://localhost:11434/api/generate
.

Cấu hình nội dung Yêu cầu:
- Chuyển sang tab “Nội dung,” chọn “JSON,” và nhập:
{
"model": "mistral-small-3.1",
"prompt": "Tạo một đoạn mã Python để in 'Hello, AI!'",
"stream": false
}

Gửi và Xem xét:
- Nhấn “Gửi.” Apidog hiển thị phản hồi, chẳng hạn như:

{
"response": "print('Hello, AI!')"
}
- Sử dụng các công cụ của Apidog để điều chỉnh các tham số, lưu yêu cầu hoặc gỡ lỗi lỗi.
Giao diện trực quan của Apidog cho phép bạn thử nghiệm với các lời nhắc, theo dõi thời gian phản hồi và thậm chí tự động hóa các bài kiểm tra, lý tưởng cho các nhà phát triển xây dựng trên Mistral Small 3.1.
Khắc phục các vấn đề phổ biến
Chạy một mô hình 24B tham số tại chỗ có thể gặp phải một số vấn đề. Dưới đây là các giải pháp cho những vấn đề thường gặp:
- Lỗi hết bộ nhớ:
- Sửa chữa: Đảm bảo bạn có 32GB RAM trở lên và một GPU đủ VRAM (ví dụ: 24GB trên RTX 4090). Giảm kích thước lô hoặc chiều dài ngữ cảnh nếu cần.
- Mô hình không tìm thấy:
- Sửa chữa: Xác nhận việc tải xuống đã hoàn tất (
ollama list
) và tên mô hình phải chính xác. - Máy chủ API không khởi động được:
- Sửa chữa: Kiểm tra xem cổng 11434 có đang sử dụng không (
netstat -tuln | grep 11434
) và giải phóng nó hoặc thay đổi cổng của Ollama qua cấu hình. - Hiệu suất chậm:
- Sửa chữa: Nâng cấp GPU của bạn hoặc chuyển giao các tác vụ kém quan trọng hơn cho CPU.
Bằng những mẹo này, bạn có thể giải quyết hầu hết các vấn đề và giữ cho Mistral Small 3.1 hoạt động trơn tru.
Tối ưu hóa và mở rộng thiết lập của bạn
Bây giờ Mistral Small 3.1 chạy tại chỗ, hãy cân nhắc nâng cao nó:
- Điều chỉnh tinh tế: Sử dụng các bộ dữ liệu cụ thể cho lĩnh vực của bạn (ví dụ: văn bản pháp lý, mã) để điều chỉnh đầu ra của mô hình.
- Mở rộng: Chạy nhiều phiên bản của Ollama cho các mô hình hoặc nhiệm vụ khác nhau.
- Tích hợp: Kết nối API vào các ứng dụng web, bot, hoặc quy trình làm việc bằng cách sử dụng Apidog để thử nghiệm các điểm cuối.
Các bước này mở khóa tiềm năng đầy đủ của Mistral Small 3.1, thích ứng với các dự án độc đáo của bạn.
Kết luận
Chạy Mistral Small 3.1 tại chỗ bằng Ollama là một bước đột phá cho các nhà phát triển và những người đam mê AI. Hướng dẫn này đã hướng dẫn bạn quy trình từ việc thu thập yêu cầu đến cài đặt Ollama, tải mô hình và tương tác với nó qua dòng lệnh hoặc API. Bằng cách thêm Apidog vào sự kết hợp, bạn tối ưu hóa việc thử nghiệm API và mở ra những cơ hội mới cho tích hợp. Với 24 tỷ tham số, ngữ cảnh 128k-token và tính linh hoạt của mã nguồn mở, Mistral Small 3.1 mang đến sức mạnh to lớn trong tầm tay bạn. Bắt đầu thử nghiệm ngay hôm nay và xem cách cặp đôi này có thể biến đổi các dự án của bạn.