DolphinGemma: Mô Hình Ngôn Ngữ, Nhưng Dành Cho Cá Heo

中村 拓也

中村 拓也

29 tháng 11 2025

DolphinGemma: Mô Hình Ngôn Ngữ, Nhưng Dành Cho Cá Heo

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Sự phát triển của các Mô hình Ngôn ngữ Lớn (LLMs) đã cách mạng hóa quá trình xử lý ngôn ngữ tự nhiên, tuy nhiên, xu hướng tạo ra nội dung không có thật hoặc "ảo giác" vẫn là một rào cản quan trọng đối với việc triển khai đáng tin cậy. Các LLM tiêu chuẩn thường pha trộn kiến thức tham số rộng lớn nhưng mờ mịt của chúng với bối cảnh do người dùng cung cấp, dẫn đến các đầu ra khó xác minh. Để giải quyết vấn đề này, Google đã giới thiệu DolphinGemma, một phiên bản chuyên biệt trong gia đình các mô hình mở Gemma, được thiết kế tỉ mỉ cho việc tạo ra nội dung có căn cứ với sự trích dẫn rõ ràng. Bài viết này cung cấp một cái nhìn kỹ thuật về kiến trúc có thể của DolphinGemma, phương pháp đào tạo, các tiêu chí đánh giá, và vị trí của nó trong bối cảnh AI đáng tin cậy.

💡
Bạn có muốn một công cụ kiểm tra API tuyệt vời tạo ra tài liệu API đẹp mắt?

Bạn có muốn một nền tảng tích hợp, Tất cả trong Một để đội ngũ phát triển của bạn làm việc cùng nhau với năng suất tối đa?

Apidog đáp ứng tất cả các yêu cầu của bạn và thay thế Postman với mức giá hợp lý hơn nhiều!
button

Kiến trúc Nền tảng: Di sản Gemma

DolphinGemma xây dựng dựa trên kiến trúc đã được thiết lập của các mô hình Gemma của Google. Gemma tự nó sử dụng kiến trúc Transformer chỉ có bộ giải mã, được phổ biến bởi các mô hình như GPT.

Các đặc điểm chính mà DolphinGemma có thể kế thừa bao gồm:

  1. Các Khối Transformer: Bao gồm các lớp tự chú ý đa đầu và mạng nơ-ron hồi tiếp, cho phép mô hình đánh giá tầm quan trọng của các token khác nhau trong chuỗi đầu vào. Gemma sử dụng chú ý đa truy vấn để tăng tốc độ suy diễn và giảm thiểu dung lượng bộ nhớ, đặc biệt có lợi cho các mô hình lớn hơn.
  2. Kích thước Tham số: Các biến thể DolphinGemma dự kiến sẽ phù hợp với các kích thước Gemma đã phát hành, chủ yếu là 2B (cụ thể là ~2,5 tỷ tham số) và 7B/8B (cụ thể là ~8,5 tỷ tham số hiệu quả). Những kích thước này đại diện cho một sự đánh đổi có chủ ý, cung cấp khả năng đáng kể trong khi vẫn có thể triển khai trên các GPU cấp tiêu dùng (như dòng NVIDIA RTX) và CPU, hoặc được lưu trữ một cách hiệu quả trong môi trường đám mây (ví dụ, Google Cloud Vertex AI, Kaggle).
  3. Từ vựng và Tách Token: Sử dụng bộ tách SentencePiece được đào tạo trên một tập hợp lớn, có thể là cùng kích thước từ vựng 256k được sử dụng cho Gemma. Điều này cho phép mã hóa hiệu quả các văn bản và mã khác nhau.
  4. Hàm Kích Hoạt: Sử dụng các hàm kích hoạt hiện đại như GeGLU (Gated Linear Units với hàm kích hoạt GELU) để cải thiện động lực học và hiệu suất đào tạo.
  5. Chuẩn hóa: Sử dụng RMSNorm (Chuẩn hóa Lớp Bình phương Căn) thay vì Chuẩn hóa Lớp tiêu chuẩn để tối ưu hóa hiệu suất tính toán mà không làm giảm hiệu suất.
  6. Nhúng Vị trí Xoay (RoPE): Áp dụng thông tin vị trí ngay trong cơ chế chú ý, cung cấp khả năng xử lý chiều dài chuỗi tốt hơn và khả năng suy diễn có thể tốt hơn so với nhúng vị trí tuyệt đối hoặc học được.

Nền tảng này cung cấp một mô hình cơ bản có khả năng và tương đối hiệu quả mà trên đó các khả năng tạo ra có căn cứ của DolphinGemma được xây dựng.

Thách thức Kỹ thuật: Vượt qua Sự Thống trị Tham số

Các LLM tiêu chuẩn, ngay cả khi được cung cấp bối cảnh thông qua Tạo ra Tăng cường Tìm kiếm (RAG), thường có hiện tượng "rò rỉ kiến thức". Các tham số nội bộ của chúng mã hóa lượng kiến thức thế giới khổng lồ được học trong quá trình đào tạo trước. Trong quá trình tạo ra, dự đoán của mô hình cho token tiếp theo bị ảnh hưởng bởi cả hai bối cảnh được cung cấp (các tài liệu đã tìm thấy) và kiến thức tham số nội bộ này. Điều này có thể dẫn đến:

Mục tiêu kỹ thuật cốt lõi của DolphinGemma là có thiên hướng mạnh mẽ vào quá trình tạo ra nội dung dựa trên bối cảnh được cung cấprõ ràng tạo ra các trích dẫn nguồn.

Giải pháp của DolphinGemma: Tinh chỉnh Chuyên biệt

DolphinGemma đạt được hành vi có căn cứ của mình không thông qua việc cải cách kiến trúc (có thể chỉ có những thay đổi tối thiểu, nếu có, đối với các khối Transformer cơ bản) mà thông qua tinh chỉnh có giám sát có mục tiêu (SFT) và có thể là các giai đoạn học củng cố tập trung cụ thể vào tính có căn cứ và trích dẫn.

  1. Mục tiêu Tinh chỉnh: Mục tiêu đào tạo chính chuyển từ việc tuân theo hướng dẫn chung hoặc khả năng trò chuyện (như các biến thể Gemma-IT) sang: Được cho một truy vấn Q và một tập hợp tài liệu nguồn {D1, D2, ..., Dn}, tạo ra một câu trả lời A chỉ nhất quán về mặt thực tế với thông tin có trong {Di} và bao gồm các trích dẫn liên kết các đoạn trong A trở lại các Di cụ thể.
  2. Tập Dữ Liệu Tinh Chỉnh: Điều này yêu cầu một tập dữ liệu chuyên biệt khác với các tập dữ liệu tinh chỉnh theo hướng dẫn thông thường. Tập dữ liệu này có thể chứa các ví dụ theo dạng:
  1. Phương Pháp Đào Tạo:

Các Tiêu Chí Đánh Giá và Hiệu Suất

Đánh giá DolphinGemma yêu cầu các tiêu chí vượt xa các điểm số tạo ngôn ngữ tiêu chuẩn (như BLEU hoặc ROUGE) chủ yếu đo lường độ trôi chảy và sự chồng chéo n-gram. Các khía cạnh đánh giá chính bao gồm:

  1. Tính Có Căn Cứ/Sự Trung Thực:
  1. Chất Lượng Trích Dẫn:
  1. Trôi Chảy và Liên Quan: Các tiêu chí tiêu chuẩn như ROUGE vẫn có thể được sử dụng để đảm bảo đầu ra có thể đọc được và liên quan đến truy vấn, mặc dù thứ yếu so với tính có căn cứ.
  2. Thang Đo: Việc đánh giá có thể diễn ra trên các phiên bản đã sửa đổi của các tập dữ liệu Đặt Câu Hỏi (Câu Hỏi Tự Nhiên, WebQuestions, TriviaQA) nơi các câu trả lời phải được rút ra chỉ từ các đoạn đã cung cấp, và có thể trên các thang đo được xây dựng tùy chỉnh cụ thể nhằm kiểm tra tính có căn cứ và trích dẫn trong các điều kiện đối kháng (ví dụ, thông tin mâu thuẫn trong các nguồn).

Các Cân Nhắc Kỹ Thuật và Đánh Đổi

Sự Cởi Mở và Sự Có Sẵn

Một khía cạnh quan trọng trong gia đình Gemma là tính cởi mở của nó. Google thường phát hành:

Điều này cho phép các nhà nghiên cứu và nhà phát triển triển khai, sửa đổi và xây dựng dựa trên DolphinGemma một cách trực tiếp. Sự có sẵn có thể thông qua các nền tảng như Kaggle, Hugging Face, và Vertex AI Model Garden.

Kết Luận: Kỹ Thuật Xây Dựng Niềm Tin vào Các Mô Hình Ngôn Ngữ

DolphinGemma đại diện cho một nỗ lực kỹ thuật đáng kể để truyền đạt cho các LLM khả năng tạo ra nội dung có thể xác thực và trích dẫn. Bằng cách tận dụng kiến trúc Gemma hiệu quả và áp dụng việc tinh chỉnh quy mô lớn chuyên biệt tập trung vào việc tuân thủ bối cảnh và ghi rõ nguồn trích dẫn, nó vượt qua các yêu cầu RAG chung. Dù phụ thuộc vào chất lượng tìm kiếm và đối mặt với các thách thức trong việc xử lý xung đột nguồn, DolphinGemma cung cấp một cách tiếp cận kỹ thuật mạnh mẽ để giảm thiểu hiện tượng ảo giác và xây dựng các hệ thống AI đáng tin cậy hơn. Sự có sẵn của nó dưới dạng một mô hình mở hứa hẹn sẽ thúc đẩy nhanh chóng nghiên cứu và phát triển trong các ứng dụng AI dựa trên sự thật, cung cấp một thành phần quan trọng cho các hệ thống mà độ chính xác và khả năng xác minh là không thể thương lượng.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API

DolphinGemma: Mô Hình Ngôn Ngữ, Nhưng Dành Cho Cá Heo