Phương pháp viết Prompt hiệu quả

Sự ra đời của các mô hình ngôn ngữ lớn (LLM) như GPT-3.5/4 (ChatGPT), Claude, Bard/Gemini hay các mô hình mã nguồn mở (ví dụ Mistral 7B) đã cách mạng hóa cách chúng ta tương tác với trí tuệ nhân tạo. Thay vì cần kiến thức lập trình chuyên sâu, người dùng có thể "ra lệnh" cho AI bằng ngôn ngữ tự nhiên thông qua các prompt - tức những câu hỏi hoặc mệnh lệnh mà ta nhập vào hệ thống. Thực tế cho thấy chất lượng phản hồi của mô hình phụ thuộc chặt chẽ vào cách người dùng soạn thảo prompt: như Mollick (2023) ví von, ChatGPT giống như "một cỗ máy mà bạn lập trình bằng ngôn từ của mình"[1]. Nói cách khác, prompt chính là cầu nối để truyền đạt yêu cầu của con người sang ngôn ngữ mà mô hình AI hiểu được, từ đó định hướng mô hình sinh ra kết quả mong muốn[2].

Tuy nhiên, không phải prompt nào cũng hiệu quả như nhau. Cùng một câu hỏi nhưng cách diễn đạt khác nhau có thể dẫn đến câu trả lời khác biệt đáng kể về độ chính xác và mức độ hữu ích. Việc nghiên cứu cách viết prompt hiệu quả (prompt engineering) đang trở thành một lĩnh vực quan trọng, giúp khai thác tối đa tiềm năng của các mô hình AI hiện đại[3]. Bài báo này sẽ trình bày khái niệm prompt trong ngữ cảnh mô hình ngôn ngữ, các yếu tố cấu thành một prompt chất lượng, phân tích mức độ ảnh hưởng của prompt đối với đầu ra của mô hình, và so sánh cách những mô hình AI khác nhau (như ChatGPT của OpenAI, Gemini của Google, Claude của Anthropic, Mistral...) phản hồi trước các loại prompt đa dạng. Chúng tôi cũng đưa ra các ví dụ minh họa kèm phân tích kỹ thuật, với trích dẫn từ tài liệu học thuật và báo cáo kỹ thuật uy tín nhằm cung cấp cái nhìn toàn diện và có cơ sở về nghệ thuật xây dựng prompt hiệu quả.

Cơ sở lý thuyết về Prompt và Prompt Engineering

Prompt (hay lời nhắc/hướng dẫn đầu vào) trong ngữ cảnh các mô hình ngôn ngữ là đoạn văn bản (có thể gồm câu hỏi, mệnh lệnh, ngữ cảnh) do người dùng cung cấp cho mô hình, nhằm yêu cầu mô hình sinh ra một phản hồi cụ thể tương ứng[2]. Ví dụ, một prompt đơn giản có thể là "Tóm tắt đoạn văn A dưới đây", khi đó mô hình sẽ dựa vào nội dung đoạn văn A (được kèm theo prompt) để tạo ra bản tóm tắt. Cấu trúc của prompt có thể bao gồm hướng dẫn nhiệm vụ, bối cảnh hoặc dữ liệu đầu vào, và đôi khi kèm chỉ dẫn về định dạng đầu ra mong muốn[4]. Một prompt đầy đủ có thể dài từ vài từ cho đến vài đoạn văn, tùy thuộc vào mức độ phức tạp của nhiệm vụ và thông tin ngữ cảnh cần cung cấp.

Khả năng hiểu và thực thi prompt của các mô hình hiện đại bắt nguồn từ hiện tượng học trong ngữ cảnh (in-context learning). Đây là năng lực đặc biệt của các LLM cỡ lớn, cho phép mô hình học và điều chỉnh cách trả lời dựa trên chính nội dung prompt (bao gồm cả ví dụ minh họa) mà không cần thay đổi tham số mô hình[5]. Nhờ đó, người dùng có thể "dạy" mô hình thực hiện những nhiệm vụ mới chỉ bằng cách trình bày mô tả nhiệm vụ và vài ví dụ trong prompt, thay vì phải huấn luyện lại mô hình trên dữ liệu mới. Kỹ thuật xây dựng prompt (prompt engineering) chính là thực hành thiết kế các prompt được trau chuốt và cấu trúc hợp lý để mô hình AI diễn giải đúng yêu cầu và tạo ra đầu ra chất lượng cao[6]. Khác với cách tiếp cận truyền thống cần tinh chỉnh lại trọng số mô hình cho từng nhiệm vụ, prompt engineering khai thác trực tiếp kiến thức đã có trong mô hình thông qua tương tác ngôn ngữ tự nhiên, nhờ đó không đòi hỏi huấn luyện lại hay cập nhật tham số mà vẫn đạt được mục tiêu đề ra[3]. Điều này mở ra cơ hội cho nhiều người dùng (kể cả không chuyên về ML) có thể sử dụng LLM một cách linh hoạt cho các bài toán khác nhau bằng cách lựa chọn từ ngữ, câu cú và định dạng prompt phù hợp[7].

Phân loại các loại prompt: Tùy theo mục tiêu và cách thức cung cấp thông tin, prompt có thể được chia thành nhiều dạng. Dưới đây là một số loại prompt thường gặp[8][9]:

Prompt zero-shot: Chỉ đưa ra yêu cầu hoặc câu hỏi một cách ngắn gọn, không cung cấp ví dụ cụ thể. Loại prompt này đơn giản và phù hợp khi cần câu trả lời tổng quát nhanh. Ví dụ: "Tóm tắt bài báo này thành 5 ý chính."[8]. Mô hình sẽ tự dựa vào kiến thức của mình để hoàn thành nhiệm vụ, tuy nhiên zero-shot thường hạn chế với các bài toán phức tạp do không có hướng dẫn thêm.
Prompt few-shot: Cung cấp một số ví dụ mẫu về input-output mong muốn trong prompt, để mô hình bắt chước theo mẫu đó[10]. Cách này giúp mô hình hiểu rõ hơn nhiệm vụ và định dạng đầu ra. Ví dụ: đưa 2 đoạn tóm tắt mẫu rồi yêu cầu "Viết đoạn tóm tắt thứ 3 với cùng phong cách."[10]. Few-shot prompt tận dụng tối đa khả năng học trong ngữ cảnh, thường cải thiện độ chính xác cho mô hình trên nhiều tác vụ so với zero-shot.
Prompt hướng dẫn trực tiếp: Nhấn mạnh yêu cầu bằng các động từ mệnh lệnh rõ ràng như "viết", "giải thích", "liệt kê"... để chỉ định thẳng nhiệm vụ cần làm[11]. Ví dụ: "Viết một bản tóm tắt cho báo cáo này, độ dài dưới 100 từ."[12]. Loại prompt này giúp mô hình nhận biết ngay hành động cần thực hiện và giới hạn đặt ra.
Prompt vai trò (đóng vai): Yêu cầu mô hình đóng vai một nhân vật hoặc chuyên gia nào đó nhằm định hướng văn phong và kiến thức cho câu trả lời[13]. Chẳng hạn: "Hãy đóng vai một giáo sư lịch sử và giải thích sự kiện này ở mức độ kiến thức phổ thông.". Việc này cung cấp thêm bối cảnh để mô hình điều chỉnh ngôn ngữ và mức độ chi tiết phù hợp với vai trò được giao[14]. Thực tế cho thấy thêm chỉ định vai trò có thể thay đổi đáng kể cách trả lời - ví dụ mô hình sẽ trả lời cùng một câu hỏi rất khác nhau tùy theo nó nghĩ mình là "nhà sinh vật học nhiều kinh nghiệm giải thích cho trẻ em" hay chỉ đơn thuần trả lời một cách chung chung[14].
Prompt ngữ cảnh: Cung cấp bối cảnh hoặc thông tin nền liên quan trước khi đặt câu hỏi, nhằm giúp mô hình hiểu rõ hoàn cảnh và điều chỉnh câu trả lời sát với ngữ cảnh hơn[15]. Ví dụ: "Đoạn văn sau được trích từ một báo cáo tài chính. Hãy giải thích nó bằng tiếng Việt đơn giản cho người không chuyên.". Nhờ có ngữ cảnh, mô hình sẽ hạn chế lan man và tập trung vào việc điều chỉnh lời giải thích phù hợp đối tượng được nhắm tới.
Prompt hệ thống (meta-prompt): Là những hướng dẫn ở cấp hệ thống (thường do nhà phát triển hoặc nền tảng thiết lập) để quy định sẵn giọng điệu, hành vi hoặc giới hạn của mô hình trước khi có bất kỳ tương tác nào từ người dùng[16]. Thông thường người dùng cuối không can thiệp trực tiếp loại prompt này, nhưng hiểu về nó giúp ta biết mô hình đã có những ràng buộc gì. Thí dụ: một hệ thống có thể ngầm đặt prompt hệ thống như "Luôn trả lời một cách lịch sự và có dẫn nguồn đáng tin cậy; không cung cấp thông tin nhạy cảm.". Prompt hệ thống đảm bảo AI tuân thủ các nguyên tắc chung (ví dụ về an toàn, tính đúng đắn) trong mọi phản hồi.
Prompt chuỗi suy nghĩ (Chain-of-Thought): Đây là một kỹ thuật prompt nâng cao, trong đó ta yêu cầu mô hình tự diễn giải từng bước lập luận trước khi đưa ra đáp án cuối cùng[17]. Mục đích là buộc mô hình phác thảo ra chuỗi các suy luận hoặc tính toán trung gian, tương tự như cách con người giải quyết những vấn đề phức tạp từng bước một. Ví dụ, thêm câu hướng dẫn "Hãy suy nghĩ từng bước một (Let's think step by step)" vào cuối prompt. Kỹ thuật CoT này đã được chứng minh là cải thiện đáng kể khả năng suy luận logic và giải toán của các mô hình lớn mà không cần huấn luyện thêm: chẳng hạn, khi áp dụng CoT cho mô hình PaLM của Google, độ chính xác trên bộ dữ liệu toán đố GSM8K tăng vọt từ 17.9% lên 58.1%[18]. Chúng ta sẽ phân tích sâu hơn ảnh hưởng của loại prompt này ở phần sau.

Như vậy, prompt có thể được thiết kế linh hoạt dưới nhiều hình thức để giúp mô hình AI hiểu đúng vai trò và nhiệm vụ. Việc nắm vững đặc điểm từng loại prompt sẽ giúp người dùng lựa chọn chiến lược phù hợp cho vấn đề của mình thay vì chỉ đặt những câu hỏi chung chung.

Yếu tố tạo nên một prompt hiệu quả

Không chỉ phân loại, chất lượng bên trong của prompt - tức cách chúng ta viết và trình bày prompt - cũng quyết định lớn đến hiệu quả tương tác với mô hình. Nghiên cứu và hướng dẫn từ các tổ chức (như OpenAI, Microsoft, Palantir...) đã đúc kết nhiều nguyên tắc giúp prompt trở nên rõ ràng và tối ưu hơn[19][20]. Dưới đây là những yếu tố quan trọng cần lưu ý khi soạn một prompt hiệu quả:

Rõ ràng và cụ thể trong chỉ dẫn: Prompt nên nêu yêu cầu một cách dứt khoát, sử dụng ngôn từ đơn nghĩa để mô hình dễ hiểu nhiệm vụ. Hãy tránh các diễn đạt mơ hồ hoặc chung chung. Ví dụ, thay vì viết "Hãy viết một đoạn văn khá ngắn về sản phẩm này" (mơ hồ về độ dài), hãy chỉ rõ "Hãy viết một đoạn mô tả khoảng 3-5 câu về sản phẩm này"[21]. Sự cụ thể cũng áp dụng cho nội dung: câu hỏi quá tổng quát sẽ cho đáp án dài dòng hoặc thiếu trọng tâm, nên cần giới hạn phạm vi rõ ràng[22]. Một prompt được xác định chi tiết về bối cảnh, mục tiêu, độ dài, định dạng và phong cách sẽ giúp mô hình tập trung và trả lời đúng ý hơn[20].
Cung cấp ngữ cảnh và thông tin nền thích hợp: Luôn xem xét những thông tin nào mô hình cần biết để hoàn thành nhiệm vụ và đưa các thông tin đó vào prompt. Ngay cả các mô hình thông minh cũng không thể đoán ý định hay hiểu tường tận tình huống của bạn nếu prompt không đề cập. Ví dụ, khi yêu cầu "phân tích dữ liệu doanh số quý vừa qua", nếu không cung cấp dữ liệu cụ thể hoặc bối cảnh ngành hàng, mô hình sẽ khó cho kết quả sát thực. Do đó, nên bổ sung bối cảnh: "Dưới đây là dữ liệu doanh số quý 4/2023 của công ty X (đính kèm bảng). Hãy phân tích xu hướng và hiệu suất so với các quý trước." Nhờ có ngữ cảnh đầy đủ, mô hình sẽ neo câu trả lời vào đúng dữ liệu và tình huống được cung cấp, tăng độ chính xác và phù hợp của phản hồi[23][24].
Đặt hướng dẫn quan trọng lên trước và tách biệt phần ngữ liệu: Theo khuyến cáo từ OpenAI, khi prompt bao gồm cả hướng dẫn và dữ liệu (ví dụ đoạn văn cần tóm tắt), hãy đặt phần hướng dẫn ở đầu, sau đó mới đến nội dung dữ liệu hoặc ngữ liệu đầu vào, đồng thời dùng ký hiệu phân tách rõ ràng (như """ hoặc ###)[25]. Cách cấu trúc này đảm bảo mô hình hiểu ngay yêu cầu chính trước khi đọc ngữ cảnh chi tiết. Thực tế cho thấy nếu trộn lẫn hướng dẫn và dữ liệu, mô hình đôi khi bị phân tán và bỏ sót chỉ thị quan trọng.
Minh họa yêu cầu đầu ra bằng ví dụ: Khi định dạng hoặc cấu trúc kết quả mong muốn phức tạp, hãy đưa ví dụ mẫu để "nói có sách, mách có chứng". Mô hình sẽ theo đó học được cách trình bày câu trả lời. Chẳng hạn, thay vì chỉ yêu cầu "Trích xuất các thực thể tên riêng từ văn bản", ta có thể bổ sung: "Định dạng kết quả như sau: Công ty: <danh sách tên công ty>; Nhân vật: <danh sách tên người>..." và đưa một ví dụ minh họa cụ thể[26]. Việc "show, don't tell" này giúp mô hình hiểu rõ kỳ vọng về đầu ra và giảm thiểu rủi ro sai định dạng[27]. Các ví dụ cũng nên đa dạng để bao quát nhiều trường hợp, tránh cung cấp nhiều ví dụ quá tương tự nhau[28].
Sử dụng ngôn ngữ tích cực, mô tả điều cần làm thay vì điều cấm làm: Nếu muốn mô hình tránh một nội dung nào đó, ta không nên chỉ nói "Đừng làm X" mà cần chỉ dẫn giải pháp thay thế hoặc hướng đi đúng. Ví dụ, thay vì "KHÔNG được hỏi mật khẩu người dùng", hãy viết "Nếu người dùng gặp lỗi đăng nhập, hãy hướng dẫn họ đặt lại mật khẩu qua trang hỗ trợ, không yêu cầu thông tin cá nhân"[29]. Bằng cách này, prompt không chỉ ngăn mô hình đi lệch hướng mà còn định hướng rõ việc nên làm, tránh để mô hình rơi vào tình huống bí khi chỉ có hướng dẫn phủ định.
Quản lý độ dài và độ phức tạp của prompt: Prompt nên đủ thông tin để mô hình hiểu nhiệm vụ nhưng không nên quá dài dòng hoặc nhồi nhét nhiều yêu cầu phức tạp cùng lúc. Một prompt quá dài có thể khiến mô hình quá tải ngữ cảnh, còn prompt quá ngắn gọn có thể thiếu thông tin. Do đó cần sự cân đối: tập trung vào những chi tiết cốt lõi, lược bỏ rườm rà. Nếu nhiệm vụ phức tạp, hãy tách thành các bước hoặc sử dụng nhiều lượt tương tác tuần tự thay vì dồn vào một prompt duy nhất[30][31]. Ví dụ, thay vì hỏi "Hãy giải thích lịch sử, thực trạng và tương lai của công nghệ robot" trong một lần, ta có thể chia: "(1) Tóm tắt lịch sử phát triển robot. (2) Những tiến bộ hiện tại. (3) Dự đoán xu hướng tương lai.". Việc phân nhỏ giúp mô hình tập trung trả lời tốt từng phần, sau đó ta có thể tổng hợp.
Rà soát và thử nghiệm, điều chỉnh prompt (quy trình tương tác lặp): Viết prompt cũng giống một quá trình thử - sai - hiệu chỉnh. Sau khi có kết quả ban đầu, người dùng nên đánh giá xem đáp ứng đã đúng ý chưa, nếu chưa thì tinh chỉnh prompt và thử lại[32]. Đôi khi chỉ cần thay đổi một từ khóa hoặc bổ sung một câu hướng dẫn là cải thiện rõ rệt chất lượng đầu ra. Mô hình cũng có thể phản hồi về prompt - ví dụ nếu nó hiểu sai hoặc yêu cầu chưa rõ, hãy dựa vào đó để viết lại prompt chặt chẽ hơn. Cách tiếp cận lặp nhiều vòng này giúp tối ưu prompt dần dần, đặc biệt quan trọng khi làm việc với các tác vụ phức tạp hoặc mô hình "khó bảo".

Những nguyên tắc trên đây đã được kiểm chứng qua thực nghiệm và được xem là các "best practices" trong việc tương tác với LLM[19][20]. Áp dụng chúng sẽ giúp giảm thiểu trường hợp mô hình trả lời sai lệch, lan man hoặc "ảo giác" thông tin, đồng thời tăng khả năng nhận được phản hồi đúng như mong đợi ngay từ lần hỏi đầu tiên.

Ảnh hưởng của prompt đến chất lượng phản hồi

Prompt không chỉ đơn thuần là câu hỏi, mà còn ẩn chứa cách ta định hình câu trả lời của AI. Chất lượng của prompt ảnh hưởng trực tiếp đến độ liên quan, độ chính xác và tính mạch lạc trong phản hồi của mô hình[33]. Một prompt được viết tốt có thể khai thác tối đa kiến thức của AI, trong khi một prompt kém có thể khiến mô hình hiểu lầm yêu cầu hoặc tạo ra câu trả lời kém chất lượng.

Trước hết, nếu prompt thiếu thông tin hoặc không rõ ràng, câu trả lời thường chung chung hoặc sai hướng. Mô hình sẽ cố đoán ý người hỏi dựa trên những gì nó có, dẫn đến kết quả không sát. Thực nghiệm cho thấy với những câu hỏi quá rộng, ChatGPT có xu hướng đưa ra phản hồi dài dòng và lặp ý, như thể đang "viết một bài luận" vì không chắc người dùng muốn nhấn mạnh điểm nào[34]. Chẳng hạn, khi được hỏi một cách mơ hồ về "tác động của mạng xã hội đến chính trị", mô hình có thể liệt kê rất nhiều ảnh hưởng khác nhau một cách rườm rà mà không tập trung vào khía cạnh cụ thể, do prompt không định hướng rõ ràng. Ngược lại, prompt càng cụ thể và có định hướng, câu trả lời càng sát ý và hữu ích[35]. Việc thêm thông tin chi tiết (ví dụ thời gian, địa điểm, đối tượng, phạm vi vấn đề) vào prompt sẽ thu hẹp không gian trả lời để mô hình tập trung đúng trọng tâm, từ đó nâng cao tính chính xác và độ phù hợp của nội dung sinh ra[35][36].

Tiếp theo, cách diễn đạt prompt cũng có thể cải thiện khả năng suy luận và giải quyết vấn đề của mô hình. Một minh chứng điển hình là kỹ thuật Chain-of-Thought (CoT) đã đề cập: chỉ với một cụm từ hướng dẫn thêm vào prompt (ví dụ "Hãy suy nghĩ từng bước"), hiệu suất của mô hình trên các bài toán đòi hỏi lập luận logic tăng vượt bậc. Nghiên cứu cho thấy áp dụng prompt CoT phức tạp có thể giúp mô hình nâng độ chính xác trung bình thêm khoảng 5.3% và tối đa đến 18% trên các tác vụ như giải toán nhiều bước, suy luận thường thức, suy luận đa hop... so với việc chỉ dùng prompt cơ bản[37]. Đặc biệt, như đã nêu, mô hình PaLM của Google khi được prompt theo hướng CoT đã tăng tỷ lệ giải đúng toán đố từ 17.9% lên 58.1% - một bước nhảy vọt nhờ prompt phù hợp mà không cần đào tạo lại mô hình[18]. Tương tự, nhiều kỹ thuật prompt nâng cao khác (ví dụ self-consistency, đặt câu hỏi gợi ý phụ, phân rã vấn đề thành bước nhỏ - decomposed prompting) cũng được đề xuất và ghi nhận là cải thiện đáng kể chất lượng câu trả lời trên các nhiệm vụ phức tạp, so với việc đặt câu hỏi một cách trực tiếp thông thường[38][39].

Một khía cạnh quan trọng khác là prompt ảnh hưởng đến mức độ sáng tạo vs. chính xác trong phản hồi. Nếu prompt nhấn mạnh yêu cầu chính xác, trung tính (ví dụ: "Cung cấp câu trả lời ngắn gọn, chỉ bao gồm sự kiện có dẫn chứng"), mô hình sẽ có xu hướng hạn chế suy diễn và bám sát dữ liệu. Ngược lại, prompt mở yêu cầu mô hình tưởng tượng hay trình bày dài sẽ khuyến khích sự sáng tạo nhưng có thể giảm độ chính xác thực tế. Do vậy, tùy mục tiêu mà người dùng điều chỉnh prompt để tìm được sự cân bằng: muốn sáng tạo thì nới lỏng, muốn chính xác thì gò chặt hơn. Chẳng hạn, khi cần ý tưởng mới lạ, prompt có thể mở rộng: "Hãy đề xuất ý tưởng độc đáo..." và cho phép mô hình tự do; nhưng khi cần thông tin chính xác, prompt nên ràng buộc: "Hãy liệt kê 5 sự kiện có thật về chủ đề X, kèm nguồn tham khảo tin cậy.". Kinh nghiệm từ người dùng cho thấy mô hình như ChatGPT thậm chí sẽ tự điều chỉnh văn phong tùy theo cách mà prompt được viết - nếu prompt được soạn cẩn thận, có định dạng rõ ràng, mô hình cũng thường đáp lại một cách có cấu trúc và chỉn chu hơn.

Cuối cùng, cần lưu ý rằng một prompt tệ có thể dẫn đến hiện tượng "ảo giác" (hallucination) - mô hình tự bịa ra thông tin không có thực. Điều này hay xảy ra khi prompt đặt câu hỏi về những sự kiện mà mô hình không biết rõ và lại thiếu hướng dẫn kiểm chứng hay giới hạn nguồn. Vì vậy, để giảm rủi ro này, prompt nên: (1) cung cấp ngữ cảnh dữ kiện nếu có, (2) yêu cầu mô hình giải thích lập luận của nó (để người dùng dễ phát hiện điểm vô lý), hoặc (3) yêu cầu kèm nguồn tham khảo. Ví dụ, thay vì hỏi "Loài rồng Komodo sống thọ bao nhiêu năm?" một cách trống không, có thể prompt: "Loài rồng Komodo thường sống thọ bao nhiêu năm? Hãy dựa vào thông tin sinh học đáng tin cậy và nêu nguồn.". Với prompt chi tiết như vậy, mô hình sẽ hạn chế trả lời bừa và cung cấp căn cứ kiểm chứng được. Tóm lại, prompt càng được thiết kế tốt thì xác suất nhận được câu trả lời chính xác, hữu ích càng cao, và ngược lại prompt mơ hồ có thể tạo ra đáp án không đáng tin cậy[33]. Việc đầu tư thời gian để viết prompt chất lượng do đó là hoàn toàn xứng đáng so với việc phải tốn công sàng lọc hoặc yêu cầu lại nhiều lần do nhận phản hồi kém.

So sánh phản hồi giữa các mô hình AI khác nhau

Mỗi mô hình AI (ChatGPT, Claude, Gemini, Mistral, v.v.) đều có kiến trúc và dữ liệu huấn luyện khác biệt, dẫn đến phong cách và khả năng phản hồi không hoàn toàn giống nhau ngay cả trước cùng một prompt. Hiểu được đặc trưng của từng mô hình sẽ giúp người dùng tinh chỉnh cách viết prompt phù hợp để khai thác thế mạnh của mô hình đó[40]. Dưới đây, chúng tôi so sánh một số mô hình tiêu biểu hiện nay về cách chúng xử lý prompt và chất lượng câu trả lời, đồng thời minh họa bằng ví dụ thực tế.

Trước hết, chúng ta điểm qua đặc điểm chung của các mô hình (tính đến 2024-2025) liên quan đến khả năng xử lý prompt:

ChatGPT (GPT-3.5/GPT-4 của OpenAI): Đây là dòng mô hình được tinh chỉnh mạnh mẽ bằng RLHF để tuân thủ hướng dẫn người dùng. ChatGPT nổi tiếng là phản hồi rất đúng yêu cầu và có chừng mực - mặc định văn phong khá trung tính, lịch sự và có phần "máy móc" nếu không được yêu cầu cụ thể phong cách[41]. Ưu điểm của ChatGPT là tính đa năng: từ trả lời kiến thức, viết luận, viết mã lập trình cho đến phân tích dữ liệu, mô hình đều thực hiện ở mức xuất sắc. Đặc biệt, ChatGPT (GPT-4) tỏ ra vượt trội trong các nhiệm vụ lập trình/code và suy luận phức tạp[42]; nó cũng đạt điểm rất cao trong nhiều kỳ thi chuẩn hóa khác nhau[43]. Ngữ cảnh đầu vào mà GPT-4 có thể xử lý lên tới ~128k token (đối với phiên bản GPT-4 32k nâng cấp)[44], đủ để chứa những đoạn văn bản rất dài làm cơ sở cho prompt. Nhờ được huấn luyện trên lượng dữ liệu khổng lồ cập nhật đến 2023, ChatGPT có kiến thức rộng và thường hiểu đúng ngay cả những prompt phức tạp hoặc mơ hồ hơn so với các mô hình khác. Tuy nhiên, nhược điểm là ChatGPT đôi khi dễ "thêu dệt" nội dung nếu prompt không yêu cầu rõ ràng về nguồn hoặc thực hư, và có cơ chế kiểm duyệt nội dung khá nghiêm ngặt - một số prompt nhạy cảm có thể bị từ chối hoặc đáp an toàn chung chung. Nếu người dùng soạn prompt không cẩn thận, ChatGPT cũng có thể trả lời dài dòng, dư thừa vì mô hình cố gắng đoán mọi thứ người hỏi có thể muốn biết[34]. Do đó, với ChatGPT, prompt càng chặt chẽ, giới hạn rõ phạm vi thì câu trả lời càng súc tích, chính xác.
Claude 2 (Anthropic): Claude là mô hình của hãng Anthropic, nổi bật với cơ chế Hiến pháp AI (Constitutional AI) - tinh chỉnh mô hình dựa trên các nguyên tắc đạo đức cố định thay vì chỉ dựa vào phản hồi con người. Văn phong mặc định của Claude mang tính "con người" hơn, ấm áp và có phần sáng tạo, tự nhiên[45]. Claude hỗ trợ ngữ cảnh thuộc hàng lớn nhất hiện nay (lên đến ~100k-200k token)[46], cho phép người dùng đưa vào những tài liệu đồ sộ trong prompt (ví dụ tải cả cuốn sách để tóm tắt). Trong các thử nghiệm, Claude thường vượt trội ở những tác vụ đòi hỏi viết lách sáng tạo hoặc giải thích dài: câu trả lời của Claude thường dài hơn, giàu chi tiết và ít "vô hồn" hơn so với ChatGPT[47][48]. Đặc biệt, Claude được đánh giá cao ở khả năng diễn giải kiến thức phức tạp một cách dễ hiểu (tính sư phạm) - thậm chí hãng Anthropic công bố rằng Claude đã nhỉnh hơn GPT-4 trên một số bộ đo về lập luận và tư duy[43]. Trong một so sánh thực nghiệm, Claude cho thấy ưu thế rõ rệt khi viết các nội dung mang tính sáng tạo, nhân văn: ví dụ văn phong viết truyện, viết email lịch sự, gợi ý ý tưởng… Claude thường đưa ra nội dung cụ thể, mạch lạc và đúng ý hơn các mô hình khác[49][50]. Nhược điểm của Claude là đôi khi dài dòng quá mức cần thiết, có xu hướng bổ sung nhiều tình tiết hoặc giải thích thêm ngay cả khi prompt không yêu cầu, do mục tiêu của mô hình là hữu ích và toàn diện. Ngoài ra, Claude cũng có các bộ lọc an toàn tương tự ChatGPT (do tuân thủ hiến pháp AI), nên với những prompt nhạy cảm mô hình sẽ từ chối thẳng hoặc đáp một cách chung chung mang tính đạo lý.
Google Gemini (và Bard): Gemini là thế hệ mô hình mới của Google (DeepMind) được đồn đại tích hợp nhiều khả năng vượt trội, trong đó có tính đa phương thức (multimodal) và hiệu năng cao trên các tác vụ reasoning nhờ học hỏi kinh nghiệm từ các hệ thống AlphaGo. Theo một số nguồn, phiên bản Gemini 1.5 (Pro) có ngữ cảnh tối đa rất ấn tượng (lên tới 1 triệu token hỗ trợ)[51] - vượt xa GPT-4 và Claude - và kiến thức được cập nhật đến cuối 2023. Bard (mô hình tiền nhiệm của Google, dựa trên LaMDA và PaLM 2) đã cho thấy khuynh hướng phản hồi trung lập, súc tích và tập trung vào thông tin thực tế; nhiều khả năng Gemini cũng giữ triết lý đó[52]. Trong các so sánh ban đầu, Gemini tỏ ra xuất sắc ở khả năng tóm tắt thông tin và trả lời các câu hỏi kiến thức ngắn gọn - như có thể nhanh chóng quét qua nhiều nguồn để đưa ra những ý chính chính xác[53]. Ưu điểm này khiến nó giống một "trợ lý thông tin" tổng hợp rất tốt. Gemini (và Bard) cũng có khả năng truy cập thời gian thực (ví dụ duyệt web) trong một số chế độ, nên với những prompt yêu cầu thông tin mới, mô hình có lợi thế cập nhật. Tuy vậy, một số người dùng nhận xét Gemini dễ phát sinh "hallucination" hơn - tức đôi khi tự tin đưa ra thông tin sai - so với ChatGPT[54]. Về lập trình, ChatGPT hiện vẫn được đánh giá cao hơn Gemini[42], nghĩa là khi prompt yêu cầu viết code phức tạp hoặc sửa lỗi, ChatGPT có xác suất thành công cao hơn. Một đặc trưng khác của Gemini là phản hồi khá ngắn gọn, đôi khi quá tối giản đến mức chung chung nếu prompt không yêu cầu chi tiết[55]. Do đó khi dùng Gemini, người dùng có thể cần yêu cầu rõ về mức độ chi tiết mong muốn trong prompt, nếu không mô hình có xu hướng trả lời ngắn gọn nhất có thể (để an toàn).
Mistral 7B (mô hình nguồn mở): Mistral là một mô hình ngôn ngữ mã nguồn mở cỡ 7 tỷ tham số, ra mắt năm 2023 bởi startup Mistral AI. Dù dung lượng nhỏ hơn nhiều so với các "đại gia" nêu trên, Mistral 7B đã gây ấn tượng khi đạt hiệu năng tiệm cận các mô hình 30B-70B nhờ kỹ thuật huấn luyện tối ưu[43]. Phiên bản Mistral Large thường được tinh chỉnh để làm trợ lý hội thoại, cho phép ngữ cảnh khoảng 32k token[56]. Văn phong mặc định của Mistral khá thân thiện, ngắn gọn và đi thẳng vào vấn đề[57] - mô hình này ít khi "lảm nhảm" dài dòng, có lẽ do dung lượng hạn chế nên ưu tiên trả lời súc tích. Trong một số thử nghiệm, Mistral thực sự gây bất ngờ khi ngang ngửa GPT-4 ở tác vụ hiệu đính văn bản (bắt lỗi chính tả, ngữ pháp)[58], và nhìn chung phản hồi rất nhanh do mô hình gọn nhẹ. Điều này gợi ý rằng với những nhiệm vụ hẹp, rõ ràng (ví dụ sửa ngữ pháp, dịch thuật, tóm tắt đoạn ngắn), prompt đơn giản cho Mistral có thể đủ để có kết quả tốt, không thua kém mô hình lớn. Tuy nhiên, do được huấn luyện trên dữ liệu chỉ đến năm 2021[56], kiến thức của Mistral bị giới hạn ở các sự kiện cũ; nếu prompt hỏi về sự kiện mới, mô hình dễ trả lời sai hoặc thú nhận không biết. Thêm nữa, Mistral không có cơ chế RLHF mạnh như ChatGPT, nên mức độ tuân thủ hướng dẫn kém hơn: người dùng có thể cần viết prompt rất cụ thể cho Mistral hiểu đúng (ví dụ đôi khi phải thêm các chỉ thị định dạng rõ, hoặc tuân thủ đúng cú pháp hội thoại mà mô hình được huấn luyện). Và do không bị ràng buộc nhiều bởi bộ lọc an toàn, Mistral có thể trả lời các prompt mà mô hình khác từ chối, nhưng đồng thời cũng dễ phát ngôn "thiếu kiềm chế" hoặc không đúng mực nếu prompt không kiểm soát.

Để dễ hình dung sự khác biệt, bảng sau đây tóm tắt một số so sánh giữa các mô hình trên về ngữ cảnh hỗ trợ, phong cách phản hồi, điểm mạnh và hạn chế chính:

Mô hình	Ngữ cảnh tối đa	Phong cách phản hồi mặc định	Thế mạnh nổi bật	Hạn chế
OpenAI ChatGPT <br>(GPT-4)	~128k token (GPT-4 32k)[44]<br>(95+ ngôn ngữ, kiến thức ~2023)	Trung tính, lịch sự; có thể điều chỉnh theo vai trò khi được yêu cầu[41]. Thường rất tuân thủ hướng dẫn, văn phong đôi khi hơi công thức.	Đa dụng toàn diện: hiểu prompt phức tạp tốt, mạnh về lập trình và suy luận logic, giải được nhiều bài kiểm tra khó[43][42]. Phản hồi có cấu trúc tốt, ít sai ngữ pháp; giữ ngữ cảnh hội thoại tốt.	Đôi khi quá an toàn hoặc né tránh câu hỏi nhạy cảm. Nếu prompt không rõ, mô hình có thể trả lời dài và dư thừa thông tin[34]. Vẫn có thể hallucinate ở những chủ đề thiếu kiến thức nếu không kèm yêu cầu kiểm chứng.
Anthropic Claude 2	~100k - 200k token[46]<br>(hỗ trợ tốt tiếng Anh, Nhật, Pháp… kiến thức ~2023)	Ấm áp, giàu tính nhân văn; câu văn trôi chảy tự nhiên, ít "máy móc"[45]. Thường chủ động giải thích kỹ càng và bổ sung thông tin liên quan.	Rất giỏi viết lách sáng tạo (truyện, email lịch sự, v.v.) và giải thích kiến thức một cách dễ hiểu (phù hợp làm trợ giảng)[58][49]. Xử lý ngữ cảnh cực dài (nhiều tài liệu) tốt. Lập luận logic tốt, được báo cáo nhỉnh hơn GPT-4 ở một số bài test tư duy[43].	Có xu hướng dài dòng: trả lời dài hơn cần thiết, đôi lúc lan man. Cũng có thể "thêm mắm muối" ngoài yêu cầu do muốn hữu ích tối đa. Bộ lọc an toàn chặt chẽ tương đương OpenAI - sẽ từ chối nếu prompt vi phạm hiến pháp AI (ví dụ nội dung nguy hiểm...).
Google Gemini (Pro) <br>hoặc Bard	~1 triệu token (đồn đoán)[51]<br>(hỗ trợ ~38 ngôn ngữ, kiến thức ~2023, có truy cập web)	Trung lập, súc tích; tập trung vào thông tin khách quan hơn là cảm xúc[52]. Mặc định khá ngắn gọn, ít khi đào sâu trừ phi được yêu cầu rõ.	Tóm tắt và tìm kiếm thông tin rất nhanh và chính xác (như một trợ lý tra cứu web hiệu quả)[53]. Khả năng hiểu ngữ cảnh đa modal (văn bản, hình ảnh) tốt (theo thiết kế). Lập luận logic và trả lời kiến thức ngắn gọn đạt mức cao (ngang GPT-4) trong nhiều thử nghiệm[59].	Có thể hallucinate nhiều hơn GPT-4 trong một số trường hợp[54] - cần thận trọng kiểm chứng. Trong các tác vụ lập trình phức tạp, hiệu quả chưa bằng GPT-4[42]. Phản hồi đôi khi quá ngắn và chung chung nếu prompt không yêu cầu chi tiết, do mô hình ưu tiên tính súc tích.
Mistral 7B (Open-source)	~32k token (phiên bản Mistral Large)[56]<br>(hỗ trợ tốt Anh, Pháp, Tây Ban Nha, Đức, Ý; kiến thức ~2021)	Lịch sự, thân thiện; trả lời ngắn gọn đúng trọng tâm[60]. Ít màu mè văn chương, có xu hướng đi thẳng vào kết quả yêu cầu.	Nhẹ và nhanh: phản hồi rất mau, phù hợp tác vụ đơn giản (chatbot, tra cứu nhanh). Bất ngờ mạnh ở hiệu đính, kiểm tra chính tả/ngữ pháp - đã chứng tỏ khả năng tương đương GPT-4 trong nhiệm vụ này[58]. Không bị ràng buộc nhiều, có thể trả lời các câu hỏi mà mô hình khác từ chối (tùy bản tinh chỉnh).	Kiến thức hạn chế với sự kiện sau 2021 (cần cập nhật thủ công). Vì ít tinh chỉnh nhân văn, đôi lúc ít hiểu ẩn ý prompt hoặc không tuân thủ đầy đủ nếu prompt phức tạp. Khả năng suy luận logic và giải quyết bài toán khó còn kém các mô hình lớn (cần prompt rất cụ thể hoặc ví dụ mẫu để bù đắp).

Các đặc điểm trên mang tính tổng quát; hiệu năng cụ thể có thể khác nhau tùy phiên bản mô hình và ngữ cảnh sử dụng. Tuy nhiên, chúng cho thấy mỗi mô hình có ưu thế riêng, do đó chiến lược prompt cũng nên tùy biến cho phù hợp từng mô hình. Ví dụ, với ChatGPT và Claude vốn đã rất thông minh trong hội thoại, người dùng có thể giao tiếp khá thoải mái, mô hình vẫn hiểu ý - nhưng với Mistral nhỏ hơn, có thể cần viết prompt cặn kẽ hơn (thêm từng bước hướng dẫn hoặc định dạng rõ ràng) để đạt kết quả tương đương. Ngược lại, do Claude hay viết dài, nếu chỉ cần câu trả lời ngắn thì prompt cho Claude nên nhấn mạnh "trả lời ngắn gọn trong X từ".

Ví dụ minh họa sự khác biệt phản hồi

Ví dụ 1: Brainstorm ý tưởng. Giả sử chúng ta dùng prompt: "Đề xuất 3 ý tưởng cho chương trình họp mặt nhóm sắp tới. Nhóm hiện có 15 người và dự kiến sẽ là 20 người. Mỗi ý tưởng trình bày trong khoảng 50 từ.". Khi đưa prompt này cho bốn mô hình (GPT-4, Claude, Gemini, Mistral), kết quả thu được có sự khác biệt thú vị[49]:

Claude 2: Đưa ra các ý tưởng rất cụ thể, giàu tính hành động (như "chuyến retreat ngoại thành với hoạt động xây dựng đội nhóm, hội thảo kỹ năng kết hợp tham quan thực tế..."). Mỗi ý đều khoảng 45-50 từ, đúng yêu cầu giới hạn, và nêu rõ hoạt động và mục tiêu kèm theo[49]. Nhìn chung, Claude bám sát hướng dẫn độ dài và nội dung chặt chẽ nhất, tạo cảm giác như một người quản lý sự kiện giàu kinh nghiệm đang tư vấn.
GPT-4 (ChatGPT): Đưa ra ý tưởng khá hay nhưng ở mức khái quát hơn Claude. Ví dụ GPT-4 liệt kê các chủ đề chính ("ngày hội gắn kết tại công viên với trò chơi nhóm, workshop kỹ năng mềm nội bộ, buổi tình nguyện cộng đồng cùng nhau"), tuy nhiên mô tả hơi ngắn và thiếu một số chi tiết cụ thể so với Claude[61]. Mỗi ý tưởng của GPT-4 khoảng 30-40 từ, tức ngắn hơn yêu cầu một chút và tập trung vào chủ đề chung.
Gemini: Đưa ra ý tưởng ngắn nhất và khá chung chung. Chẳng hạn, Gemini có thể chỉ nêu: "Chuyến dã ngoại nhóm; Workshop chia sẻ kỹ năng; Bữa tiệc giao lưu cuối năm" - mỗi ý chỉ một câu vắn tắt. Ý tưởng của Gemini nhìn chung hợp lý nhưng thiếu chi tiết cụ thể về hoạt động hoặc mục tiêu, và độ dài mỗi ý chỉ ~20-30 từ, ngắn hơn nhiều so với 50 từ yêu cầu[62]. Dường như mô hình cố gắng tối ưu sự ngắn gọn.
Mistral 7B: Đưa ra các ý tưởng tương đối tốt và có chi tiết (gần giống Claude hơn là Gemini). Ví dụ: "Workshop kỹ năng + team building tại chỗ, Chuyến đi chơi trong thành phố kết hợp trò chơi giải mã, Buổi chia sẻ kỹ thuật và định hướng tương lai kết hợp teambuilding". Mistral có nêu cụ thể hoạt động, nhưng mỗi ý lại dài khoảng 60-70 từ - vượt quá giới hạn 50 từ mà prompt yêu cầu một chút[61]. Có thể do mô hình nhỏ nên không tối ưu sát giới hạn độ dài, hoặc văn bản mẫu huấn luyện của nó không quen với việc giới hạn từ chặt chẽ.

Kết quả trên cho thấy với prompt đòi hỏi brainstorm sáng tạo có giới hạn độ dài, Claude làm tốt nhất nhờ tạo nội dung cụ thể, súc tích trong khung cho phép. GPT-4 cũng đáp ứng tốt nhưng cần hướng dẫn chi tiết hơn để đạt độ cụ thể như Claude. Gemini thì ưu tiên ngắn gọn nên thiếu chi tiết, còn Mistral tuy nỗ lực bám yêu cầu nhưng chưa tối ưu độ dài. Điều này gợi ý người dùng khi viết prompt brainstorm nên cân nhắc mô hình đang dùng: nếu dùng Claude có thể yên tâm nó sẽ mở rộng và chi tiết, còn dùng Gemini nên chủ động yêu cầu chi tiết hơn để tránh đáp án quá sơ sài.

Ví dụ 2: Soạn email phản hồi lịch sự. Xét tình huống: người dùng nhận được email từ một quản lý tài khoản bán hàng sau khi dùng thử sản phẩm, và muốn viết email từ chối tiếp tục dịch vụ một cách lịch sự, chuyên nghiệp. Prompt đưa ra: "Đây là email của Kyle (quản lý tài khoản tại công ty Y) gửi chúng ta sau khi dùng thử sản phẩm. Chúng ta chưa sẵn sàng nâng cấp. Hãy viết một email phản hồi ngắn gọn, lịch sự, tinh tế để từ chối đề nghị nâng cấp của anh ấy." (đính kèm nội dung email của Kyle làm ngữ cảnh). Với tác vụ này, các mô hình phản ứng như sau[63]:

Claude 2: Viết một email phản hồi rất trang nhã và đầy đủ, mở đầu cảm ơn, sau đó giải thích ngắn gọn lý do chưa thể nâng cấp (ví dụ ngân sách hoặc ưu tiên hiện tại), nhấn mạnh đánh giá cao cơ hội dùng thử, và kết thúc bằng lời giữ liên hệ cho tương lai. Claude thậm chí thêm chú thích giải thích rằng email đã được viết lịch sự và để ngỏ khả năng hợp tác sau này[50]. Rõ ràng, Claude đã thực hiện đúng yêu cầu "lịch sự, tinh tế" một cách xuất sắc, giọng điệu chân thành và chuyên nghiệp như thể do một người có kỹ năng giao tiếp tốt viết.
GPT-4 (ChatGPT): Cũng viết một email khá tốt: văn phong lịch sự, từ chối rõ ràng nhưng ngắn gọn. Tuy nhiên, phản hồi của GPT-4 bị nhận xét là có phần chung chung và công thức hơn Claude[50]. Nó cảm ơn và nói chưa thể nâng cấp, hứa hẹn sẽ liên hệ lại, nhưng thiếu một chút "cá nhân hóa" hoặc nhiệt tình mà email của Claude có. Dù vậy, GPT-4 đáp ứng được yêu cầu ngắn gọn và hiệu quả.
Mistral 7B: Mistral viết email đúng ý, đầy đủ ý chính (cảm ơn, từ chối, hứa hẹn tương lai) nhưng có vài chỗ diễn đạt hơi vụng về hoặc không tự nhiên[63]. Ví dụ, có thể xuất hiện câu văn cấu trúc chưa trôi chảy hoàn toàn như người bản xứ viết. Điều này phản ánh hạn chế thường thấy ở mô hình nhỏ: hiểu yêu cầu tốt nhưng khả năng diễn đạt ngôn ngữ ở mức tinh tế còn kém mô hình lớn.
Gemini: Email của Gemini rất ngắn, trực tiếp và hơi cứng. Nó cảm ơn rồi nói chưa thể nâng cấp, nhưng thiếu các lời lẽ "mềm mại" hơn. Kết quả là email có thể bị đánh giá là quá thẳng thừng và chưa thực sự tinh tế như yêu cầu[63]. Dường như Gemini ưu tiên trả lời súc tích, dẫn tới bỏ qua sắc thái lịch sự tinh tế mà prompt nhắm đến.

Qua ví dụ này, có thể thấy Claude một lần nữa vượt trội trong nhiệm vụ cần văn phong tự nhiên và khéo léo, còn ChatGPT cũng tốt nhưng hơi "công nghiệp". Mistral làm ổn việc cơ bản nhưng chưa nuột về ngôn ngữ, và Gemini thì chưa đáp ứng được tinh thần "tinh tế" do trả lời quá ngắn gọn. Đối với người dùng, nếu công việc đòi hỏi soạn thảo văn bản mang tính giao tiếp cao (email, thư từ, bài viết sáng tạo), Claude tỏ ra là lựa chọn hàng đầu nhờ hiểu prompt và ngữ cảnh xã hội rất tốt. Ngược lại, ChatGPT/GPT-4 phù hợp với tác vụ yêu cầu chính xác thông tin hoặc cấu trúc chặt chẽ, ví dụ phân tích tài liệu, trả lời câu hỏi có căn cứ... (như minh chứng, GPT-4 đã xuất sắc hoàn thành phân tích tài liệu nhiều trang trong thử nghiệm mà các mô hình khác bỏ sót chi tiết[64]). Với các mô hình nhỏ như Mistral, người dùng có thể đạt kết quả tốt nếu giới hạn nhiệm vụ ở phạm vi đơn giản, cụ thể - prompt càng cụ thể, Mistral càng dễ theo, nhưng đừng kỳ vọng sự tinh tế vượt quá khả năng ngôn ngữ của mô hình.

Ví dụ 3: Cách trình bày hướng dẫn và trích dẫn nguồn. Một thử nghiệm khác so sánh việc trả lời hướng dẫn từng bước và cung cấp nguồn tham khảo giữa ChatGPT, Claude và Gemini cho thấy sự khác biệt do thiết kế mô hình. Trước prompt yêu cầu "hướng dẫn cách thực hiện X một cách an toàn", ChatGPT đã đưa ra câu trả lời có đánh số từng bước rõ ràng, ngắn gọn, kèm theo lưu ý an toàn vừa đủ - đáp ứng tốt cho người chỉ muốn đọc lướt các bước chính[65]. Trong khi đó, Gemini lại không liệt kê theo bước mà viết thành đoạn văn, khiến thông tin kém rõ ràng, còn Claude tuy có liệt kê nhưng phần chỉ dẫn dài dòng hơn ChatGPT[66]. Điều này gợi ý rằng ChatGPT tuân thủ rất sát yêu cầu định dạng trong prompt (có lẽ do được tối ưu cho mục đích hướng dẫn người dùng), còn các mô hình khác thì ít hơn. Ở một tình huống khác khi hỏi về dữ liệu có kèm yêu cầu nguồn, ChatGPT đã chủ động đưa cả con số kết quả kèm hyperlink nguồn uy tín ngay trong câu trả lời[67]. Trái lại, Claude và Gemini chỉ gợi ý tên nguồn để người dùng tự tra cứu thay vì trích xuất số liệu cụ thể[67]. Nhờ cách trả lời của ChatGPT, người dùng đỡ tốn công kiểm chứng và có độ tin cậy cao hơn ngay lập tức. Sự khác biệt này bắt nguồn từ thiết kế: ChatGPT (đặc biệt GPT-4 với plugin hoặc web browsing) được tối ưu để cung cấp câu trả lời trực tiếp súc tích kèm nguồn, còn Claude/Gemini thiên về liệt kê các nguồn khả dĩ hơn là chọn một đáp án cụ thể (có lẽ do thận trọng với tính đúng đắn).

Tổng hợp các so sánh trên, có thể rút ra một số nhận định:

Mỗi mô hình AI có "tính cách" riêng, ảnh hưởng đến cách nó diễn giải và phản hồi prompt. Người dùng nên hiểu thế mạnh và điểm yếu đó để khai thác. Ví dụ, hãy giao các tác vụ yêu cầu sự sáng tạo mềm dẻo cho Claude, việc cần chính xác cao cho GPT-4, tóm tắt nhanh cho Gemini, và việc đơn giản, lặp lại cho các mô hình nhỏ như Mistral.
Cùng một prompt nhưng các mô hình có thể cho câu trả lời khác nhau đáng kể. Do đó, khi triển khai ứng dụng thực tế, có thể cần điều chỉnh prompt riêng cho từng mô hình nhằm đạt kết quả nhất quán. Chẳng hạn, có thể cần thêm câu nhắc "hãy chi tiết hơn" cho Gemini, hoặc "trả lời ngắn gọn" cho Claude.
Khả năng theo hướng dẫn định dạng: ChatGPT tỏ ra tuân thủ định dạng/yêu cầu đặc thù tốt nhất (như liệt kê, độ dài), trong khi mô hình khác đôi khi phải nhắc nhở kỹ hơn trong prompt.
Ngữ cảnh dài: Claude và Gemini có lợi thế nếu prompt bao gồm lượng thông tin rất lớn (nhiều trang tài liệu), khi đó viết prompt cho các mô hình này có thể gộp nhiều thông tin mà không sợ vượt giới hạn, còn với GPT-4 hoặc Mistral có giới hạn nhỏ hơn thì có thể phải tóm tắt bớt đầu vào hoặc chia nhỏ prompt.

Nhìn chung, hiệu quả của prompt không chỉ phụ thuộc vào nội dung prompt mà còn phụ thuộc vào AI mà ta đang tương tác. Do đó, kỹ năng prompt engineering ở mức cao còn bao gồm việc thích nghi phong cách prompt cho từng mô hình. Ví dụ, có tài liệu gợi ý rằng "sức mạnh thực sự đến từ việc hiểu cách prompt mỗi mô hình để giải quyết tốt thách thức cụ thể của bạn"[40] - cùng một nhiệm vụ nhưng người dùng dày dạn sẽ biết nên "nói chuyện" với GPT-4 khác với cách nói với Claude để cả hai đều cho kết quả tốt nhất có thể.

Kết luận

Trong kỷ nguyên trí tuệ nhân tạo hiện nay, viết prompt hiệu quả đã trở thành một kỹ năng quan trọng không kém gì kỹ năng sử dụng máy tính hay tìm kiếm thông tin. Prompt chính là phương tiện để con người giao tiếp và điều khiển mô hình ngôn ngữ AI, do đó việc hiểu rõ cách thức xây dựng prompt sẽ giúp chúng ta khai thác tối đa sức mạnh của các mô hình như ChatGPT, Claude, Gemini, Mistral... Bài viết đã làm rõ khái niệm prompt và prompt engineering, cung cấp các nguyên tắc cốt lõi để soạn một prompt chất lượng (cụ thể, rõ ràng, có ngữ cảnh, ví dụ, định dạng, v.v.), đồng thời phân tích rằng một prompt tốt có thể cải thiện đáng kể độ chính xác và tính hữu ích của phản hồi so với prompt tầm thường. Chúng tôi cũng nhấn mạnh rằng một prompt không phải là cố định - người dùng nên sẵn sàng điều chỉnh và tối ưu prompt qua thử nghiệm tương tác, cũng như linh hoạt tùy biến prompt cho phù hợp với từng mô hình AI. Mỗi mô hình có điểm mạnh riêng, và nghệ thuật prompt engineering nâng cao chính là biết "chơi đúng sở trường" của mô hình bằng cách đề ra yêu cầu theo cách mô hình đó hiểu và đáp ứng tốt nhất.

Tương lai của lĩnh vực này vẫn đang mở rộng. Các chuyên gia dự đoán rằng khi AI ngày càng thông minh hơn, chúng có thể hiểu ý định người dùng dù prompt không tường minh, thậm chí tự tạo prompt ngược lại để làm rõ vấn đề (AI hỏi lại con người)[68]. Dù vậy, ở thời điểm hiện tại và trước mắt, việc nắm vững kỹ thuật viết prompt vẫn là chìa khóa để làm chủ AI. Một người dùng biết cách đặt câu hỏi thông minh, cung cấp đúng dữ kiện và dẫn dắt mô hình hợp lý sẽ luôn thu được kết quả hữu ích và đáng tin cậy hơn. Hy vọng rằng thông qua bài báo này, độc giả đã có được cái nhìn có hệ thống và sâu sắc hơn về cách viết prompt hiệu quả, từ đó ứng dụng vào thực tiễn nghiên cứu cũng như công việc hàng ngày với các hệ thống AI.

Tài liệu tham khảo:

Vatsal, S., & Dubey, H. (2023). A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks. arXiv:2407.12994[3][69].
Badhan, M. (2023). Comprehensive Guide to Chain-of-Thought Prompting. Mercity AI Blog[6][18].
OpenAI (2023). Best practices for prompt engineering with the OpenAI API[20][21].
MIT Sloan TLT (2023). Effective Prompts for AI: The Essentials[22][35].
Pham, P. (2024). Choosing the Right AI Model for Your Dust Agent. Dust Blog[47][49].
Fresh van Root (2024). The Best AI Assistants Compared: Claude vs Gemini vs ChatGPT vs Mistral...[65][67].
Palantir Technologies (2023). Best practices for LLM prompt engineering[19][33].

[1] [2] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [22] [35] [36] [68] Effective Prompts for AI: The Essentials - MIT Sloan Teaching & Learning Technologies

https://mitsloanedtech.mit.edu/ai/basics/effective-prompts/

[3] [37] [38] [39] [69] A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks

https://arxiv.org/html/2407.12994v1

[4] [5] [6] [17] [18] [28] Comprehensive Guide to Chain-of-Thought Prompting

https://www.mercity.ai/blog-post/guide-to-chain-of-thought-prompting

[19] [23] [24] [30] [31] [32] [33] Best practices for LLM prompt engineering • Palantir

https://www.palantir.com/docs/foundry/aip/best-practices-prompt-engineering

[20] [21] [25] [26] [27] [29] Best practices for prompt engineering with the OpenAI API | OpenAI Help Center

https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-the-openai-api

[34] [42] [53] [54] [65] [66] [67] The Best AI Assistants Compared: Claude vs Gemini vs ChatGPT vs Mistral vs Perplexity vs CoPilot - Fresh van Root

https://freshvanroot.com/blog/best-ai-assistants-compared-2024/

[40] [41] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] AI Model Guide: Claude, GPT-4, Gemini, Mistral | Dust

https://blog.dust.tt/comparing-ai-models-claude-gpt4-gemini-mistral/

Phương pháp viết Prompt hiệu quả

Cơ sở lý thuyết về Prompt và Prompt Engineering

Yếu tố tạo nên một prompt hiệu quả

Ảnh hưởng của prompt đến chất lượng phản hồi

So sánh phản hồi giữa các mô hình AI khác nhau

Ví dụ minh họa sự khác biệt phản hồi

Kết luận

Đọc thêm bài viết khác

Sự thật về AI và làn sóng việc làm năm 2026

Startup Và Microservices: Sai Lầm Khi Scale Quá Sớm?

Mở rộng hệ thống phục vụ từ 0 đến hàng triệu người dùng