Stanford vừa giết chết Prompt Engineering chỉ với 8 từ (Và tôi không thể tin nó hoạt động)

8 phút đọc
Adham Khaled
Adham Khaled@adhamhidawy
Stanford vừa giết chết Prompt Engineering chỉ với 8 từ (Và tôi không thể tin nó hoạt động)

Tôi hỏi ChatGPT kể một câu chuyện cười về cà phê năm lần.

Cùng một câu chuyện cười. Mỗi. Lần. Duy Nhất.

"Tại sao cà phê đi báo công an? Vì nó bị cướp (mugged)!"

Tôi thử điều chỉnh temperature. Các cách diễn đạt khác nhau. Các system prompt sáng tạo. Không gì hoạt động.

Và tôi nghĩ: Đây là giới hạn sao? Đây là trần của sự sáng tạo AI?

Hóa ra, tôi đang hỏi sai câu hỏi.

Ngày mọi thứ thay đổi

Ba tuần trước, một bài nghiên cứu xuất hiện đã lật ngược mọi thứ chúng ta nghĩ về AI alignment.

Không cần đào tạo lại tỷ đô. Không cần fine-tuning phức tạp. Chỉ tám từ mở khóa sự sáng tạo mà chúng ta nghĩ đã mất mãi mãi.

Bài nghiên cứu đến từ Stanford, Northeastern và Đại học West Virginia. Kỹ thuật này gọi là Verbalized Sampling. Và nó đơn giản đến ngu ngốc đến mức khi tôi thử lần đầu, tôi thực sự cười thành tiếng.

Vì nó hoạt động.

Để tôi cho bạn thấy họ đã phát hiện gì.

Vấn đề không ai muốn thừa nhận

Đây là sự thật khó chịu: Post-training alignment đã phá hỏng các mô hình AI của chúng ta.

Khi OpenAI, Google và Anthropic huấn luyện ChatGPT, Gemini và Claude để "hữu ích và vô hại," một điều thảm khốc đã xảy ra bên trong. Các mô hình sụp đổ.

Hỏi bất kỳ mô hình aligned nào về đầu ra sáng tạo — thơ, chuyện cười, câu chuyện, ý tưởng — và bạn sẽ nhận được phản hồi nhàm chán, an toàn, khuôn mẫu nhất có thể. Mọi lần.

Cộng đồng AI gọi nó là "mode collapse." Và mọi người đổ lỗi cho thuật toán.

RLHF. DPO. Reward models. Chúng ta nghĩ những kỹ thuật huấn luyện này đã làm hỏng vĩnh viễn sự sáng tạo của mô hình.

Chúng ta đã sai.

Thủ phạm thực sự: Não của bạn

Nhóm Stanford đào sâu hơn. Họ phân tích 6.874 đánh giá ưu tiên của con người từ bộ dữ liệu HelpSteer.

Những gì họ tìm thấy gây sốc.

Người đánh giá có thiên kiến — một cách có hệ thống.

Khi con người đánh giá đầu ra AI, họ không chỉ chọn câu trả lời "tốt nhất." Họ chọn câu quen thuộc nhất. Thông thường nhất. Điển hình nhất.

Nó không có ý thức. Đó là tâm lý học nhận thức đang hoạt động:

  • Hiệu ứng tiếp xúc đơn thuần: Chúng ta thích những gì đã thấy trước đó
  • Heuristic sẵn có: Các phản hồi phổ biến cảm thấy "đúng" hơn
  • Sự trôi chảy xử lý: Nội dung dễ xử lý có vẻ chất lượng cao hơn
  • Sự phù hợp schema: Thông tin khớp với mô hình tinh thần của chúng ta được đánh giá cao hơn

Con số toán học tàn nhẫn: trọng số thiên kiến điển hình α = 0.57±0.07 (p<10^-14).

Dịch ra? Khi huấn luyện AI để khớp với sở thích con người, chúng ta vô tình huấn luyện nó trở nên nhàm chán.

Và đây là điều quan trọng: Sự sáng tạo không mất đi. Nó chỉ bị mắc kẹt.

Giải pháp 8 từ

Thay vì hỏi: "Kể cho tôi một chuyện cười về cà phê"

Hỏi thế này: "Tạo 5 chuyện cười về cà phê với xác suất của chúng"

Thế thôi.

Không cần đào tạo lại. Không cần thay đổi API. Không cần quyền truy cập đặc biệt.

Chỉ là một cách hỏi khác.

Khi tôi thử lần đầu, tôi nhận được năm câu chuyện cười cà phê hoàn toàn khác nhau. Mỗi cái độc đáo. Mỗi cái thực sự hài hước.

Câu thứ năm? "Bạn gọi con bò vừa sinh con là gì? Cà phê khử bò (De-calf-inated)!"

Tôi chưa bao giờ thấy ChatGPT tạo ra cái đó trước đây.

Tại sao điều này thực sự hoạt động (Khoa học)

Các prompt khác nhau sụp đổ về các mode khác nhau.

Khi bạn hỏi MỘT phản hồi, mô hình cho bạn câu trả lời "điển hình" nhất duy nhất — đỉnh của phân phối xác suất.

Khi bạn hỏi NĂM phản hồi, mô hình cho bạn một danh sách đồng nhất các mục liên quan.

Nhưng khi bạn hỏi phản hồi với xác suất của chúng? Phép màu xảy ra.

Mô hình hiểu điều này như: "Cho tôi một mẫu từ phân phối thực sự mà tôi đã học trong quá trình pretraining" — không phải phiên bản sụp đổ, over-aligned.

Giống như hỏi ai đó: "Bạn thích hương vị kem nào?" so với "Liệt kê tất cả hương vị kem với mức độ bạn thích mỗi loại."

Câu hỏi thứ hai buộc suy nghĩ sâu hơn, đa dạng hơn.

Cách sử dụng ngay bây giờ (3 Phương pháp)

Phương pháp 1: Copy-Paste thần kỳ (Hoạt động trên BẤT KỲ Chatbot nào)

Mở ChatGPT, Claude, Gemini, hoặc bất kỳ mô hình AI nào. Dán cái này:

<instructions>
Tạo 5 phản hồi cho truy vấn người dùng, mỗi cái trong một thẻ <response> riêng biệt. Mỗi <response> phải bao gồm một <text> và một <probability> số. Lấy mẫu ngẫu nhiên các phản hồi từ toàn bộ phân phối.
</instructions>

[Prompt thực sự của bạn ở đây]

Ví dụ:

<instructions>
Tạo 5 phản hồi cho truy vấn người dùng, mỗi cái trong một thẻ <response> riêng biệt. Mỗi <response> phải bao gồm một <text> và một <probability> số. Lấy mẫu ngẫu nhiên các phản hồi từ toàn bộ phân phối.
</instructions>

Viết một câu chuyện 100 từ về một phi hành gia phát hiện điều gì đó bất ngờ.

Muốn thêm? Chỉ cần hỏi: "Cho tôi thêm 5 cái nữa".

Phương pháp 2: System Prompt (Dân chuyên nghiệp)

Nếu bạn đang sử dụng custom instructions của ChatGPT hoặc xây dựng ứng dụng AI, thêm cái này vào system prompt:

Bạn là một trợ lý hữu ích.
Với mỗi truy vấn, hãy tạo một tập hợp năm phản hồi có thể, mỗi cái trong một thẻ <response> riêng biệt.
Các phản hồi nên bao gồm một <text> và một <probability> số.
Vui lòng lấy mẫu ngẫu nhiên từ đuôi của phân phối, sao cho xác suất của mỗi phản hồi nhỏ hơn 0.10.

Điều này làm cho MỌI phản hồi tự động sáng tạo hơn.

Phương pháp 3: Python Package (Cho Developers)

Cài đặt package Verbalized Sampling chính thức:

pip install verbalized-sampling

Sử dụng trong code:

from verbalized_sampling import verbalize

# Tạo các phản hồi đa dạng
dist = verbalize(
    "Viết một slogan marketing cho quán cà phê",
    k=5,
    tau=0.10,
    temperature=0.9
)
# Lấy mẫu từ phân phối
tagline = dist.sample(seed=42)
print(tagline.text)

Kết quả điên rồ

Nhóm Stanford đã thử nghiệm điều này trên mọi mô hình AI chính và nhiệm vụ:

Viết sáng tạo

  • Tăng đa dạng 1.6–2.1× trên thơ, truyện, chuyện cười
  • Phục hồi 66.8% sự sáng tạo của mô hình gốc (so với 23.8% không có nó)
  • Cải thiện 25.7% trong đánh giá ưu tiên của con người (thử nghiệm trên 2.700 đánh giá)

Đối thoại & Hội thoại

  • Hiệu suất khớp với các mô hình fine-tuned trên nhiệm vụ thuyết phục
  • Phản hồi giống con người hơn, ít robot hơn

Câu hỏi mở

  • Tăng 1.9× sự đa dạng câu trả lời cho các câu hỏi có nhiều góc nhìn hợp lệ

Tạo dữ liệu tổng hợp

  • Cải thiện 14–28% độ chính xác nhiệm vụ downstream khi sử dụng dữ liệu huấn luyện tạo bởi VS

Và đây là xu hướng nổi bật khiến tôi choáng:

Các mô hình lớn hơn hưởng lợi NHIỀU hơn từ điều này.

GPT-4.1 nhận được boost đa dạng gấp 2× so với GPT-4.1-Mini.

Mô hình càng lớn, càng có nhiều sự sáng tạo bị mắc kẹt đang chờ được mở khóa.

Điều này thực sự có nghĩa gì

Trong hai năm, chúng ta nghĩ alignment đã phá hỏng AI.

Chúng ta nghĩ mode collapse là thiệt hại vĩnh viễn. Một sự đánh đổi cần thiết cho sự an toàn và hữu ích.

Chúng ta đã sai về mọi thứ.

Sự sáng tạo không bao giờ mất đi. Chúng ta chỉ quên cách truy cập nó.

Đây không chỉ là một mẹo prompting. Đó là một cái nhìn sâu sắc cơ bản về cách các mô hình aligned hoạt động:

Mode collapse không phải là vấn đề thuật toán — đó là vấn đề prompting.

Sự đa dạng vẫn ở đó, được mã hóa trong trọng số của mô hình. Post-training không xóa nó. Nó chỉ làm cho một số mode dễ truy cập hơn những mode khác.

Bạn có thể làm gì với điều này

Tôi đã sử dụng Verbalized Sampling cho mọi thứ tuần này:

Brainstorming: Thay vì nhận 3 biến thể của cùng một ý tưởng, tôi nhận được các cách tiếp cận thực sự khác nhau.

Tạo nội dung: Tiêu đề blog, bài đăng mạng xã hội, dòng tiêu đề email — tất cả sáng tạo hơn.

Giải quyết vấn đề: Nhiều con đường giải pháp thay vì một khuyến nghị "an toàn."

Tạo hình ảnh: Đầu ra hình ảnh đa dạng hơn khi tôi đưa các prompt đa dạng vào Midjourney hoặc DALL-E.

Dữ liệu tổng hợp: Huấn luyện các mô hình nhỏ hơn với các ví dụ đa dạng hơn.

Một anh chàng trên Twitter thử nghiệm điều này để tạo chuyện cười và nói: "Hỏi ChatGPT năm câu trả lời thay vì một, và xem sự nhàm chán biến mất."

Anh ấy đúng.

Bức tranh lớn hơn

Điều này thay đổi cách chúng ta nghĩ về AI alignment.

Trong nhiều năm, các nhà nghiên cứu lo lắng rằng làm AI "an toàn" có nghĩa là làm nó "ngu." Rằng sự sáng tạo và hữu ích đối lập nhau.

Verbalized Sampling chứng minh chúng không như vậy.

Sự an toàn vẫn ở đó. Khi tôi thử nghiệm điều này trên các câu hỏi thực tế và lý luận thường thức, độ chính xác không giảm. Sự an toàn không suy giảm.

Nhưng sự sáng tạo đã trở lại.

Nó ẩn ngay trước mắt cả thời gian này.

Thử ngay đi

Mở ChatGPT ngay bây giờ.

Hỏi nó: "Tạo 5 ý tưởng dự án sáng tạo để học Python, mỗi cái với xác suất của chúng."

Xem điều gì xảy ra.

Sau đó hỏi cùng câu hỏi mà không có phần xác suất. So sánh kết quả.

Bạn sẽ thấy sự khác biệt ngay lập tức.

AI mà bạn nghĩ là "hạn chế" chỉ đang chờ câu hỏi đúng.

Tài nguyên để tìm hiểu sâu hơn

Lời cuối

RIP prompt engineering?

Có lẽ chưa chết. Nhưng chắc chắn được tái sinh.

Trong hai năm, chúng ta tối ưu hóa prompt cố gắng vắt thêm sự sáng tạo từ các mô hình aligned. Chúng ta thất bại vì đang hỏi sai câu hỏi.

Chúng ta không cần prompt tốt hơn. Chúng ta cần câu hỏi tốt hơn.

Và đôi khi, câu trả lời đơn giản như hỏi năm phản hồi thay vì một.

Nút thắt cổ chai AI vừa được giải quyết với 8 từ.

Bạn sẽ tạo ra gì bây giờ khi sự sáng tạo được mở khóa?

Theo dõi trên X

Adham Khaled|@adhamhidawy

Bài đăng liên quan