AI TỐT
Chia sẻ kiến thức AI để tốt hơn

AI vừa trượt bài kiểm tra cuối cùng của nhân loại (và giờ chúng ta đã biết tại sao)

10 phút đọc
DrSwarnenduAI
DrSwarnenduAI

AI Just Failed Humanity’s Last Exam

Hãy xem video này: Bài kiểm tra cuối cùng của Nhân loại dành cho các LLM

Điều này đã thôi thúc tôi viết bài hôm nay!

Những cỗ máy thông minh nhất thế giới đạt điểm dưới 10%. Đây là lý do toán học đằng sau sự sụp đổ ngoạn mục của chúng.

Trong nhiều năm, chúng ta đã tự lừa dối chính mình.

GPT-4 đạt 90% trong kỳ thi luật sư. Claude nghiền nát các bài kiểm tra cấp phép y tế. Cứ vài tháng một lần, một công ty AI nào đó lại tweet về "hiệu suất ngang tầm con người" trên một benchmark nào đó.

Chúng ta gọi đó là sự tiến bộ. Chúng ta ăn mừng. Chúng ta viết những dòng tít về trí tuệ nhân tạo tổng quát (AGI) "sắp xuất hiện".

Rồi ai đó đã thực sự tạo ra một bài kiểm tra khó.

Và các AI trị giá hàng tỷ đô la, hiện đại nhất của chúng ta đã đạt điểm dưới 10%.

Không phải 85%. Không phải 70%. Thậm chí không phải 50%.

Dưới 10%.

Giống như một sinh viên say xỉn đến trường, khoanh bừa câu trả lời rồi về sớm.

Bài kiểm tra này được gọi là Bài kiểm tra cuối cùng của Nhân loại (Humanity’s Last Exam). Và nó vừa tiết lộ một điều đáng sợ về những cỗ máy chúng ta đang xây dựng: chúng không thông minh. Chúng chỉ thực sự, thực sự giỏi trong việc giả mạo.

Hãy để tôi cho bạn thấy tại sao chúng thất bại — và điều đó có ý nghĩa gì đối với tất cả chúng ta.

Bài kiểm tra đã hạ gục AI

Đây là những gì đã xảy ra:

Trung tâm An toàn AI (Center for AI Safety) và Scale AI đã tập hợp 1.000 chuyên gia thực thụ. Các tiến sĩ. Các giáo sư. Những người đã dành nhiều thập kỷ để làm chủ các lĩnh vực kiến thức cụ thể của con người.

Họ yêu cầu mỗi chuyên gia viết ra những câu hỏi ở giới hạn tuyệt đối của những gì họ biết. Không phải kiến thức sách vở. Không phải những câu hỏi rác rưởi kiểu "kể tên ba nguyên nhân của Nội chiến". Mà là những vấn đề thực sự có thể thách thức một nghiên cứu sinh hoặc một nhà nghiên cứu đang hành nghề.

Họ đã thu thập 3.000 câu hỏi bao gồm 41% toán học, 11% sinh học, 9% vật lý và hàng chục lĩnh vực khác.

Sau đó, họ đưa nó cho các AI "siêu thông minh" của chúng ta.

Các mô hình AI tiên tiến nhất đạt điểm dưới 10%.

Để bạn dễ hình dung: đoán ngẫu nhiên sẽ giúp bạn đạt khoảng 5–8% trong bài kiểm tra này.

Các AI tốt nhất của chúng ta chỉ nhỉnh hơn một con khỉ bấm nút một chút.

Nhưng mọi chuyện còn tệ hơn

Điểm số thấp đã là tệ. Nhưng đó không phải là phần đáng sợ.

Phần đáng sợ là những gì đã xảy ra khi các nhà nghiên cứu xem xét mức độ tự tin của các AI.

Bạn biết đấy, khi bạn không chắc chắn về một câu trả lời trong bài kiểm tra, bạn có thể viết "Tôi nghĩ đó là B, nhưng tôi không chắc lắm"?

AI cũng có một thứ tương tự. Chúng tạo ra một điểm số tự tin: chúng chắc chắn đến mức nào về câu trả lời của mình.

Đây là những gì các nhà nghiên cứu đã tìm thấy:

Khi AI nói rằng nó tự tin 90%, nó đã sai 90% trong số các trường hợp đó.

Hãy đọc lại câu đó.

Những cỗ máy này không chỉ ngớ ngẩn. Chúng còn tự tin một cách ngoạn mục, một cách thảm hại vào sự ngu ngốc của mình.

Nó giống như có một đồng nghiệp sai về mọi thứ nhưng lại tranh cãi với sự chắc chắn tuyệt đối. Chỉ khác là chúng ta đang nói về các hệ thống mà chúng ta đang triển khai để chẩn đoán y tế, viết bản tóm tắt pháp lý và kiểm soát cơ sở hạ tầng quan trọng.

Thuật ngữ kỹ thuật cho điều này là "lỗi hiệu chỉnh" (calibration error). Thuật ngữ đời thường là "ảo tưởng nguy hiểm".

Bốn lý do toán học khiến AI không thể vượt qua

Hãy đi sâu vào toán học thực tế. Bởi vì những lý do khiến các AI này thất bại không phải là ngẫu nhiên — chúng là những vấn đề kiến trúc cơ bản.

Vấn đề 1: Kim tự tháp kiến thức bị phá vỡ

Hãy nghĩ về cách bạn trả lời một câu hỏi cấp tiến sĩ về topology hay sinh học phân tử.

Các AI được đào tạo trên toàn bộ internet. Chúng đã "thấy" các bài báo về topology và nghiên cứu sinh học. Chúng có thể nói về những chủ đề này một cách trôi chảy.

Nhưng có một sự khác biệt giữa việc biết về một cái gì đó và có thể lý luận với nó.

Đây là vấn đề toán học:

Các mô hình AI lưu trữ kiến thức trong một không gian vector khổng lồ với khoảng 12.000–16.000 chiều (tùy thuộc vào mô hình). Mọi khái niệm — từ "con mèo" đến "đa tạp Riemann" — đều được biểu diễn dưới dạng một điểm trong không gian này.

Đối với các chủ đề phổ biến trên internet như "cách nướng bánh quy", AI đã thấy hàng ngàn ví dụ. Biểu diễn này mạnh mẽ, ổn định, được xác định rõ ràng.

Đối với các chủ đề chuyên sâu như "ứng dụng của đối xứng gương đồng điều vào đa tạp Calabi-Yau", có lẽ nó chỉ thấy ba bài báo. Biểu diễn này yếu, không ổn định, dễ bị nhầm lẫn với các khái niệm liền kề.

Vấn đề là: các câu hỏi HLE đòi hỏi phải kết hợp nhiều khái niệm hiếm, được biểu diễn yếu theo những cách mới lạ.

Khi bạn nhân tín hiệu yếu × tín hiệu yếu × tín hiệu yếu qua một chuỗi lý luận nhiều bước, xác suất thành công sẽ giảm theo cấp số nhân.

$$P_{\text{correct}} = P_1 \times P_2 \times P_3 \times … \times P_n$$

Nếu mỗi bước có độ chính xác 90% (một con số hào phóng cho các khái niệm hiếm), và bạn cần 10 bước:

$$P_{\text{correct}} = 0.9^{10} = 0.35$$

Đó là 35% cho một bài toán 10 bước. Các câu hỏi HLE thường yêu cầu 20, 50, thậm chí hơn 100 bước lý luận.

$$0.9^{50} = 0.005$$

Nửa phần trăm. Và đó là khi chúng ta đã hào phóng với độ chính xác 90% mỗi bước.

Đây là lý do tại sao các AI đạt điểm dưới 10%. Toán học không nói dối.

Vấn đề 2: Cái bẫy của câu trả lời chính xác

Đây là điều mà hầu hết mọi người không biết: 76% câu hỏi HLE không phải là trắc nghiệm.

Chúng là câu trả lời ngắn. Điền vào chỗ trống. Tính toán giá trị chính xác.

Tại sao điều này lại quan trọng?

Bởi vì các AI được đào tạo để nghe có vẻ hợp lý, chứ không phải để chính xác.

Khi bạn hỏi ChatGPT một câu hỏi, nó không tính toán câu trả lời. Nó đang dự đoán những từ nào có khả năng xuất hiện tiếp theo dựa trên các mẫu trong dữ liệu huấn luyện của nó.

Đối với trắc nghiệm, điều này hoạt động khá tốt. AI có thể đối sánh mẫu để tìm ra "câu này nghe có vẻ giống câu trả lời đúng hơn những câu khác."

Nhưng đối với câu trả lời chính xác thì sao?

"Giá trị riêng thứ ba của ma trận 4×4 này là gì?"

Chỉ có một câu trả lời đúng. Không phải "xấp xỉ 2". Không phải "khoảng 2". Chính xác là $2.0000$.

Sai một chữ số thập phân? Không điểm.

Một lỗi biến đổi đại số ở đâu đó trong một chuỗi 50 bước? Không điểm.

Các AI không có chế độ chính xác đặc biệt. Chúng vẫn đang thực hiện những dự đoán xác suất như mọi khi, chỉ khác là bây giờ không có chỗ cho sai sót.

Nó giống như yêu cầu ai đó đi qua một cây xà rộng gần 2 mét so với đi trên một sợi dây mảnh 2.5 centimet. Cùng một người, cùng khả năng đi bộ, nhưng tỷ lệ thành công hoàn toàn khác nhau.

Vấn đề 3: Sự mù mờ về hình ảnh

14% câu hỏi HLE bao gồm sơ đồ, biểu đồ hoặc hình vẽ khoa học.

Hãy cho AI xem một sơ đồ động lực học chất lỏng và hỏi: "Tại điểm nào dòng chảy trở nên hỗn loạn?"

AI phải:

  1. Hiểu hình ảnh một cách trực quan.
  2. Liên kết các yếu tố hình ảnh (mũi tên, đường cong, vùng tô bóng) với các khái niệm vật lý (vận tốc, áp suất, độ nhớt).
  3. Áp dụng kiến thức lý thuyết vào bối cảnh cụ thể của sơ đồ.
  4. Suy ra một câu trả lời từ sự kết hợp giữa hình ảnh và lý thuyết.

Các AI hiện tại rất tệ trong việc này.

Chúng có thể mô tả hình ảnh khá tốt: "Đây có vẻ là một sơ đồ động lực học chất lỏng cho thấy các mẫu dòng chảy xung quanh một chướng ngại vật."

Nhưng điều đó khác với việc lý luận với hình ảnh.

Đó là sự khác biệt giữa việc nói "đây là một bàn cờ với các quân cờ trên đó" và việc thực sự chơi cờ.

Vấn đề kỹ thuật này được gọi là "chú ý đa phương thức" (cross-modal attention). Việc xử lý hình ảnh và xử lý văn bản diễn ra ở các phần khác nhau của mô hình, và chúng không tích hợp một cách trơn tru.

Hãy tưởng tượng bạn đang cố gắng giải một bài toán trong khi ai đó đọc to các con số cho bạn, nhưng bạn không thể nhìn thấy trang giấy. Đó là những gì AI đang làm với thông tin hình ảnh.

Vấn đề 4: Lời nói dối về sự tự tin

Đây là yếu tố chí mạng.

Khi một AI trả lời sai một câu hỏi, bạn sẽ hy vọng nó sẽ nói "Tôi không biết" hoặc ít nhất là thể hiện sự không chắc chắn.

Thay vào đó, nó lại càng tỏ ra chắc chắn hơn.

Lỗi hiệu chỉnh RMS (RMS Calibration Error) vượt quá 80%.

Dịch ra là: Điểm số tự tin nội bộ của AI gần như không có mối liên hệ nào với việc nó có thực sự đúng hay không.

Đây là lý do tại sao điều này xảy ra về mặt toán học:

Trong quá trình huấn luyện, các AI học cách tối đa hóa điểm "khả năng" (likelihood) — về cơ bản là chúng có thể dự đoán từ tiếp theo một cách tự tin như thế nào dựa trên các từ trước đó.

Nhưng điều này huấn luyện chúng tự tin về các mẫu chúng đã thấy thường xuyên, chứ không phải là chính xác về những điều chúng biết một cách yếu ớt.

Các mẫu tần suất cao trong dữ liệu huấn luyện → độ tự tin cao Các mẫu hiếm trong dữ liệu huấn luyện → nên có độ tự tin thấp, nhưng mô hình không biết những gì nó không biết

Nó giống như ai đó hỏi bạn một câu hỏi về lịch sử Mông Cổ và bạn tự tin trả lời dựa trên một điều bạn nhớ mang máng từ một podcast. Bạn nghe có vẻ chắc chắn, nhưng bạn chỉ đang đối sánh mẫu từ dữ liệu hạn chế.

Toán học cho thấy điều này là một sự không khớp về phân phối:

$$\text{Độ tự tin} \propto \text{Tần suất dữ liệu huấn luyện}$$ $$\text{Độ chính xác} \propto \text{Kiến thức thực tế}$$

Đối với các chủ đề phổ biến, chúng khớp nhau. Đối với các chủ đề hiếm (mà HLE tập trung vào), chúng hoàn toàn khác biệt.

AI tự tin vì nó đã thấy các mẫu văn bản trông tương tự. Nó sai vì những mẫu đó không tương ứng với sự hiểu biết thực sự.

Điều này thực sự có ý nghĩa gì

Hãy để tôi dịch điều này ra khỏi ngôn ngữ toán học:

Chúng ta đã xây dựng những cỗ máy thực sự giỏi trong việc bắt chước các mẫu ngôn ngữ của con người.

Chúng ta đã nhầm lẫn sự bắt chước này với trí thông minh.

Bây giờ chúng ta đang nhận ra sự khác biệt một cách đau đớn.

Mỗi lần bạn bị ấn tượng bởi ChatGPT, điều bạn thực sự thấy là sự đối sánh mẫu tinh vi. AI đã tìm thấy các ví dụ tương tự trong dữ liệu huấn luyện của nó và pha trộn chúng lại với nhau theo một cách có khả năng thống kê.

Đối với các câu hỏi phổ biến với nhiều ví dụ huấn luyện, điều này hoạt động rất tốt.

Đối với các vấn đề hiếm, mới lạ, phức tạp đòi hỏi lý luận thực sự — loại mà con người thực sự coi trọng — nó sụp đổ.

Và đây là điều khiến tôi mất ngủ: AI không thể nhận ra sự khác biệt.

Nó sẽ trả lời "2+2 bằng mấy?" và "Giải pháp cho giả thuyết Riemann là gì?" với cùng một mức độ tự tin.

Bởi vì đối với AI, cả hai đều chỉ là bài toán dự đoán từ. Nó không có khái niệm rằng một cái là sự thật hiển nhiên và cái kia là điều chưa ai biết trong nhân loại.

Những hệ quả trong thế giới thực

Bạn có thể nghĩ: "Được rồi, vậy là AI không thể vượt qua các kỳ thi cấp chuyên gia. Thì sao chứ? Tôi không dùng nó cho nghiên cứu tiến sĩ."

Vấn đề là đây:

Mỗi ngày, các AI đang được triển khai trong những tình huống mà chúng phải đối mặt với những thách thức giống như HLE.

Chẩn đoán y tế thường đòi hỏi kiến thức cấp chuyên gia, lý luận nhiều bước và độ chính xác tuyệt đối. Giống như HLE.

Nghiên cứu pháp lý đòi hỏi phải tìm ra các tiền lệ hiếm, kết hợp chúng một cách chính xác và đi đến kết luận chính xác. Giống như HLE.

Nghiên cứu khoa học đòi hỏi phải tổng hợp kiến thức chuyên ngành qua các lĩnh vực và tạo ra những hiểu biết mới lạ. Giống như HLE.

Chúng ta đang triển khai các hệ thống đạt 10% điểm cho các nhiệm vụ này vào những tình huống mà thất bại có nghĩa là người ta chết, vào tù hoặc đưa ra những quyết định thảm khốc.

Và phần tồi tệ nhất? Bởi vì AI rất tự tin, mọi người tin tưởng nó.

Con đường phía trước (hay: Điều gì cần phải thay đổi)

Đây là những gì cần thay đổi để AI thực sự vượt qua các bài kiểm tra như HLE:

1. Chuỗi lý luận tốt hơn

Các AI hiện tại suy nghĩ theo một đường thẳng: đầu vào → một lần đi qua mô hình → đầu ra.

Con người suy nghĩ theo vòng lặp: vấn đề → giả thuyết → kiểm tra → sửa đổi → kiểm tra lại → …

Chúng ta cần các kiến trúc có thể:

  • Tự kiểm tra công việc của mình
  • Nhận ra khi chúng không chắc chắn
  • Thử nhiều cách tiếp cận
  • Quay lại khi sai

Một số phòng nghiên cứu đang làm việc về vấn đề này ("chuỗi suy nghĩ" - chain of thought, "cây suy nghĩ" - tree of thoughts, "tự phản tư" - self-reflection). Nhưng nó còn sơ khai, cồng kềnh và tốn kém.

2. Sự không chắc chắn một cách trung thực

AI cần phải biết những gì nó không biết.

Điều này nghe có vẻ đơn giản nhưng lại khó về mặt toán học. Bạn cần mô hình có thể:

  • Ước tính những lỗ hổng kiến thức của chính nó
  • Thể hiện sự không chắc chắn thực sự (không chỉ là điểm tự tin thấp hơn)
  • Từ chối trả lời khi nó không biết

Toán học ở đây liên quan đến việc huấn luyện hiệu chỉnh tốt hơn và định lượng sự không chắc chắn. Các nhà nghiên cứu đang làm việc về nó, nhưng nó chưa được giải quyết.

3. Chuyên môn hóa theo chiều sâu

Các mô hình hiện tại cố gắng biết mọi thứ về mọi thứ. Điều này tạo ra kiến thức nông cạn, không đáng tin cậy.

Chúng ta có lẽ cần một cái gì đó giống chuyên gia con người hơn: các hệ thống thực sự sâu sắc trong các lĩnh vực cụ thể, kết hợp với các cơ chế phối hợp để kết hợp chúng lại cho các vấn đề liên ngành.

Hãy nghĩ ít hơn về "một bộ não khổng lồ" và nhiều hơn về "một nhóm các chuyên gia".

4. Lý luận có cơ sở

AI cần phải lý luận bằng logic thực sự, không phải bằng sự bắt chước thống kê.

Điều này có nghĩa là các hệ thống lai: mạng nơ-ron để nhận dạng mẫu, hệ thống biểu tượng để lý luận logic, xác minh hình thức để kiểm tra câu trả lời.

Nó kém thanh lịch hơn so với việc "ném thêm GPU vào transformer", nhưng nó có thể thực sự hoạt động.

Câu hỏi về mốc thời gian

Khi nào AI sẽ vượt qua Bài kiểm tra cuối cùng của Nhân loại?

Câu trả lời trung thực: Tôi không biết. Không ai khác biết cả.

Những người lạc quan nói 2–3 năm. "Chúng ta chỉ cần các mô hình lớn hơn với việc huấn luyện tốt hơn!"

Những người bi quan nói không bao giờ với các kiến trúc hiện tại. "Điều này đòi hỏi các phương pháp tiếp cận hoàn toàn khác!"

Tôi nghĩ sự thật nằm ở đâu đó giữa, nhưng gần với những người bi quan hơn.

Đây là lý do tại sao:

Các quy luật tỷ lệ (scaling laws) đã đưa chúng ta từ GPT-2 đến GPT-4 là về chiều rộng — biết nhiều thứ hơn, bao phủ nhiều chủ đề hơn, trở nên tốt hơn trong các nhiệm vụ phổ biến.

HLE là về chiều sâu — sự hiểu biết thực sự, lý luận chính xác, tự nhận thức về những hạn chế.

Những điều này có thể đòi hỏi những loại tiến bộ khác nhau. Không chỉ lớn hơn, mà còn khác biệt.

Bạn nên làm gì

Nếu bạn đang xây dựng với AI:

  • Kiểm tra trên các vấn đề khó, không phải các benchmark mà mô hình đã thấy
  • Xác minh mọi thứ, đặc biệt là khi AI tỏ ra tự tin
  • Xây dựng quy trình đánh giá của con người cho các quyết định có rủi ro cao
  • Giả định các chế độ thất bại mà bạn chưa từng thấy

Nếu bạn đang đầu tư vào AI:

  • Đặt câu hỏi về điểm số benchmark — chúng có thể đang đo lường khả năng ghi nhớ, chứ không phải trí thông minh
  • Tìm kiếm sự trung thực về những hạn chế — các công ty thừa nhận vấn đề là những lựa chọn an toàn hơn
  • Ưu tiên nghiên cứu an toàn — hiệu chỉnh và sự không chắc chắn rất quan trọng

Nếu bạn chỉ đang sử dụng AI:

  • Hãy luôn hoài nghi — tự tin không phải là năng lực
  • Kiểm tra lại sự thật — đặc biệt đối với các chủ đề hiếm hoặc chuyên ngành
  • Giữ con người trong vòng lặp — AI là một công cụ, không phải là sự thay thế cho tư duy

Điểm mấu chốt

Bài kiểm tra cuối cùng của Nhân loại đã tiết lộ một điều mà lẽ ra chúng ta phải biết từ lâu:

Chúng ta đã tạo ra những con vẹt cực kỳ tinh vi.

Chúng có thể lặp lại các mẫu chúng đã thấy. Chúng có thể phối lại và kết hợp lại. Chúng có thể nghe có vẻ thông minh.

Nhưng khi bạn yêu cầu chúng thực sự suy nghĩ — để lý luận qua các vấn đề mới lạ, để nhận ra những hạn chế của chúng, để đạt được sự chính xác trong các lĩnh vực phức tạp — chúng thất bại.

Một cách ngoạn mục.

Và tự tin.

Câu hỏi bây giờ không phải là liệu AI có thể vượt qua bài kiểm tra này hay không. Mà là liệu chúng ta có khắc phục được các vấn đề cơ bản trước khi triển khai các hệ thống này vào những tình huống mà thất bại sẽ là một thảm họa.

Bởi vì ngay bây giờ, chúng ta đang đặt các hệ thống quá tự tin, không đáng tin cậy phụ trách y học, luật pháp, khoa học và tài chính.

Và chúng đang trượt những bài kiểm tra mà các chuyên gia thực thụ có thể vượt qua.

Điều đó nên làm bạn khiếp sợ.

Nó chắc chắn làm tôi khiếp sợ.

Toán học không nói dối. AI thì có.

Bạn muốn tìm hiểu sâu hơn?

Các câu hỏi HLE thực tế không được công khai (có chủ đích — để ngăn chặn việc huấn luyện trên chúng). Nhưng bạn có thể khám phá những thách thức tương tự:

  • Tự mình thử: Hỏi ChatGPT hoặc Claude một câu hỏi cấp tiến sĩ trong lĩnh vực của bạn. Hãy xem nó tự tin tạo ra những điều vô nghĩa như thế nào.
  • Kiểm tra nghiên cứu: CAIS và Scale AI đã công bố các phân tích chi tiết về các chế độ thất bại.
  • Theo dõi khoa học: Các nhà nghiên cứu đang ghi lại những vấn đề này trên nhiều lĩnh vực.

Tương lai của AI phụ thuộc vào việc chúng ta có học hỏi từ những thất bại này hay không — hay phớt lờ chúng và tiếp tục mở rộng quy mô.

Ngay bây giờ, chúng ta chủ yếu đang phớt lờ chúng.

Theo dõi trên X

DrSwarnenduAI

Bài đăng liên quan