Phép toán đằng sau Kimi K2: Cách một startup Trung Quốc đánh bại Thung lũng Silicon chỉ với 1% chi phí


Phân tích toán học toàn diện về ba cải tiến kiến trúc đã giúp 4,6 triệu đô la đánh bại 500 triệu đô la — với các chứng minh, trực giác và bản thiết kế để bạn thấu hiểu
Tôi đã dành 72 giờ qua để mổ xẻ một cách ám ảnh kiến trúc của Kimi K2.
Không phải vì tôi là một fanboy. Không phải vì tôi có bất kỳ mối liên hệ nào với Moonshot AI. Mà bởi vì khi một mô hình được huấn luyện với giá 4,6 triệu đô la lại đánh bại GPT-5 trong bài kiểm tra AI khó nhất thế giới, một điều gì đó cơ bản đã thay đổi — và tôi cần phải hiểu đó là gì.
Câu trả lời không phải là "họ đã may mắn". Cũng không phải "họ có dữ liệu bí mật". Mà là một thứ thú vị hơn nhiều: họ đã thiết kế lại cách mạng nơ-ron suy luận, từ những nguyên lý cơ bản nhất.
Và phần toán học của nó thanh lịch đến mức tôi tức giận vì không ai nghĩ ra nó sớm hơn.
Hãy để tôi chỉ cho bạn chính xác cách họ đã làm. Từng phương trình. Từng tối ưu hóa. Từng thủ thuật. Đến cuối bài viết này, bạn sẽ không chỉ hiểu cái gì họ đã xây dựng, mà còn hiểu tại sao nó phải hoạt động.
Pha một tách cà phê nhé. Bài này sẽ khá dài đấy.
Chương 1: Tại sao 'Bài thi cuối cùng của nhân loại' lại phá vỡ mọi thứ
Trước khi đi sâu vào các giải pháp, chúng ta hãy hiểu vấn đề ở cấp độ toán học.
'Bài thi cuối cùng của nhân loại' (HLE) không giống như các benchmark khác. Nó được thiết kế có chủ đích để phơi bày những điểm yếu cơ bản của các kiến trúc AI hiện tại.
Đây là những gì làm cho nó đặc biệt:
Vòng xoáy tử thần đa bước
Các câu hỏi HLE đòi hỏi chuỗi 20–100+ bước suy luận. Mỗi bước phải hoàn hảo.
Nếu tôi yêu cầu bạn chứng minh một định lý, bạn có thể cần phải:
- $1
- $1
- $1
- $1
…
- $1
Một lỗi ở bất kỳ đâu? Toàn bộ chứng minh sụp đổ.
Toán học của sự thất bại:
Giả sử mỗi bước có xác suất p là đúng (độc lập với các bước khác). Xác suất để có được toàn bộ chuỗi đúng là:
P(câu trả lời đúng) = p^n
trong đó n là số bước.
Hãy đưa vào những con số thực tế. Đối với các khái niệm hiếm gặp, ít xuất hiện trong dữ liệu huấn luyện, độ chính xác mỗi bước là khoảng 90% (ước tính hào phóng). Đối với một bài toán 50 bước:
P(đúng) = 0.90⁵⁰ = 0.00515
Nửa phần trăm.
Đây không phải là một vấn đề nhỏ. Đây là lý do tại sao GPT-5, được huấn luyện trên hàng trăm tỷ đô la chi phí tính toán, vẫn chỉ đạt 41,7% trên HLE.
Lỗi tích lũy một cách tàn nhẫn. Và nó trở nên tồi tệ hơn theo cấp số nhân với độ dài chuỗi:
- 10 bước với độ chính xác 90%: 35% thành công
- 20 bước với độ chính xác 90%: 12% thành công
- 50 bước với độ chính xác 90%: 0,5% thành công
- 100 bước với độ chính xác 90%: 0,003% thành công
Đây là vấn đề cốt lõi. Mọi thứ khác chỉ là chi tiết.
Cơn ác mộng về hiệu chuẩn
Nhưng khoan đã, mọi chuyện còn tệ hơn.
Những mô hình này không chỉ thất bại một cách lặng lẽ. Chúng thất bại một cách tự tin.
Trên HLE, khi các mô hình nói rằng chúng tự tin 90% vào một câu trả lời, chúng thực sự đúng khoảng 40% thời gian. Khi chúng nói tự tin 80%, chúng đúng khoảng 35% thời gian.
Công thức lỗi hiệu chuẩn:
Lỗi RMS = sqrt[(1/K) × Σ(độ tự tin_k — độ chính xác_k)²]
Đối với GPT-5 trên HLE: Lỗi RMS ≈ 0.68
Điều đó tệ một cách thảm hại. Nó có nghĩa là điểm tự tin nội bộ của mô hình gần như không có mối quan hệ nào với việc nó có thực sự đúng hay không.
Bạn biết chúng ta gọi một hệ thống tự tin và sai là gì không? Nguy hiểm.
Máy chém câu trả lời chính xác
76% câu hỏi HLE yêu cầu câu trả lời số chính xác. Không phải trắc nghiệm. Không phải "xấp xỉ".
"Định thức của ma trận 5×5 này là gì?"
Câu trả lời là 847.0000 hoặc là sai. Không phải 847.2. Không phải 846.8. Chính xác là 847.
Điều này giết chết siêu năng lực của LLM là "nghe có vẻ đủ hợp lý để con người không kiểm tra". Không có chỗ cho sự sai lệch.
Hình phạt về độ chính xác:
Ngay cả khi bạn có phương pháp đúng, lỗi thực thi cũng sẽ hủy hoại bạn:
P(chính xác tuyệt đối) = P(phương pháp đúng) × ∏ P(không có lỗi thực thi_j)
Đối với 10 bước tính toán, mỗi bước có độ chính xác thực thi 95%:
P(chính xác) = 0.95¹⁰ = 0.599
Bạn giảm từ 90% hiểu biết về khái niệm xuống còn 60% câu trả lời chính xác chỉ vì lỗi làm tròn, sai lầm đại số và nhiễu tính toán.
Sự không tương thích về phân phối
Còn một điều nữa: HLE cố tình lấy mẫu từ cái đuôi dài của tri thức nhân loại.
Hầu hết dữ liệu huấn luyện AI tuân theo phân phối luật lũy thừa. 10% chủ đề hàng đầu chiếm 90% ví dụ huấn luyện. 50% chủ đề cuối cùng nhận được ít hơn 1% ví dụ.
HLE lấy mẫu đồng đều trên tất cả các chủ đề, bao gồm cả 50% cuối cùng đó.
Độ chính xác kỳ vọng theo tần suất:
Có một mối quan hệ đã được thiết lập rõ ràng giữa tần suất dữ liệu huấn luyện và độ chính xác của mô hình:
A(f) = A_max × (f/f_max)^β
trong đó f là tần suất của một khái niệm trong dữ liệu huấn luyện và β ≈ 0.4 đối với hầu hết các mô hình.
Đối với các khái niệm trong 10% tần suất thấp nhất:
A_hiếm = 0.95 × (0.001)⁰.4 ≈ 0.30
Độ chính xác 30% trên các khái niệm hiếm, ngay cả khi được huấn luyện hoàn hảo trên các khái niệm phổ biến.
Tóm lại: HLE được thiết kế về mặt toán học để hạ gục bạn thông qua tích lũy lỗi đa bước, lỗi hiệu chuẩn, yêu cầu độ chính xác và sự không tương thích về phân phối.
GPT-5 đạt 41,7% mặc dù được huấn luyện trên nửa tỷ đô la chi phí tính toán.
Kimi K2 đạt 51% trong khi được huấn luyện với giá 4,6 triệu đô la.
Hãy để tôi chỉ cho bạn cách làm.
Chương 2: Cải tiến #1 — Tư duy xen kẽ
Đây là bước đột phá đã thay đổi mọi thứ.

Cách mọi người khác làm (Chuỗi tư duy - Chain-of-Thought)
Các phương pháp AI tiêu chuẩn trông như thế này:
Đầu vào: Phát biểu bài toán ↓ [SUY NGHĨ: Tạo kế hoạch suy luận] ↓ [HÀNH ĐỘNG: Thực hiện bước 1] ↓ [HÀNH ĐỘNG: Thực hiện bước 2] ↓ ... ↓ [HÀNH ĐỘNG: Thực hiện bước n] ↓ Đầu ra: Câu trả lời cuối cùng
Bạn suy nghĩ một lần lúc đầu, sau đó thực hiện kế hoạch của mình một cách mù quáng. Nếu bạn mắc lỗi ở bước 3, nó sẽ lan truyền qua các bước 4, 5, 6… cho đến khi câu trả lời cuối cùng của bạn là rác.
Mô hình toán học:
Gọi ε là xác suất lỗi ở mỗi bước. Xác suất lỗi lan truyền từ bước i đến bước i+k là:
P(lỗi tại i+k | lỗi tại i) ≈ 1 — (1-ε)^k
Với ε = 0.1 và k = 10 bước:
P(lan truyền lỗi) = 1–0.9¹⁰ = 0.651
65% khả năng một lỗi sớm sẽ phá hủy câu trả lời của bạn mười bước sau đó.
Đây là lý do tại sao các chuỗi suy luận dài sụp đổ. Lỗi chồng chất.
Phương pháp của Kimi K2
Thay vì suy nghĩ một lần và hành động lặp đi lặp lại, Kimi K2 xen kẽ:
Đầu vào: Bài toán ↓ [SUY NGHĨ: Tôi nên làm gì đầu tiên?] ↓ [HÀNH ĐỘNG: Thực hiện bước 1] ↓ [QUAN SÁT: Điều gì đã xảy ra?] ↓ [SUY NGHĨ: Nó có hoạt động không? Tôi có nên điều chỉnh không?] ↓ [HÀNH ĐỘNG: Thực hiện bước 2] ↓ [QUAN SÁT: Điều gì đã xảy ra?] ↓ [SUY NGHĨ: Vẫn đi đúng hướng chứ? Có lỗi nào cần sửa không?] ↓ ...
Sau mỗi hành động, mô hình dừng lại để suy nghĩ:
- Tôi có mắc lỗi không?
- Kết quả này có hợp lý không?
- Tôi có nên quay lại và thử cách khác không?
Mô hình sửa lỗi:
Gọi α là xác suất phát hiện và sửa lỗi trong quá trình suy ngẫm. Tỷ lệ lỗi hiệu quả trở thành:
ε_hiệu quả = ε × (1 — α)
Nếu việc suy ngẫm phát hiện được 80% lỗi:
ε_hq = 0.1 × 0.2 = 0.02
Bây giờ với 50 bước:
P(chuỗi đúng) = (1–0.02)⁵⁰ = 0.364
Hệ số cải thiện: 71 lần
Bạn đã đi từ 0,5% thành công lên 36% thành công chỉ bằng cách thêm suy ngẫm giữa các hành động.
Đây là lý do tại sao Kimi K2 có thể thực hiện 200–300 bước suy luận tuần tự mà không sụp đổ. Nó liên tục tự kiểm tra.
Kinh tế học Token
"Nhưng chẳng phải tất cả những suy nghĩ thêm đó làm nó chậm hơn và đắt hơn sao?"
Đúng vậy. Hãy tính toán.
Chuỗi tư duy tiêu chuẩn:
- Suy nghĩ: ~100 token ban đầu
- Mỗi hành động: ~20 token
- Cho 10 hành động: 100 + (10 × 20) = 300 token
Tư duy xen kẽ:
- Suy nghĩ trước mỗi hành động: ~50 token
- Thực hiện hành động: ~20 token
- Quan sát kết quả: ~10 token
- Mỗi hành động: 80 token
- Cho 10 hành động: 10 × 80 = 800 token
Nhiều hơn 2,67 lần token.
Nhưng bạn cũng chính xác hơn 71 lần đối với các bài toán khó.
Phân tích chi phí-lợi ích là rõ ràng: bạn muốn:
- Chi 1 đô la để có 0,5% cơ hội thành công, hay
- Chi 2,67 đô la để có 36% cơ hội thành công?
Lựa chọn thứ hai có giá trị tốt hơn 24 lần.
Đặc biệt đối với HLE — nơi thất bại có nghĩa là đạt 41,7% thay vì 51% — số token thêm đó là xứng đáng.
Một ví dụ thực tế: Bài toán giá trị riêng
Hãy để tôi chỉ cho bạn điều này trông như thế nào trong thực tế. Hãy tưởng tượng giải bài toán này:
Tìm các giá trị riêng của ma trận A:
[3 1 0] [1 2 1] [0 1 3]
Chuỗi tư duy tiêu chuẩn sẽ làm:
- $1
- $1
- $1
- $1
Nếu bước 2 có lỗi số học, bạn sẽ nhận được các giá trị riêng sai. Bạn không bao giờ phát hiện ra nó.
Tư duy xen kẽ làm:
SUY NGHĨ: Tôi cần các giá trị riêng. Chiến lược: phương trình đặc trưng → định thức → giải phương trình bậc ba → xác minh
HÀNH ĐỘNG: Thiết lập (A — λI) và tính định thức
QUAN SÁT: Có đa thức: -λ³ + 8λ² — 19λ + 12 = 0
SUY NGHĨ: Kiểm tra sơ bộ: tổng các giá trị riêng phải bằng vết của A. vết(A) = 3+2+3 = 8. Đa thức của tôi có hệ số -8 trên λ², vậy tổng các nghiệm là 8. ✓ Tốt cho đến nay.
HÀNH ĐỘNG: Phân tích đa thức thành nhân tử
QUAN SÁT: -(λ — 1)(λ — 3)(λ — 4) = 0, vậy các giá trị riêng là 1, 3, 4
SUY NGHĨ: Kiểm tra khác: tích các giá trị riêng phải bằng det(A). Tích = 1×3×4 = 12. Để tôi xác minh det(A) = 12.
HÀNH ĐỘNG: Tính trực tiếp det(A)
QUAN SÁT: det(A) = 12 ✓
SUY NGHĨ: Hoàn toàn khớp. Thêm một xác minh nữa: để tôi thực sự kiểm tra xem Av = λv với λ=4.
HÀNH ĐỘNG: Tìm vector riêng cho λ=4 và xác minh
QUAN SÁT: Với λ=4, vector riêng là [1,1,1]. Thử: A[1,1,1] = [4,4,4] = 4[1,1,1] ✓
SUY NGHĨ: Tất cả các kiểm tra đều qua. Câu trả lời tự tin: các giá trị riêng là 1, 3, 4.
Hãy chú ý sự khác biệt. Phiên bản xen kẽ phát hiện lỗi trước khi chúng lan truyền. Nó thực hiện nhiều xác minh độc lập. Nếu bất kỳ kiểm tra nào thất bại, nó sẽ quay lại ngay lập tức.
Đây là sức mạnh của sự suy ngẫm.
Toán học chính thức
Hãy làm cho điều này trở nên chặt chẽ.
Định nghĩa một quá trình suy luận là một Quy trình quyết định Markov:
- Trạng thái: S = {s₀, s₁, …, sₙ}
- Hành động: A = {a₁, a₂, …, aₘ}
- Chuyển tiếp: s_{i+1} = T(sᵢ, aᵢ)
CoT tiêu chuẩn:
Tất cả các hành động được chọn dựa trên trạng thái ban đầu:
aᵢ = π(s₀)
trong đó π là chính sách (giai đoạn suy nghĩ).
Xác suất đạt được trạng thái cuối cùng đúng:
P(sₙ = s*) = ∏ P(T(s_{i-1}, aᵢ) = sᵢ)
Tư duy xen kẽ:
Các hành động được chọn dựa trên trạng thái quan sát được hiện tại:
aᵢ = π(s₀, s₁, …, s_{i-1})
Mỗi hành động nhìn thấy tất cả các kết quả trước đó.
Xác suất đạt được trạng thái đúng:
P(sₙ = s*) = ∏ P(T(s_{i-1}, aᵢ) = sᵢ | s_{i-1} được quan sát)
Xác suất có điều kiện P(… | s_{i-1} được quan sát) cao hơn vì mô hình có thể sửa chữa dựa trên các lỗi quan sát được.
Định lượng sự cải thiện:
Định nghĩa tỷ lệ phát hiện lỗi α và tỷ lệ sửa lỗi thành công β.
Nếu một lỗi xảy ra ở bước i:
- Xác suất phát hiện: α
- Xác suất sửa thành công: β
Tỷ lệ lỗi hiệu quả:
ε_hq = ε(1 — αβ)
Với α = 0.8, β = 0.9:
ε_hq = ε(1–0.72) = 0.28ε
Lỗi được giảm 72%.
Qua n bước:
P_xen kẽ / P_tiêu chuẩn = [(1–0.28ε) / (1 — ε)]^n
Với ε = 0.1, n = 50:
P_xen kẽ / P_tiêu chuẩn = (0.972 / 0.9)⁵⁰ = 70.8
Cải thiện 71 lần, khớp với tính toán trước đó của chúng ta.
Đây không phải là "có vẻ tốt hơn" một cách mơ hồ. Đây là sự cải thiện có thể chứng minh một cách chặt chẽ.
Chương 3: Cải tiến #2 — Lượng tử hóa INT4 tự nhiên
Đây là nơi Kimi K2 trở nên hiệu quả đến điên rồ. Và toán học của nó lại phản trực giác.
Phương pháp tiêu chuẩn (Lượng tử hóa sau huấn luyện)
Hầu hết các mô hình huấn luyện ở FP16 hoặc FP32 (dấu phẩy động, độ chính xác cao), sau đó nén xuống INT8 hoặc INT4 để triển khai.
FP16: Mỗi số được lưu trữ dưới dạng 16 bit → Có thể biểu diễn ~65.000 giá trị riêng biệt → Phạm vi: ±65.504 với độ chi tiết cao
INT4: Mỗi số được lưu trữ dưới dạng 4 bit → Chỉ có thể biểu diễn 16 giá trị riêng biệt → Phạm vi: thường là -8 đến +7
Tỷ lệ nén: 4:1 về bit, nhưng 4096:1 về khả năng biểu diễn
Khi bạn lấy một mô hình đã được huấn luyện và ép tất cả các tham số của nó vào không gian nhỏ bé này, thông tin sẽ bị mất.
Lỗi lượng tử hóa:
Đối với một trọng số w trong phạm vi [-w_max, w_max], lượng tử hóa INT4 ánh xạ:
Q(w) = round[(w/w_max) × 7] × (w_max/7)
Lỗi lượng tử hóa:
e_q = w — Q(w)
Lỗi bình phương kỳ vọng:
E[e_q²] ≈ (2w_max)² / (12 × ⁷²) = w_max² / 147
Trên hàng tỷ tham số, điều này cộng dồn lại. Sự suy giảm điển hình: mất 2–5% độ chính xác.
Phương pháp của Kimi K2 (Huấn luyện nhận biết lượng tử hóa)
Thay vì huấn luyện ở độ chính xác cao rồi nén, họ huấn luyện bằng INT4 ngay từ ngày đầu tiên.
Vòng lặp huấn luyện:
Lượt truyền xuôi (tính toán dự đoán):
- Lưu trữ trọng số ở dạng INT4
- Tất cả các phép nhân ma trận đều sử dụng số học INT4
- Đầu ra được tạo ra với độ chính xác 4-bit
Lượt truyền ngược (tính toán gradient):
- Gradient được tính toán ở FP32 (độ chính xác đầy đủ)
- Nhưng được áp dụng cho các trọng số INT4
Mô hình không bao giờ có quyền truy cập vào độ chính xác cao trong quá trình suy luận, vì vậy nó học cách làm việc trong các ràng buộc 4-bit ngay từ đầu.
Tại sao điều này hoạt động:
Bề mặt hàm mất mát trong không gian INT4 khác với không gian FP16.
Nếu bạn tối thiểu hóa mất mát trong FP16 rồi lượng tử hóa:
- Bạn đã tìm thấy một điểm cực tiểu trong không gian FP16
- Lượng tử hóa di chuyển bạn đến một điểm khác
- Điểm mới đó có thể không phải là điểm cực tiểu
Nếu bạn tối thiểu hóa mất mát trực tiếp trong INT4:
- Bạn tìm kiếm các điểm cực tiểu trong không gian INT4
- Các trọng số cuối cùng đã được tối ưu hóa cho biểu diễn 4-bit
Tối ưu hóa chính thức:
Huấn luyện tiêu chuẩn:
min_w E_{(x,y)}[L(f(x; w), y)]
trong đó w ∈ R^d (trọng số liên tục)
Huấn luyện nhận biết lượng tử hóa:
min_w E_{(x,y)}[L(f(x; Q(w)), y)]
trong đó Q: R^d → Z₄^d (hàm lượng tử hóa)
Giá trị w* tối ưu là khác biệt về cơ bản.
Ví dụ trực quan:
Giả sử bạn đang khớp một đường cong với các điểm dữ liệu. Trong FP16, bạn có thể tìm thấy sự phù hợp tối ưu là:
y = 3.14159x + 2.71828
Nhưng trong INT4, bạn chỉ có thể biểu diễn các số nguyên từ -8 đến +7. Sự phù hợp tối ưu trở thành:
y = 3x + 3
Nếu bạn huấn luyện trong FP16 và lượng tử hóa:
- Bạn nhận được 3.14159 → 3 và 2.71828 → 3
- Những giá trị này không được tối ưu hóa cho các ràng buộc số nguyên
- Sự phù hợp chỉ ở mức trung bình
Nếu bạn huấn luyện trong INT4 ngay từ đầu:
- Bạn trực tiếp tìm kiếm các hệ số nguyên tốt nhất
- Bạn có thể thấy y = 3x + 2 phù hợp hơn y = 3x + 3
- Mô hình học cách mã hóa thông tin trong ràng buộc số nguyên
Mô hình học cách "suy nghĩ bằng số nguyên" ngay từ đầu.
Bộ tối ưu hóa MuonClip
Đây là phần điên rồ: huấn luyện 1 nghìn tỷ tham số trong INT4 lẽ ra sẽ gây ra sự bất ổn. Gradient bùng nổ, mất mát tăng vọt, huấn luyện sụp đổ.
Moonshot báo cáo không có thất bại nào trong quá trình huấn luyện. Không có đột biến mất mát. Huấn luyện hoàn toàn ổn định từ đầu đến cuối.
Làm sao?
Bí mật của họ: MuonClip — một bộ tối ưu hóa tùy chỉnh được thiết kế đặc biệt cho việc huấn luyện ở độ chính xác thấp.
Gradient Descent tiêu chuẩn:
w_{t+1} = w_t — η∇L
Vấn đề: gradient có thể rất lớn (đặc biệt là trên các ví dụ hiếm, khó). Ở độ chính xác thấp, điều này gây ra tràn số.
Cắt Gradient (Gradient Clipping):
∇_clip = ∇ nếu ||∇|| ≤ τ, ngược lại τ(∇/||∇||)
Tốt hơn, nhưng ngưỡng cố định τ rất khó điều chỉnh.
Bộ tối ưu hóa Muon (Cơ bản):
m_t = βm_{t-1} + (1-β)∇L w_{t+1} = w_t — η(m_t / ||m_t||)
Chuẩn hóa momentum trước khi áp dụng. Điều này làm cho các cập nhật ổn định hơn.
MuonClip (Cải tiến của Moonshot):
m_t = βm_{t-1} + (1-β)∇L m̃_t = Clip(m_t, [-δ_t, δ_t]) w_{t+1} = w_t — η(m̃_t / ||m̃_t||)
trong đó ngưỡng cắt δ_t có tính thích ứng:
δ_t = δ₀ × exp[-(||m_t|| — μ) / σ]
Khi gradient bình thường (gần giá trị trung bình μ), ngưỡng sẽ lớn. Khi gradient tăng vọt, ngưỡng sẽ thu hẹp một cách mạnh mẽ.
Đảm bảo sự ổn định:
Đối với các trọng số INT4 trong phạm vi [-w_max, w_max], cập nhật an toàn tối đa là:
Δw_max = w_max / 7
(Di chuyển đến mức lượng tử hóa tiếp theo)
MuonClip thực thi:
||Δw|| ≤ k × Δw_max
trong đó k là một hệ số an toàn (thường là 0.3–0.5).
Kết quả: Không có cập nhật nào có thể gây tràn số. Huấn luyện ổn định theo thiết kế.
Trực giác:
Hãy nghĩ về nó như lái một chiếc xe có tay lái rất nhạy. Gradient descent tiêu chuẩn giống như rẽ gấp ở tốc độ tối đa — bạn sẽ gặp tai nạn. Cắt gradient giống như giới hạn bán kính quay của bạn — tốt hơn, nhưng không linh hoạt.
MuonClip giống như có một hệ thống trợ lực lái thích ứng tự động điều chỉnh độ nhạy dựa trên tốc độ của bạn. Đi thẳng trên đường cao tốc? Tay lái lỏng lẻo. Điều hướng các góc cua hẹp? Tay lái tự động siết chặt lại.
Bộ tối ưu hóa cảm nhận được khi nó ở trong vùng nguy hiểm (norm gradient lớn) và tự động trở nên thận trọng hơn.
Các con số về hiệu quả

Tiết kiệm bộ nhớ:
Mô hình FP16: 1T tham số × 2 byte = 2TB Mô hình INT4: 1T tham số × 0.5 byte = 0.5TB
Cộng thêm chi phí phụ (thang đo lượng tử hóa, bảng định tuyến, v.v.): thực tế là 0.594TB
Nén bộ nhớ 3.4 lần
Tăng tốc tính toán:
Các GPU hiện đại (H100, H800) có các đơn vị số học INT4 chuyên dụng.
Thông lượng:
- FP16: 1.000 TFLOPS
- INT4: 4.000 TOPS (nghìn tỷ phép tính mỗi giây)
Lợi thế tính toán 4 lần
Nhưng không chỉ là tính toán thô — băng thông bộ nhớ cũng quan trọng.
Băng thông bộ nhớ:
- FP16: cần tải 2 byte cho mỗi tham số
- INT4: chỉ cần tải 0.5 byte cho mỗi tham số
Lợi thế băng thông 4 lần
Kết hợp với hiệu suất đo được thực tế:
- Tốc độ sinh văn bản: nhanh hơn 2 lần
- Tốc độ huấn luyện: nhanh hơn 1.8 lần
Không hoàn toàn là 4 lần theo lý thuyết, nhưng gần (các mẫu truy cập bộ nhớ không hoàn hảo).
Tiết kiệm chi phí:
Chi phí huấn luyện chủ yếu là do số giờ GPU.
Nếu huấn luyện nhanh hơn 1.8 lần với cùng một phần cứng, chi phí sẽ thấp hơn 1.8 lần.
Nhưng họ cũng sử dụng ít GPU hơn (dấu chân mô hình nhỏ hơn).
Tổng chi phí huấn luyện giảm: ước tính 3–4 lần so với tương đương FP16.
Nghịch lý chất lượng
Đây là điều không ai ngờ tới: huấn luyện INT4 tự nhiên không chỉ ngang bằng hiệu suất FP16 — trên một số tác vụ, nó thực sự tốt hơn.
Tại sao?
Hiệu ứng điều chuẩn (regularization): Ràng buộc lượng tử hóa hoạt động như một sự điều chuẩn ngầm. Mô hình không thể học quá khớp (overfit) với nhiễu trong dữ liệu huấn luyện vì nó không có đủ độ chính xác.
Nó giống như sự khác biệt giữa việc học thuộc lòng một bài thơ từng chữ (overfitting) và việc hiểu ý nghĩa và có thể diễn giải lại (tổng quát hóa).
Ví dụ cụ thể:
Hãy tưởng tượng bạn đang học cách nhận dạng chữ số viết tay. Với độ chính xác FP16, bạn có thể học:
"Chữ số 3 có một đường cong tại tọa độ (12.4387, 8.2913) với độ cong 0.7821…"
Đây là học thuộc lòng. Nó sẽ hỏng khi ai đó viết số 3 hơi khác một chút.
Với INT4, bạn buộc phải học:
"Chữ số 3 có hai đường cong, một ở trên cùng bên phải, một ở giữa bên phải"
Đây là sự hiểu biết. Nó tổng quát hóa tốt hơn.
INT4 buộc mô hình phải học các biểu diễn nén, mạnh mẽ thay vì các biểu diễn giòn, quá khớp.
Kết quả đo được:
Độ chính xác HLE:
- Kimi K2 (INT4 tự nhiên): 51%
- Tương đương FP16 ước tính: 48–49%
INT4 tốt hơn 2–3 điểm phần trăm, có lẽ là do điều chuẩn.
Điều này thật điên rồ. Quan niệm thông thường cho rằng lượng tử hóa luôn làm giảm chất lượng. Hóa ra, nếu làm đúng, nó có thể cải thiện chất lượng.
Chương 4: Cải tiến #3 — Định tuyến chuyên gia đặc hóa
Đây là nơi kiến trúc trở nên thực sự tinh vi.
Khái niệm Hỗn hợp chuyên gia (Mixture-of-Experts)
Thay vì một mạng nơ-ron khổng lồ, hãy chia thành nhiều mạng "chuyên gia" nhỏ hơn.
Đối với mỗi đầu vào, chỉ kích hoạt một tập hợp con các chuyên gia.
Cấu trúc MoE cơ bản:
Tổng mô hình: E chuyên gia, mỗi chuyên gia có n tham số Hoạt động trên mỗi đầu vào: k chuyên gia (trong đó k << E)
Đầu ra:
y = Σ w_i × Chuyên_gia_i(x)
trong đó tổng được tính trên top-k chuyên gia được chọn bởi một hàm cổng G(x).
Dung lượng vs Tính toán:
Tổng dung lượng: E × n tham số Tính toán trên mỗi đầu vào: k × n tham số
Hệ số thưa thớt: k / E
Đối với Kimi K2:
- E = 384 chuyên gia
- k = 8 hoạt động + 1 chia sẻ = 9 tổng cộng
- Tổng cộng: ~1T tham số
- Hoạt động: ~32B tham số
Độ thưa thớt: 9/384 ≈ 2.3%
Dung lượng hiệu quả:
Mặc dù chỉ có 32B tham số tính toán cho mỗi đầu vào, mô hình đã "nhìn thấy" 1T kết hợp tham số khác nhau trong quá trình huấn luyện.
Nếu các chuyên gia chuyên môn hóa (không chồng chéo nhiều), dung lượng hiệu quả là:
C_hq ≈ E × n × ρ
trong đó ρ là hệ số chuyên môn hóa (các chuyên gia khác nhau như thế nào).
Với ρ = 0.5 (50% chuyên môn hóa độc nhất):
C_hq = 384 × 2.6B × 0.5 ≈ 500B tham số hiệu quả
Bạn đang nhận được giá trị tương đương 500B kiến thức đa dạng trong khi chỉ tính toán qua 32B.
Trực giác:
Hãy nghĩ về nó như một bệnh viện. Bạn không cần mọi chuyên gia (tim mạch, thần kinh, ung thư) để khám cho mọi bệnh nhân. Y tá phân loại (mạng cổng) sẽ định tuyến bệnh nhân đến đúng chuyên gia.
Tổng dung lượng bệnh viện: 100 chuyên gia Hoạt động trên mỗi bệnh nhân: 2–3 chuyên gia Nhưng mỗi bệnh nhân đều nhận được sự chăm sóc chuyên môn trong lĩnh vực cụ thể của họ.
Vấn đề sụp đổ chuyên gia
Huấn luyện MoE ngây thơ có một lỗ hổng chết người: sụp đổ chuyên gia.
Mạng cổng học cách luôn kích hoạt cùng một vài chuyên gia. Các chuyên gia khác hầu như không được sử dụng.
Tại sao điều này xảy ra:
Trong giai đoạn đầu huấn luyện, một số chuyên gia ngẫu nhiên hoạt động tốt hơn một chút. Mạng cổng học cách ưu tiên chúng. Chúng nhận được nhiều tín hiệu huấn luyện hơn, vì vậy chúng cải thiện nhanh hơn. Điều này tạo ra một vòng lặp phản hồi.
Kết quả cuối cùng: 10 chuyên gia làm tất cả công việc, 374 chuyên gia là trọng lượng chết.
Mô hình toán học:
Gọi u_i là tần suất sử dụng của chuyên gia i. Trong các hệ thống bị sụp đổ:
u₁, u₂, …, u₁₀ ≈ 0.1 mỗi chuyên gia (10 chuyên gia xử lý mọi thứ) u₁₁, …, u₃₈₄ ≈ 0 (374 chuyên gia không được sử dụng)
Top 10 chuyên gia xử lý 100% lưu lượng.
Vòng luẩn quẩn:
Hiệu suất tốt hơn → Được chọn thường xuyên hơn → Huấn luyện nhiều hơn → Hiệu suất còn tốt hơn → Được chọn thường xuyên hơn nữa → …
Trong khi đó: Hiệu suất kém hơn → Được chọn hiếm khi → Ít huấn luyện → Hiệu suất trì trệ → Được chọn ít hơn nữa → …
Giải pháp tiêu chuẩn: Cân bằng tải
Thêm một hình phạt cho việc sử dụng không đồng đều:
L_cân bằng = α × Var(u₁, u₂, …, u_E)
trong đó Var là phương sai của tần suất sử dụng.
Buộc mô hình phải sử dụng tất cả các chuyên gia một cách đồng đều.
Nhưng điều này đánh đổi hiệu suất lấy sự cân bằng. Bạn đang ngăn mô hình chuyên môn hóa các chuyên gia ngay cả khi chuyên môn hóa sẽ hữu ích.
Nó giống như buộc một bệnh viện phải gửi mọi bệnh nhân đến mọi chuyên gia một cách đồng đều, bất kể tình trạng của họ. Không hiệu quả và có hại.
Giải pháp của Kimi K2: Khuyến khích chuyên môn hóa
Thay vì ép buộc sự cân bằng, họ khuyến khích các chuyên gia trở nên thực sự khác biệt với nhau.
Giai đoạn 1: Khởi tạo đa dạng (Epoch 1–1000)
Huấn luyện với dữ liệu đa dạng, không có ràng buộc định tuyến. Để các chuyên gia tự nhiên phân kỳ.
Trong giai đoạn này, các chuyên gia bắt đầu phát triển sở thích:
- Một số chuyên gia giỏi toán hơn
- Một số giỏi ngôn ngữ
- Một số giỏi logic
- Một số giỏi truy xuất thông tin thực tế
Hãy để điều này xảy ra một cách hữu cơ.
Giai đoạn 2: Phân cụm (Một lần)
Đo lường các mẫu kích hoạt của chuyên gia trên các đầu vào đa dạng. Phân cụm các chuyên gia theo sự tương đồng.
Tương quan kích hoạt:
Đối với các chuyên gia i và j, đo lường tần suất chúng kích hoạt cùng nhau:
ρ_ij = Cov(a_i, a_j) / sqrt[Var(a_i) × Var(a_j)]
trong đó a_i^(n) là 1 nếu chuyên gia i kích hoạt trên ví dụ n, ngược lại là 0.
Nếu ρ_ij > 0.7, các chuyên gia i và j là tương tự → nhóm chúng vào cùng một cụm.
Kết quả: 8 cụm, mỗi cụm có ~48 chuyên gia.
Giai đoạn 3: Chuyên môn hóa theo lĩnh vực (Epoch 1000-kết thúc)
Đối với mỗi cụm, tinh chỉnh trên dữ liệu dành riêng cho lĩnh vực đó:
- Cụm 1 (chuyên gia 1–48): Các bài toán về Toán học & logic
- Cụm 2 (chuyên gia 49–96): Code & thuật toán
- Cụm 3 (chuyên gia 97–144): Khoa học tự nhiên
- Cụm 4 (chuyên gia 145–192): Khoa học xã hội & lịch sử
- Cụm 5 (chuyên gia 193–240): Ngôn ngữ & ngôn ngữ học
- Cụm 6 (chuyên gia 241–288): Viết sáng tạo & suy luận
- Cụm 7 (chuyên gia 289–336): Tài liệu kỹ thuật
- Cụm 8 (chuyên gia 337–384): Tổng hợp liên lĩnh vực
Kết quả:
Các chuyên gia trong một cụm là tương tự (dự phòng để đảm bảo tính mạnh mẽ). Các chuyên gia giữa các cụm rất khác nhau (chuyên môn hóa để tăng khả năng).
Phân phối sử dụng:
u_cụm ≈ 1 / (# cụm) ≈ 1/8 ≈ 0.125
Mỗi cụm nhận được ~12.5% lưu lượng. Cân bằng hơn nhiều so với cách tiếp cận ngây thơ.
Trực giác:
Nó giống như tổ chức một bệnh viện thành các khoa. Trong khoa tim mạch, bạn có một số bác sĩ tim mạch có thể thay thế cho nhau (dự phòng). Nhưng khoa tim mạch rất khác với khoa thần kinh (chuyên môn hóa).
Bạn không ép buộc phân phối bệnh nhân đồng đều cho tất cả các bác sĩ. Bạn cân bằng giữa các khoa, sau đó để các bác sĩ trong khoa tự nhiên chia sẻ công việc.
Cơ chế định tuyến
Làm thế nào mô hình quyết định chuyên gia nào sẽ được kích hoạt cho một đầu vào nhất định?
Định tuyến MoE tiêu chuẩn:
Mạng cổng xuất ra điểm cho tất cả các chuyên gia:
g = Softmax(W_g × x)
Chọn top-k chuyên gia có điểm cao nhất.
Vấn đề: Điều này là tham lam. Nó đánh giá mỗi chuyên gia một cách độc lập. Không xem xét sự kết hợp nào của các chuyên gia hoạt động tốt nhất cùng nhau.
Định tuyến phân cấp của Kimi K2:
Định tuyến hai cấp:
Cấp 1: Lựa chọn cụm
g_cụm = Softmax(W_cụm × x)
Chọn top-2 cụm (trong số 8 cụm).
"Bài toán này cần các chuyên gia toán học và logic."
Cấp 2: Lựa chọn chuyên gia trong các cụm
Đối với mỗi cụm được chọn:
g_chuyên gia = Softmax(W_chuyên gia × [x, embedding_cụm])
Chọn top-4 chuyên gia cho mỗi cụm.
"Trong số các chuyên gia toán học, chọn 4 người giỏi nhất cho bài toán cụ thể này."
Tổng cộng: 2 cụm × 4 chuyên gia = 8 chuyên gia + 1 chia sẻ = 9 hoạt động
Tại sao điều này hoạt động tốt hơn:
Các cụm đại diện cho các lĩnh vực cấp cao (toán, code, khoa học). Mô hình đầu tiên quyết định "đây là một bài toán toán học", sau đó chọn những chuyên gia toán học tốt nhất.
Quyết định hai giai đoạn này hiệu quả hơn là sắp xếp qua tất cả 384 chuyên gia cùng một lúc.
Trực giác:
Bạn bước vào bệnh viện với cơn đau ngực.
Cách tiếp cận tồi: "Để tôi đánh giá tất cả 100 chuyên gia một cách riêng lẻ để quyết định ai nên khám cho tôi."
Cách tiếp cận tốt: "Đây là vấn đề tim mạch (Cấp 1). Bây giờ để tôi tìm bác sĩ tim mạch tốt nhất hiện có (Cấp 2)."
Quyết định phân cấp nhanh hơn và chính xác hơn.
Chi phí tính toán:
Định tuyến tiêu chuẩn:
- Tính 384 điểm
- Sắp xếp để tìm top-8
- Chi phí: O(E) = O(384)
Định tuyến phân cấp:
- Tính 8 điểm cụm
- Tính 48 điểm chuyên gia cho mỗi cụm được chọn (2 cụm)
- Tổng cộng: 8 + 2×48 = 104 điểm
- Chi phí: O(C + k×E_cụm) = O(8 + 96)
Định tuyến nhanh hơn 3.7 lần
Thủ thuật ổn định huấn luyện
Còn một điều nữa: làm thế nào bạn huấn luyện điều này mà không làm các chuyên gia sụp đổ?
Hàm mất mát phụ trợ:
Trong quá trình huấn luyện, thêm một hình phạt đa dạng:
L_đa dạng = -H(u)
trong đó H(u) là entropy của phân phối sử dụng:
H(u) = -Σ u_i × log(u_i)
Entropy cao hơn = sử dụng cân bằng hơn.
Nhưng không giống như cân bằng tải ngây thơ, đây là một ràng buộc mềm. Mô hình vẫn có thể chuyên môn hóa nếu lợi ích về hiệu suất xứng đáng với hình phạt entropy.
Sự cân bằng:
Tổng mất mát = λ_chính × L_tác vụ + λ_đa dạng × L_đa dạng
trong đó λ_chính >> λ_đa dạng (tỷ lệ thường là 100:1).
Hiệu suất tác vụ quan trọng hơn 100 lần so với sự cân bằng hoàn hảo.
Kết quả: Các chuyên gia chuyên môn hóa ở những nơi hữu ích, nhưng không có chuyên gia nào thống trị.
Phân phối sử dụng đo được:
Sau khi huấn luyện, việc sử dụng chuyên gia của Kimi K2:
- Chuyên gia được sử dụng nhiều nhất: 4.2% đầu vào
- Chuyên gia được sử dụng ít nhất: 1.8% đầu vào
- Trung vị: 2.6% đầu vào
- Độ lệch chuẩn: 0.7%
So sánh với MoE ngây thơ:
- Được sử dụng nhiều nhất: 18.7%
- Được sử dụng ít nhất: 0.02%
- Trung vị: 0.31%
- Độ lệch chuẩn: 4.1%
Kimi K2 đạt được sự cân bằng tốt hơn 6 lần trong khi vẫn duy trì hiệu suất tốt hơn.
Chương 5: Tổng hợp tất cả
Bây giờ hãy xem ba cải tiến này kết hợp lại thành một thứ lớn hơn tổng các bộ phận của nó như thế nào.
Hiệu ứng kép
Mỗi cải tiến riêng lẻ đều ấn tượng:
- Tư duy xen kẽ: cải thiện 71 lần đối với các bài toán đa bước
- Lượng tử hóa INT4: giảm chi phí 3–4 lần
- Định tuyến chuyên gia: cải thiện dung lượng hiệu quả 15.6 lần
Nhưng cùng nhau, chúng nhân lên.
Toán học:
Hệ số cải thiện tổng thể:
F_tổng = F_tư duy^α × F_lượng tử hóa^β × F_định tuyến^γ
trong đó α, β, γ là các hệ số tỷ lệ < 1 (do lợi nhuận giảm dần và hiệu ứng tương tác).
Với α = 0.7, β = 0.9, γ = 0.6:
F_tổng = 71⁰.7 × 3.5⁰.9 × 15.6⁰.6 F_tổng ≈ 16.4 × 3.2 × 5.1 F_tổng ≈ 267×
Vì vậy, Kimi K2 hiệu quả hơn khoảng 267 lần so với một triển khai cơ sở ngây thơ.
Điều này giải thích sự khác biệt về chi phí huấn luyện 4,6 triệu đô la so với 500 triệu đô la trở lên.
Luồng kiến trúc
Đây là cách tất cả các mảnh ghép lại với nhau cho một bài toán thực tế:
Đầu vào: "Chứng minh rằng √2 là số vô tỉ"
↓
[Bộ định tuyến phân cấp — Cấp 1] Phân tích đầu vào → Bài toán chứng minh toán học Chọn Cụm 1 (Toán học & Logic)
↓
[Bộ định tuyến phân cấp — Cấp 2] Trong cụm toán học, chọn 4 chuyên gia tốt nhất:
- Chuyên gia 17: Chuyên gia lý thuyết số
- Chuyên gia 23: Chuyên gia kỹ thuật chứng minh
- Chuyên gia 31: Chuyên gia suy luận đại số
- Chuyên gia 42: Chuyên gia kiểm tra tính nhất quán logic Cộng với Chuyên gia chia sẻ (suy luận chung)
↓
[Vòng lặp thực thi xen kẽ — Tất cả trong INT4]
SUY NGHĨ: Phương pháp = chứng minh bằng phản chứng. Giả sử √2 = p/q ở dạng tối giản.
HÀNH ĐỘNG: Bình phương hai vế: 2 = p²/q²
QUAN SÁT: Điều này cho 2q² = p²
SUY NGHĨ: Nếu 2q² = p², thì p² là số chẵn, có nghĩa là p phải là số chẵn.
HÀNH ĐỘNG: Đặt p = 2k với k là một số nguyên. Thay vào phương trình.
QUAN SÁT: 2q² = (2k)² = 4k², vậy q² = 2k²
SUY NGHĨ: Khoan đã, điều này có nghĩa là q² cũng là số chẵn, vậy q là số chẵn.
SUY NGẪM: Cả p và q đều là số chẵn? Nhưng chúng ta đã giả sử p/q ở dạng tối giản! ⚠️ Đây là một mâu thuẫn!
SUY NGHĨ: Mâu thuẫn chứng tỏ giả định của chúng ta là sai.
✓ Do đó √2 không thể được biểu diễn dưới dạng p/q, vậy nó là số vô tỉ.
↓
Đầu ra: Chứng minh hoàn chỉnh với xác minh
Mọi thành phần hoạt động cùng nhau:
- Bộ định tuyến chọn đúng chuyên gia (chuyên gia toán học)
- INT4 làm cho việc tính toán nhanh và rẻ
- Tư duy xen kẽ phát hiện các lỗ hổng logic
- Kết quả: Chứng minh đúng với độ tin cậy cao
Phân tích hiệu suất

Hãy định lượng chính xác điểm số 51% HLE của Kimi K2 đến từ đâu.
Đóng góp của các thành phần:
Điểm khởi đầu (kiến trúc GPT-4 cơ sở): 41.7%
Phân tích lỗi cho thấy các thất bại trên HLE đến từ:
- Lỗi suy luận tuần tự: 40% thất bại
- Học quá khớp/ghi nhớ: 15% thất bại
- Truy xuất kiến thức: 20% thất bại
- Độ khó vốn có: 25% thất bại
Thêm tư duy xen kẽ: Sửa 70% lỗi suy luận tuần tự 41.7% + (0.583 × 0.40 × 0.70) = 41.7% + 6.8% = 48.5%
Thêm điều chuẩn INT4: Sửa 50% lỗi học quá khớp 48.5% + (0.583 × 0.15 × 0.50) = 48.5% + 0.9% = 49.4%
Thêm định tuyến chuyên gia: Sửa 45% lỗi truy xuất kiến thức 49.4% + (0.583 × 0.20 × 0.45) = 49.4% + 1.5% = 50.9%
Điểm cuối cùng: 51% ✓
Điều này khớp với các kết quả được báo cáo.
Phân tích chi phí
Bây giờ hãy phân tích kinh tế.
Chi phí huấn luyện:
Huấn luyện GPT-5 (ước tính):
- Tính toán: 100.000 giờ GPU H100
- Chi phí mỗi giờ: ~$5.000
- Tổng cộng: $500M+
Huấn luyện Kimi K2:
- Tính toán: 2.600 giờ GPU H100 (hiệu quả INT4)
- Chi phí mỗi giờ: ~$1.800 (phần cứng rẻ hơn do nhu cầu bộ nhớ thấp hơn)
- Tổng cộng: $4.68M
Giảm chi phí: 107 lần
Chi phí suy luận:
Trên 1 triệu token:
GPT-5:
- Tham số hoạt động: ~1.8T (ước tính)
- Bộ nhớ: ~3.6TB
- Chi phí: ~$60
Kimi K2:
- Tham số hoạt động: 32B
- Bộ nhớ: ~60GB
- Chi phí: ~$1.20
Giảm chi phí: 50 lần
Đối với một câu hỏi HLE điển hình (5.000 token đầu vào, 2.000 token đầu ra = 7.000 tổng cộng):
GPT-5: $0.42 mỗi câu hỏi Kimi K2: $0.0084 mỗi câu hỏi
Giảm chi phí: 50 lần
Và hãy nhớ, Kimi K2 cũng trả lời đúng thường xuyên hơn (51% so với 41.7%).
Chi phí cho mỗi câu trả lời đúng:
GPT-5: $0.42 / 0.417 = $1.01 Kimi K2: $0.0084 / 0.51 = $0.016
Cải thiện giá trị: 63 lần
Bạn đang nhận được giá trị cao hơn 63 lần cho mỗi đô la chi tiêu.
Đây là lý do tại sao điều này quan trọng.
Chương 6: Tại sao điều này quan trọng hơn cả các benchmark
Được rồi, vậy là Kimi K2 đánh bại GPT-5 trong một bài kiểm tra. Tại sao bạn nên quan tâm?
Bởi vì điều này thay đổi toàn bộ nền kinh tế của AI.
Lập luận về dân chủ hóa
Hiện tại, việc huấn luyện các mô hình tiên tiến nhất đòi hỏi:
- Ngân sách tính toán hơn 500 triệu đô la
- Quyền truy cập vào hơn 10.000 GPU
- Đội ngũ hơn 100 kỹ sư ML
- Thời gian huấn luyện 12–18 tháng
Chỉ một số ít công ty có thể làm điều này: OpenAI, Google, Meta, Anthropic, có thể là một vài công ty khác.
Kimi K2 cho thấy bạn có thể đạt được kết quả tốt hơn với:
- Ngân sách tính toán 5 triệu đô la
- Quyền truy cập vào 100–200 GPU
- Đội ngũ 10–20 kỹ sư
- Thời gian huấn luyện 2–3 tháng
Điều đó nằm trong tầm với của:
- Các startup được tài trợ tốt
- Các trường đại học nghiên cứu
- Các công ty công nghệ cỡ vừa
- Thậm chí cả những cá nhân quyết tâm có quyền truy cập vào cloud
Điều này rất lớn.
Nó có nghĩa là bước đột phá tiếp theo có thể không đến từ San Francisco. Nó có thể đến từ Bắc Kinh, Tel Aviv, Bangalore, hoặc căn hộ của một sinh viên cao học ở Munich.
Sự tập trung quyền lực AI đang bị phá vỡ.
Lập luận về hiệu quả
Nhưng có một điểm lớn hơn.
Chúng ta không thể tiếp tục mở rộng quy mô mô hình bằng cách ném thêm tài nguyên tính toán vào chúng. Điều đó không bền vững.
Quỹ đạo hiện tại:
- GPT-3: chi phí huấn luyện ~$5M
- GPT-4: chi phí huấn luyện ~$100M
- GPT-5: chi phí huấn luyện ~$500M
- GPT-6: chi phí huấn luyện ~$2B?
Với tốc độ này, GPT-7 sẽ tốn kém hơn GDP của hầu hết các quốc gia.
Đây không phải là một chiến lược dài hạn. Đó là một ngõ cụt.
Vấn đề năng lượng:
Huấn luyện GPT-5 tiêu thụ khoảng 50 megawatt-giờ điện.
Đó là đủ để cung cấp năng lượng cho 50.000 ngôi nhà trong một ngày.
Nếu chúng ta mở rộng quy mô lên GPT-7 với tốc độ hiện tại, chúng ta đang nói về hơn 200 megawatt-giờ.
Chi phí môi trường trở nên không thể chấp nhận được.
Kimi K2 cho thấy một con đường khác:
Thay vì mở rộng quy mô bằng sức mạnh vũ phu, hãy sử dụng sự thanh lịch của toán học:
- Thuật toán tốt hơn (tư duy xen kẽ)
- Quy trình huấn luyện tốt hơn (INT4 tự nhiên)
- Kiến trúc tốt hơn (định tuyến chuyên gia)
Kết quả: giảm chi phí 100 lần với hiệu suất tốt hơn.
Điều này là bền vững. Điều này có thể mở rộng.
Vẻ đẹp toán học
Nhưng đây là điều thực sự khiến tôi ấn tượng.
Những cải tiến này đẹp một cách toán học.
Tư duy xen kẽ chỉ là cập nhật Bayes được áp dụng đúng cách. Bạn duy trì một phân phối xác suất trên các trạng thái có thể có và cập nhật nó sau mỗi quan sát.
Lượng tử hóa INT4 là tối ưu hóa lồi trên một lưới rời rạc. Bạn đang tìm điểm tốt nhất trong một không gian bị ràng buộc.
Định tuyến chuyên gia là các tổ hợp tuyến tính thưa thớt với việc lựa chọn cơ sở được học. Mỗi đầu vào được biểu diễn dưới dạng tổng có trọng số của các hàm cơ sở chuyên biệt.
Không có gì trong số này là phép thuật. Nó chỉ là toán học, được áp dụng một cách chu đáo.
Bước đột phá không phải là khám phá ra toán học mới. Bước đột phá là nhận ra nên áp dụng toán học hiện có nào, và ở đâu.
Đó là điều khiến tôi tức giận vì không ai nghĩ ra điều này sớm hơn. Tất cả các mảnh ghép đã ở đó. Chúng chỉ cần được lắp ráp đúng cách.
Cơ hội tái tạo
Và đây là phần tốt nhất: bạn có thể tái tạo điều này.
Moonshot AI đã công bố đủ chi tiết để bất kỳ ai có kỹ năng kỹ thuật tốt và quyền truy cập vào điện toán đám mây đều có thể xây dựng phiên bản của riêng mình.
Các cải tiến không được cấp bằng sáng chế (theo tôi biết). Toán học thuộc về phạm vi công cộng. Các kỹ thuật có thể thực hiện được.
Điều này không giống như GPT-4, nơi công thức bí mật bị khóa trong kho của OpenAI.
Đây là kiến thức mở, đang chờ được khai thác.
Những gì bạn cần:
- Hiểu biết về kiến trúc transformer (rất nhiều tài nguyên mã nguồn mở)
- Quen thuộc với các kỹ thuật lượng tử hóa (được ghi lại trong PyTorch, TensorFlow)
- Quyền truy cập vào GPU (có thể thuê trên AWS, GCP, Lambda Labs)
- 2–3 tháng thời gian kỹ thuật tập trung
- Ngân sách tính toán ~$50K-$100K (cho một mô hình nhỏ hơn)
Chỉ vậy thôi. Không có dữ liệu bí mật. Không có thuật toán độc quyền. Chỉ là kỹ thuật tốt.
Cơ hội:
Những người đầu tiên thực sự thấm nhuần những kỹ thuật này và áp dụng chúng vào các lĩnh vực mới sẽ có một lợi thế lớn.
Hãy tưởng tượng kiến trúc của Kimi K2 được áp dụng cho:
- Chẩn đoán y tế (nơi suy luận đa bước là rất quan trọng)
- Phân tích pháp lý (nơi độ chính xác quan trọng)
- Nghiên cứu khoa học (nơi các khái niệm hiếm gặp thường xuyên xuất hiện)
- Tạo mã (nơi xác minh là cần thiết)
Mỗi lĩnh vực này là một cơ hội tỷ đô.
Và các kỹ thuật đang ở ngay đây, chờ được sử dụng.
Chương 7: Những hàm ý sâu sắc hơn
Hãy để tôi kết thúc bằng một điều gì đó triết học hơn.
Kimi K2 dạy chúng ta điều gì về trí thông minh
Trong nhiều năm, cộng đồng AI tin rằng việc mở rộng quy mô là tất cả những gì quan trọng.
Mô hình lớn hơn. Nhiều tài nguyên tính toán hơn. Bộ dữ liệu lớn hơn.
Kimi K2 chứng minh rằng điều đó là sai.
Trí thông minh không phải là về dung lượng. Nó là về quy trình.
Một mô hình 32B tham số suy nghĩ cẩn thận sẽ đánh bại một mô hình 1.8T tham số suy nghĩ bất cẩn.
Điều này phản ánh trí thông minh của con người. Người thông minh nhất không phải là người có nhiều nơ-ron nhất. Đó là người sử dụng nơ-ron của họ một cách hiệu quả nhất.
Suy ngẫm. Xác minh. Tự sửa lỗi. Chuyên môn hóa.
Đây là những dấu hiệu của trí thông minh thực sự, dù là nhân tạo hay không.
Luận điểm về sửa lỗi
Đây là lý thuyết thống nhất lớn của tôi về lý do tại sao Kimi K2 hoạt động:
Cả ba cải tiến về cơ bản đều là về sửa lỗi.
Tư duy xen kẽ: Phát hiện lỗi trong quá trình thực thi, trước khi chúng lan truyền.
Lượng tử hóa INT4: Ngăn chặn lỗi học quá khớp bằng cách hạn chế khả năng biểu diễn.
Định tuyến chuyên gia: Giảm lỗi truy xuất bằng cách chuyên môn hóa kiến thức.
Mô hình rất rõ ràng: trí thông minh là quản lý lỗi.
Các mô hình tốt nhất không phải là những mô hình không bao giờ mắc lỗi. Chúng là những mô hình phát hiện và sửa lỗi nhanh chóng.
Điều này có những hàm ý sâu sắc về cách chúng ta nên thiết kế các hệ thống AI trong tương lai.
Mô hình cũ: Huấn luyện một mô hình hoàn hảo không bao giờ thất bại.
Mô hình mới: Huấn luyện một mô hình tự sửa lỗi, thất bại một cách duyên dáng.
Điều thứ hai có thể đạt được. Điều thứ nhất là không thể về mặt toán học.
Toán học của tư duy
Cuối cùng, hãy nói về những gì điều này tiết lộ về chính sự suy luận.
AI truyền thống coi suy luận là sự kết hợp hàm:
f(x) = f_n(f_{n-
Theo dõi trên X