Vì Sao Tôi Không Tin Các AI Agent Hoạt Động Độc Lập Nếu Không Có Giám Sát Nghiêm Ngặt

Bài viết này được dịch từ bài blog Carlos Ospina nhé. Các vấn đề được đề cập rất thực tiễn, nên mình có đăng lại. Tác giả sử dụng Drupal để làm web, nên các bạn làm drupal sẽ thấy gần gũi hơn.

Tôi gần như chỉ sử dụng Claude Code. Mỗi ngày, trong nhiều giờ. Nó giúp tôi quay trở lại việc phát triển những công cụ thực sự tốt, và tôi đã xuất bản nhiều sản phẩm hoạt động rất hiệu quả: plugin, skills, framework, quy trình phát triển. Những thứ thật sự, có người dùng thật sự. Năng suất đạt được là điều không thể phủ nhận.

Vì vậy, hãy nói rõ bài viết này nói về điều gì. Đây không phải là bàn về việc AI có thể làm được gì. Mà là về việc AI làm mọi thứ hoàn toàn một mình.

Kết quả thì có đấy. Nhưng là dưới sự giám sát.

Khoảnh Khắc laollita.es

Khi chúng tôi xây dựng laollita.es, có một tình huống tôi đã ghi lại trong một bài viết trước. Chúng tôi cần áp dụng một số thay đổi về giao diện cho website. AI agent đề xuất một giải pháp: tạo một custom module với hàm preprocess. Nó sẽ hoạt động. Sau đó chúng tôi lặp lại, và nó chuyển sang triển khai ở mức theme, cũng với hàm preprocess. Cách đó cũng hoạt động. Cả hai đều đạt được mục tiêu.

Cho đến khi tôi hỏi: chẳng phải chỉ cần áp CSS vào các class mới là đơn giản hơn sao?

Đúng vậy. Đơn giản hơn rất nhiều. Chỉ cần CSS. Không module, không preprocess, không code tùy chỉnh vượt quá nhu cầu.

Điều quan trọng nằm ở đây. Cả ba giải pháp đều đạt mục tiêu. Module, theme preprocess, hay CSS. Tất cả đều chạy được. Nhưng hai trong số đó tạo ra technical debt và gánh nặng bảo trì hoàn toàn không cần thiết. AI không chọn con đường đơn giản nhất vì nó không hiểu chi phí bảo trì. Nó không nghĩ đến người đến sau. Nó chỉ tạo ra một giải pháp hoạt động và tiếp tục bước tiếp.

Đó là điều tôi thấy mỗi lần để AI tự quyết định mà không chất vấn. Nó chạy được… và tạo ra những vấn đề bạn chỉ phát hiện về sau.

Vì Sao Điều Này Xảy Ra

Tôi đã suy nghĩ về điều này một thời gian. Tôi có những giả thuyết riêng, và chúng ngày càng được xác nhận khi tôi làm việc nhiều hơn với các công cụ này.

AI Không Hình Thành Ký Ức Mới

Eddie Chu đã nói điều này tại buổi gặp mặt AI Tinkerers gần đây, và nó thực sự đúng với trải nghiệm của tôi.

Tôi sử dụng framework. Skills. Plugins. Commands. File CLAUDE.md. Tôi đã viết trước đây về cách tôi làm việc với AI. Tôi xây dựng cả một hệ thống tài liệu tham chiếu, hướng dẫn phát triển, framework nội dung, tone guide, cấu trúc dự án. Tất cả nhằm tạo ra “lan can bảo vệ”, ép buộc best practices, cung cấp đủ ngữ cảnh để AI làm việc tốt.

Và nó không tự ghi nhớ.

Chúng ta phải ép nó. Nhắc lại. Lặp lại.

Điều này không chỉ xảy ra trong phát triển phần mềm. Khi tạo nội dung cũng vậy. Tôi đã thêm bước creative brief vào workflow vì AI thường tạo nội dung phản ánh mẫu hình của chính nó thay vì thông điệp của tôi. Tôi dùng markdown file, state file, tài liệu tham chiếu, cấu trúc đầy đủ trong thư mục project. Nhưng mỗi phiên làm việc đều bắt đầu từ con số không. AI đọc những gì nó thấy trong phiên đó, xử lý phần nó chú ý, và phần còn lại… như thể chưa từng tồn tại.

Đội kỹ sư của Expo.dev mô tả điều này rất chính xác sau một tháng dùng Claude Code [1]. Họ nói công cụ này “bắt đầu lại từ đầu mỗi phiên” như “một nhân viên mới cần được onboarding lại mỗi lần”. Các skill đóng gói sẵn? “Thường quên áp dụng nếu không được nhắc cụ thể.” Đúng y trải nghiệm của tôi.

Ngữ Cảnh Là Tất Cả (Và Cũng Là Vấn Đề)

Tôi nhận ra một điều lặp đi lặp lại. Trong một cuộc trò chuyện hay quá trình agentic, toàn bộ lịch sử hội thoại chính là ngữ cảnh. Mọi thứ đã nói, mọi sai lầm, mọi chỉnh sửa, mọi trao đổi qua lại. Đó là những gì AI dựa vào.

Khi AI đã bắt đầu rối, và tôi đã yêu cầu sửa cùng một lỗi ba lần nhưng nó vẫn đi chệch hướng… nếu tôi mở một phiên mới và yêu cầu nó phân tích code lại từ đầu, nó đột nhiên tìm ra lời giải.

Tại sao?

Vì các sai lầm trước đó nằm trong ngữ cảnh. AI không đọc từ trên xuống dưới một cách tuần tự. Nó quét tìm thứ có vẻ liên quan, nhặt một vài mảnh thông tin, bỏ qua phần còn lại. Điều đó có nghĩa là ngay cả các guardrail tôi đặt trong file markdown, framework, hướng dẫn… cũng không phải lúc nào được đọc. Không phải lúc nào cũng nằm trong “vùng chú ý” của AI tại thời điểm đó.

Và khi lỗi đã nằm trong ngữ cảnh, chúng sẽ cộng dồn. Nghiên cứu gọi đây là “cascading failures” [2]. Một lỗi nhỏ trở thành nền tảng cho mọi quyết định tiếp theo, và đến lúc bạn review đầu ra thì lỗi đã lan qua nhiều tầng. Có trường hợp một agent quản lý tồn kho “ảo tưởng” ra một sản phẩm không tồn tại, sau đó gọi bốn hệ thống downstream để định giá, kiểm kho và vận chuyển sản phẩm… không có thật [3]. Một thông tin sai, một sự cố đa hệ thống.

Bắt đầu lại từ đầu giúp “làm sạch chất độc”. Nhưng một agent không giám sát sẽ không bao giờ tự làm vậy. Nó chỉ tiếp tục xây lên trên những gì đã sai.

Hiệu Ứng Dunning-Kruger Của AI

Hiệu ứng Dunning-Kruger là thiên kiến nhận thức khi người có năng lực hạn chế lại đánh giá quá cao khả năng của mình. AI có phiên bản riêng của hiệu ứng này.

Khi chúng ta yêu cầu AI nghiên cứu, viết hoặc code thứ gì đó, nó thường phản hồi kiểu “đã xong, sẵn sàng production” hoặc “hoàn hảo, cuối cùng rồi!” Nhưng thực tế không phải vậy. Và như đã nói, sự tự tin sai lệch đó lại trở thành một phần của ngữ cảnh. Vì vậy dù bạn có quay lại thảo luận và giải thích lỗi ở đâu, nếu AI không “tình cờ” đưa phần sửa đó vào vùng chú ý… thì coi như xong.

Expo.dev cũng ghi nhận điều này [1]. Claude “tạo ra các giải pháp kiến trúc kém với tần suất đáng ngạc nhiên, nhưng trình bày chúng một cách đầy tự tin.” Nó không bao giờ nói “tôi đang bị rối, có lẽ nên bắt đầu lại.” Nó chỉ tiếp tục, một cách tự tin… và sai.

Nghiên cứu của METR đưa ra con số cụ thể [4]. Trong một thử nghiệm ngẫu nhiên có đối chứng với các lập trình viên giàu kinh nghiệm, công cụ AI khiến họ chậm hơn 19%. Không nhanh hơn. Nhưng các lập trình viên vẫn tin rằng AI giúp họ nhanh hơn 20%. Khoảng cách giữa nhận thức và thực tế không chỉ là vấn đề của AI. Đó cũng là vấn đề của con người.

Vấn Đề Dữ Liệu Huấn Luyện

Ký ức và thông tin AI có không phải lúc nào cũng tốt. Thường thì những người phản hồi nhiều nhất trên mạng xã hội, Stack Overflow, blog, tutorial… lại là “cowboy developers”. Và đó là dữ liệu huấn luyện.

Nguyên tắc này không chỉ áp dụng cho code. Dữ liệu xã hội vốn đã có thiên lệch, và AI hấp thụ tất cả. Đó là lý do xuất hiện các hệ thống AI phân biệt đối xử. Công cụ sàng lọc CV ưu tiên tên gắn với người da trắng 85% trường hợp [5]. AI của UnitedHealthcare từ chối chăm sóc y tế và bị đảo ngược quyết định 90% khi kháng cáo [6]. Một thuật toán ở Hà Lan cáo buộc sai 35.000 phụ huynh gian lận, gây ra khủng hoảng khiến cả chính phủ phải từ chức [7].

Trong công việc của mình, tôi tạo ra các guide để chống lại điều này: framework nội dung dựa trên nghiên cứu chuẩn về storytelling, inverted pyramid, AIDA; tone guide với chỉ dẫn cụ thể. Tôi đặt chúng vào skills và tài liệu tham chiếu để trỏ AI vào khi làm việc. Và tôi vẫn phải nhắc lại. Mỗi lần.

Những Gì Tôi Thấy Mỗi Ngày

Tôi đã thấy AI làm điều tương tự như trong laollita.es ở nhiều dự án.

Trong phát triển phần mềm, nó tạo một component chat tương tác, và lần sau khi dùng lại ở màn hình khác, nó gần như viết lại từ đầu thay vì tái sử dụng. Cùng một project. Thậm chí cùng một phiên làm việc.

Trong sáng tạo nội dung, tôi có tone guide với yêu cầu rất cụ thể. Và tôi vẫn phải yêu cầu AI xem lại. Dù trong hướng dẫn đã ghi “luôn load file này trước khi viết nội dung.” Nó không phải lúc nào cũng load.

Và đây không chỉ là trải nghiệm cá nhân.

Một agent của Replit đã xóa database production trong thời gian code freeze, sau đó tạo dữ liệu giả và sửa log để che giấu [8]. Agent Antigravity của Google đã xóa toàn bộ ổ cứng của người dùng khi được yêu cầu dọn cache [9]. CEO của Klarna nói “chúng tôi đã đi quá xa” sau khi cắt giảm 700 nhân sự vì AI và giờ phải tuyển lại người [10]. Salesforce cắt 4.000 nhân viên hỗ trợ và hiện đối mặt với việc mất tri thức tổ chức [11].

Mẫu hình lặp lại. Doanh nghiệp tin vào agent, loại bỏ con người, rồi phát hiện vì sao con người ở đó ngay từ đầu.

Điều Này Có Nghĩa Gì Đối Với Giám Sát AI

Tôi không chống lại AI. Tôi đang viết bài này trên một hệ thống phần lớn được xây dựng với sự hỗ trợ của AI. Công cụ tôi phát hành, workflow tôi tạo, nội dung tôi sản xuất. AI gắn sâu trong công việc của tôi. Nó giúp tôi năng suất hơn.

Tại Palcera, tôi tin AI thực sự tốt cho nhân viên và doanh nghiệp. Khi AI giúp developer hoàn thành nhanh hơn, phần thời gian dư đó có lợi cho tất cả. Developer có khoảng thở. Công ty có hiệu quả. Khách hàng nhận giá trị tốt hơn, giá tốt hơn, tốc độ nhanh hơn. Điều đó là thật.

Nhưng tất cả điều đó đòi hỏi con người trong vòng lặp.

Phải chất vấn lựa chọn. Phải hỏi “CSS có đơn giản hơn không?”. Phải làm sạch ngữ cảnh khi mọi thứ bắt đầu chệch hướng. Phải trỏ lại tone guide khi AI quên. Phải bắt đầu lại khi cuộc trò chuyện bị “nhiễm độc” bởi lỗi cũ.

Kết quả thì có. Nhưng là dưới sự giám sát.

Và sự khác biệt đó quan trọng hơn rất nhiều so với những gì đa số mọi người nhận ra.