Bài 5. Token, context window và giới hạn ngữ cảnh

1. Đặt vấn đề

Khi làm việc với mô hình ngôn ngữ lớn, hai khái niệm rất quan trọng là token và context window. Đây là những khái niệm kỹ thuật nhưng ảnh hưởng trực tiếp đến cách bệnh viện sử dụng AI local. Nếu không hiểu token và giới hạn ngữ cảnh, người dùng có thể đưa tài liệu quá dài vào model, kỳ vọng AI đọc toàn bộ hồ sơ, hoặc không hiểu vì sao câu trả lời bị thiếu, bị cắt, bị quên phần đầu hoặc không bám sát tài liệu.

Trong bệnh viện, tài liệu thường dài: quy trình, quy chế, kế hoạch, báo cáo, hồ sơ, hướng dẫn chuyên môn, văn bản pháp luật. Không thể tùy tiện đưa toàn bộ mọi tài liệu vào một lần hỏi. Cần biết model có thể xử lý bao nhiêu ngữ cảnh, phải chia tài liệu thế nào, cần dùng RAG ra sao và vì sao việc chọn đoạn tài liệu liên quan quan trọng hơn việc nhồi toàn bộ nội dung vào prompt.

2. Token là gì?

Token là đơn vị văn bản mà model sử dụng để xử lý ngôn ngữ. Một token có thể là một từ, một phần của từ, một dấu câu hoặc một ký hiệu. Model không xử lý văn bản theo “trang Word” hay “số dòng”, mà xử lý theo token.

Ví dụ, một câu tiếng Việt có thể được tách thành nhiều token tùy tokenizer của model. Các từ có dấu, từ ghép, thuật ngữ chuyên môn hoặc ký hiệu có thể được tách khác nhau. Vì vậy, không thể quy đổi chính xác tuyệt đối số trang sang số token nếu không dùng công cụ đếm token của model cụ thể.

Trong thực tế, có thể hiểu đơn giản: văn bản càng dài thì càng nhiều token. Prompt dài, tài liệu dài và câu trả lời dài đều tiêu thụ token.

3. Context window là gì?

Context window là giới hạn tổng số token mà model có thể xử lý trong một lượt tương tác. Context window bao gồm:

System prompt.
Lịch sử hội thoại nếu có.
Câu hỏi của người dùng.
Tài liệu được đưa vào làm ngữ cảnh.
Câu trả lời model tạo ra.

Nếu context window là 4096 token, toàn bộ những thành phần trên phải nằm trong giới hạn đó. Nếu context window là 8192, 32768 hoặc lớn hơn, model có thể xử lý ngữ cảnh dài hơn. Tuy nhiên, context window lớn hơn thường cần nhiều tài nguyên hơn và có thể làm chậm hệ thống.

Trong AI local, context window thực tế còn phụ thuộc vào model, cấu hình Ollama, RAM/VRAM và tham số như num_ctx.

4. Vì sao context window quan trọng trong bệnh viện?

Bệnh viện thường muốn AI đọc tài liệu dài. Ví dụ:

Một quy trình 20 trang.
Một quy chế 50 trang.
Một báo cáo chất lượng 100 trang.
Một bộ tiêu chí nhiều chương.
Một hồ sơ bệnh án dài.
Một tập tài liệu đào tạo nhiều file.

Nếu context window nhỏ, không thể đưa toàn bộ tài liệu vào một prompt. Nếu cố đưa quá nhiều, hệ thống có thể cắt bớt, trả lời thiếu hoặc chậm. Ngay cả khi context window lớn, việc đưa quá nhiều tài liệu không liên quan vào prompt cũng làm giảm chất lượng vì model phải xử lý nhiều nhiễu.

Trong bệnh viện, câu trả lời đúng thường cần đúng đoạn tài liệu liên quan, không cần toàn bộ tài liệu. Đây là lý do RAG quan trọng: hệ thống sẽ tìm những đoạn phù hợp nhất rồi đưa vào prompt, thay vì nhồi toàn bộ kho tài liệu.

5. Giới hạn ngữ cảnh và hiện tượng “quên”

Trong hội thoại dài, model có thể không còn chú ý tốt đến các phần đầu, nhất là khi vượt giới hạn context. Người dùng có thể thấy AI “quên” hướng dẫn ban đầu, bỏ sót thông tin hoặc trả lời không nhất quán. Điều này không phải vì model có trí nhớ như con người rồi bị quên, mà vì giới hạn context và cách hệ thống quản lý lịch sử.

Trong bệnh viện, điều này đặc biệt quan trọng nếu người dùng muốn AI xử lý một chuỗi công việc dài như viết báo cáo nhiều phần, phân tích nhiều tài liệu hoặc tạo kế hoạch chi tiết. Cần chia công việc thành từng phần, lưu kết quả trung gian và cung cấp lại thông tin cần thiết ở mỗi bước.

Không nên kỳ vọng một cuộc hội thoại kéo dài nhiều giờ sẽ luôn giữ đầy đủ toàn bộ ngữ cảnh ban đầu nếu hệ thống không có cơ chế quản lý bộ nhớ riêng.

6. Token ảnh hưởng đến tốc độ và chi phí vận hành

Trong AI local, càng nhiều token thì model càng mất thời gian xử lý. Prompt dài làm tăng thời gian đọc ngữ cảnh. Câu trả lời dài làm tăng thời gian sinh token. Nếu nhiều người dùng cùng lúc gửi prompt dài, máy chủ có thể quá tải.

Trong AI cloud, token còn liên quan trực tiếp đến chi phí. Trong AI local, không trả phí theo token cho nhà cung cấp, nhưng vẫn có chi phí tài nguyên: GPU, CPU, RAM, điện, nhiệt độ và thời gian phản hồi.

Vì vậy, tối ưu token là một phần quan trọng của vận hành AI bệnh viện. Không nên đưa vào prompt những tài liệu không cần thiết. Không nên yêu cầu AI trả lời quá dài nếu chỉ cần kết luận ngắn. Với RAG, nên chọn số lượng chunk hợp lý.

7. Chunking: chia nhỏ tài liệu để xử lý

Để xử lý tài liệu dài, hệ thống thường chia tài liệu thành các đoạn nhỏ gọi là chunk. Mỗi chunk có độ dài nhất định, ví dụ vài trăm đến một vài nghìn token. Khi người dùng hỏi, hệ thống tìm các chunk liên quan nhất và đưa vào prompt.

Chunking ảnh hưởng rất lớn đến chất lượng RAG. Nếu chunk quá ngắn, mất ngữ cảnh. Nếu chunk quá dài, khó tìm chính xác và tốn token. Nếu chia sai vị trí, một ý quan trọng có thể bị tách khỏi tiêu đề hoặc điều kiện áp dụng.

Trong tài liệu bệnh viện, nên chia chunk theo cấu trúc tự nhiên:

Theo mục.
Theo điều khoản.
Theo bước quy trình.
Theo phần của biểu mẫu.
Theo tiêu chí.
Theo đoạn có ý nghĩa hoàn chỉnh.

Không nên chia máy móc theo số ký tự mà bỏ qua cấu trúc tài liệu.

8. Cách sử dụng context hiệu quả trong bệnh viện

Để sử dụng context hiệu quả, bệnh viện nên áp dụng một số nguyên tắc.

Thứ nhất, chỉ đưa vào prompt thông tin cần thiết cho câu hỏi hiện tại. Không đưa toàn bộ văn bản nếu chỉ cần một mục.

Thứ hai, dùng RAG để chọn đoạn liên quan thay vì sao chép thủ công tài liệu dài.

Thứ ba, thiết kế prompt rõ ràng: yêu cầu AI chỉ trả lời dựa trên tài liệu được cung cấp, không tự suy diễn nếu thiếu căn cứ.

Thứ tư, tách nhiệm vụ dài thành nhiều bước. Ví dụ, trước tiên yêu cầu tóm tắt tài liệu, sau đó yêu cầu lập bảng vấn đề, sau đó yêu cầu viết kế hoạch.

Thứ năm, với văn bản chính thức, nên lưu kết quả ra file hoặc hệ thống quản lý tài liệu thay vì phụ thuộc vào lịch sử hội thoại.

Thứ sáu, khi dùng Ollama, cần cấu hình context phù hợp với model và phần cứng. Tăng context quá cao có thể làm chậm hoặc gây hết tài nguyên.

9. Ví dụ trong bệnh viện

Giả sử bệnh viện có một quy trình 30 trang về báo cáo sự cố y khoa. Người dùng hỏi: “Khi xảy ra sự cố té ngã, điều dưỡng phải làm gì trong 24 giờ đầu?”

Nếu đưa toàn bộ quy trình 30 trang vào prompt, hệ thống có thể tốn nhiều token và dễ bị nhiễu. Cách tốt hơn là:

Chia quy trình thành các chunk theo mục.
Tạo embedding cho từng chunk.
Tìm các chunk liên quan đến “té ngã”, “điều dưỡng”, “24 giờ đầu”, “báo cáo sự cố”.
Đưa 3–5 chunk phù hợp nhất vào prompt.
Yêu cầu LLM trả lời dựa trên các đoạn đó và trích nguồn.

Cách này vừa tiết kiệm token, vừa tăng khả năng trả lời đúng.

10. Kết luận

Token và context window là hai khái niệm nền tảng khi triển khai AI local. Token là đơn vị xử lý văn bản của model. Context window là giới hạn ngữ cảnh mà model có thể xử lý trong một lượt. Trong bệnh viện, nơi tài liệu thường dài và phức tạp, hiểu giới hạn context giúp tránh dùng AI sai cách.

Thay vì cố đưa toàn bộ tài liệu vào model, bệnh viện nên dùng RAG, chunking và truy xuất tài liệu liên quan. Đây là cách giúp AI local trả lời nhanh hơn, chính xác hơn, tiết kiệm tài nguyên hơn và phù hợp hơn với kho tài liệu nội bộ.

Đăng nhập để gửi ý kiến