Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "HI.AI Members" các nội dung bạn quan tâm.

Bài 4. Thiết kế thư mục lưu model, dữ liệu và backup

1. Đặt vấn đề

Thiết kế thư mục là việc tưởng nhỏ nhưng rất quan trọng trong vận hành AI local. Nếu model, dữ liệu, index, file tạm, log và backup nằm lẫn lộn, hệ thống sẽ khó quản lý, khó backup, khó khôi phục và dễ xóa nhầm. Ngược lại, nếu cấu trúc thư mục rõ ràng, người quản trị dễ biết dữ liệu nào đang dùng, dữ liệu nào có thể xóa, dữ liệu nào cần backup và dữ liệu nào nhạy cảm.

Trong bệnh viện, thư mục AI nên được thiết kế như một phần của hạ tầng chính thức, không để tùy tiện trong home của người cài đặt.

2. Nguyên tắc thiết kế thư mục

Cần bảo đảm:

  • Rõ ràng.
  • Dễ backup.
  • Dễ phân quyền.
  • Dễ mở rộng.
  • Tách dữ liệu nóng và dữ liệu lạnh.
  • Tách dữ liệu thô và dữ liệu đã xử lý.
  • Tách production và test.
  • Tách log, cache, backup.
  • Không lưu bí mật lẫn với tài liệu thường.
  • Có tài liệu mô tả.

3. Cấu trúc tổng thể gợi ý

Ví dụ:

 
/opt/ai/
apps/
configs/
scripts/
modelfiles/

/mnt/ai/
rag/
indexes/
metadata/
cache/
tmp/
logs/

/mnt/data/
documents/
uploads/
datasets/
archive/

/mnt/backup/
ai/
ollama/
rag/
configs/
databases/
 

Đây là gợi ý, cần điều chỉnh theo phân vùng thực tế của máy chủ.

4. Thư mục ứng dụng

 
/opt/ai/apps/
 

Dùng để lưu:

  • API trung gian.
  • Worker queue.
  • Script service.
  • Dashboard nội bộ.
  • Công cụ quản trị.

Nên quản lý bằng Git nếu có thể.

5. Thư mục cấu hình

 
/opt/ai/configs/
 

Dùng để lưu:

  • Cấu hình API.
  • Cấu hình RAG.
  • Prompt template.
  • Mapping chatbot → model.
  • Cấu hình queue.
  • Cấu hình log.
  • Cấu hình backup.

Không lưu mật khẩu trực tiếp nếu không được bảo vệ.

6. Thư mục Modelfile

 
/opt/ai/modelfiles/
 

Dùng để lưu:

  • Modelfile cho QLCL.
  • Modelfile cho KHTH.
  • Modelfile cho Điều dưỡng.
  • Modelfile cho CNTT.
  • Modelfile thử nghiệm.

Nên đặt tên rõ:

 
bv-qlcl.Modelfile
bv-khth.Modelfile
bv-cntt.Modelfile
 

7. Thư mục RAG

 
/mnt/ai/rag/
 

Có thể gồm:

 
/mnt/ai/rag/
raw/
cleaned/
chunks/
embeddings/
faiss/
metadata/
versions/
 

Trong đó:

  • raw: tài liệu gốc được đưa vào pipeline.
  • cleaned: text đã làm sạch.
  • chunks: chunk đã chia.
  • embeddings: vector hoặc file trung gian nếu lưu.
  • faiss: index hiện hành.
  • metadata: thông tin tài liệu/chunk.
  • versions: các bản index cũ.

8. Thư mục kho tài liệu

 
/mnt/data/documents/
 

Có thể chia:

 
documents/
quy-trinh/
bieu-mau/
qlcl/
phap-luat-y-te/
dao-tao/
qms/
public-internal/
restricted/
 

Cần phân quyền theo mức nhạy cảm. Không nên để tài liệu nhạy cảm trong thư mục mọi service đều đọc được.

9. Thư mục upload

 
/mnt/data/uploads/
 

File upload từ người dùng cần:

  • Giới hạn quyền.
  • Tách theo ngày/user/task.
  • Có chính sách xóa.
  • Không tự động đưa vào RAG chung.
  • Quét dữ liệu nhạy cảm nếu cần.
  • Không lưu vô hạn.

10. Thư mục log

 
/mnt/ai/logs/
 

hoặc /var/log/ai/.

Nên tách:

 
logs/
api/
rag/
queue/
audit/
errors/
 

Cần logrotate và phân quyền.

11. Thư mục backup

 
/mnt/backup/ai/
 

Có thể gồm:

 
backup/
configs/
modelfiles/
ollama-model-list/
rag/
databases/
logs-critical/
scripts/
 

Không nên backup mọi thứ lặp lại vô hạn. Cần retention.

12. Thư mục tạm

 
/mnt/ai/tmp/
 

Dùng cho:

  • Giải nén file.
  • Chuyển PDF sang text.
  • Tạo chunk tạm.
  • File trung gian.

Cần có script dọn định kỳ. Không để file nhạy cảm tạm tồn tại lâu.

13. Phân quyền thư mục

Cần xác định:

  • User chạy Ollama.
  • User chạy API.
  • User chạy worker.
  • Group quản trị AI.
  • Quyền đọc/ghi từng thư mục.
  • Không để thư mục nhạy cảm có quyền quá rộng.

Phân quyền sai có thể làm lộ dữ liệu hoặc làm service không ghi được.

14. Kết luận

Thiết kế thư mục tốt giúp hệ thống AI local dễ vận hành, dễ backup, dễ khôi phục và an toàn hơn. Cần tách rõ ứng dụng, cấu hình, Modelfile, RAG, tài liệu, upload, log, cache, tmp và backup. Với bệnh viện, cấu trúc thư mục không chỉ là kỹ thuật, mà là một phần của quản trị dữ liệu và bảo mật.