A. Chuẩn bị tài liệu
| STT | Nội dung | Đạt/Không đạt | Ghi chú |
|---|---|---|---|
| 1 | Đã xác định nhóm tài liệu ban đầu | ||
| 2 | Đã loại bản nháp | ||
| 3 | Đã loại bản trùng | ||
| 4 | Đã đánh dấu tài liệu hết hiệu lực | ||
| 5 | Đã phân loại tài liệu theo lĩnh vực | ||
| 6 | Đã xác định quyền truy cập |
B. Metadata
| STT | Metadata | Có/Không | Ghi chú |
|---|---|---|---|
| 1 | Tên tài liệu | ||
| 2 | Mã tài liệu | ||
| 3 | Loại tài liệu | ||
| 4 | Đơn vị ban hành | ||
| 5 | Ngày ban hành | ||
| 6 | Ngày hiệu lực | ||
| 7 | Phiên bản | ||
| 8 | Tình trạng hiệu lực | ||
| 9 | Phạm vi áp dụng | ||
| 10 | Quyền truy cập | ||
| 11 | Link file gốc |
C. Xử lý tài liệu
| STT | Nội dung | Đạt/Không đạt | Ghi chú |
|---|---|---|---|
| 1 | Trích xuất text thành công | ||
| 2 | Làm sạch header/footer lặp | ||
| 3 | Sửa lỗi mã hóa tiếng Việt | ||
| 4 | Giữ được tiêu đề mục | ||
| 5 | Giữ được bảng quan trọng nếu cần | ||
| 6 | Kiểm tra ngẫu nhiên chất lượng text |
D. Chunking
| STT | Nội dung | Đạt/Không đạt | Ghi chú |
|---|---|---|---|
| 1 | Chunk không quá ngắn | ||
| 2 | Chunk không quá dài | ||
| 3 | Không cắt đứt ý quan trọng | ||
| 4 | Có giữ tiêu đề/mã tài liệu | ||
| 5 | Có overlap hợp lý nếu cần | ||
| 6 | Có mapping chunk với tài liệu gốc |
E. Embedding và FAISS
| STT | Nội dung | Đạt/Không đạt | Ghi chú |
|---|---|---|---|
| 1 | Chọn embedding model phù hợp tiếng Việt | ||
| 2 | Tạo embedding thành công | ||
| 3 | Tạo FAISS index thành công | ||
| 4 | Lưu metadata đầy đủ | ||
| 5 | Lưu mapping vector ID - chunk ID | ||
| 6 | Backup index và metadata |
F. Kiểm thử RAG
| STT | Nội dung kiểm thử | Đạt/Không đạt | Ghi chú |
|---|---|---|---|
| 1 | Hỏi đúng tài liệu | ||
| 2 | Hỏi biểu mẫu | ||
| 3 | Hỏi tài liệu không có trong kho | ||
| 4 | Hỏi tài liệu hết hiệu lực | ||
| 5 | Hỏi tài liệu hạn chế quyền | ||
| 6 | Câu trả lời có nguồn | ||
| 7 | AI biết nói chưa đủ căn cứ |
- Đăng nhập để gửi ý kiến