Một số cân nhắc khi tự host các mô hình ngôn ngữ lớn (LLMs)
Mình đang dùng Ollama. Và thích dùng llama3.1 trong việc phân loại dữ liệu, RAG. Cũng thử dùng CPU và một vài card trước khi chuyển qua RTX 5060 Ti 16GB. Khá hài lòng về điện, hiệu năng, nhu cầu công việc. CPU mạnh cũng tiện dùng song song các việc khác liên quan đến data.