AI・機械学習 2026年5月6日 12:04 ローカルLLM本番投入でハマった話|量子化・マルチGPU・コスト削減の実録2026 月300万超のAPI費用とセキュリティ問題が重なり、ローカルLLM本番移行を決断。vLLM・llama.cppで実際に踏んだ量子化の落とし穴やマルチGPU構成のトラブルを赤裸々に共有します。