https://blogs.nvidia.com/blog/inference-open-source-models-blackwell-reduce-cost-per-token/