https://blogs.nvidia.com/blog/meta-llama3-inference-acceleration/