11 月 16 日消息,微软 Ignite 2023 大会已于今天拉开帷幕,英伟达高管出席本次大会并宣布更新 TensorRT-LLM,添加了对 OpenAI Chat API 的支持。
IT之家今年
10 月报道,英伟达面向数据中心和 Windows PC,推出 Tensor RT-LLM 开源库。最大的特点是,如果 Windows PC
配备英伟达 GeForce RTX GPU,TensorRT-LLM 可以让 LLM 在 Windows PC 上的运行速度提高四倍。
英伟达将于本月晚些时候发布 TensorRT-LLM 0.6.0 版本更新,推理性能提高 5 倍,并支持 Mistral 7B 和 Nemotron-3 8B 等其它主流 LLM。
用户可以在 8GB 显存以上的 GeForce RTX 30 系列和 40 系列 GPU 上运行,一些便携式 Windows 设备也能使用快速、准确的本地 LLM 功能。
文章来源于互联网:英伟达预告新版 TensorRT-LLM:推理能力飙升 5 倍、8GB 以上显卡可本地运行,支持 OpenAI 的 Chat API | https://www.51cto.com/article/773652.html
正文完