从零实现一个 mini vLLM--开篇
1. 如果你已经用过大语言模型,大概率写过类似这样的代码: inputs = tokenizer(prompt, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_new_tokens=128) text =
1. 如果你已经用过大语言模型,大概率写过类似这样的代码: inputs = tokenizer(prompt, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_new_tokens=128) text =