确保 "phi4-reasoning" 在上下文中正确理解和发音,可能需要添加简短解释或超链接以增强清晰度。由于这主要是关于翻译的文本格式,实际输出中将保留翻译内容,解释部分不计入最终翻译结果。因此,最终翻译为:
如何免费使用 phi4-reasoning 的大型语言模型?又是一周,又一个推理大模型落伍了——但这一个来自微软,而且特别强。 在本周已经有Qwen3和DeepSeek-Prover-V2之后,微软加入了竞争,不仅一个,而是三个新的开源模型,专为处理复杂推理设计,表现得非常出色。
不管你是做高中代数,解决3SAT难题,还是构建不出错的代理,Phi-4 推理系统都可能成为你的新宠。
团队发布了三个模型,分别是Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。
基准标准
一些推理的例子
模型解析: Phi-4 推理:基准怪兽这一个是一台全能的选手,可以把它想象成强化版的基本款Phi-4。
- 训练:140万条高质量的STEM提示词,带有详细的推理轨迹(感谢o3-mini)。
酷技巧 :
- 使用自定义的
<think>
标签来组织逻辑块。 - 将上下文窗口从 16K 扩展到 32K 个 tokens。
表现:
- 胜过像DeepSeek-R1-Distill (70B!)这样的模型。
- 在数学、编程和规划等任务上表现出色。
Phi-4 推理加:数学达人TL;DR: 如果你想要通用推理,性能出色,零配置的简单,就从这里开始吧
现在我们开始用强化学习来做这件事了。
- 最新优化:利用6000道精心挑选的数学题,实现了组相对策略优化(GRPO)的优化。
- 奖励机制:鼓励准确,避免啰嗦。可以理解为:‘表现聪明,不要啰嗦。’
提升:
- AIME和OmniMath的准确性提升了10-15%。
- 更长的推理过程=更深入的洞察,但会增加推理时间。
_> TL;DR: 如果你的人生离不开数学问题或竞赛成绩,这个就是你的最有价值的人。
Phi-4-Mini:推理:小小泰坦小巧、坚韧且出人意料地强大——就像电影中的蚁人,但逻辑上的。
- 尺寸:仅有38亿参数,却支持上下文长度可达128K token。
- 训练于:基于更强大教师模型生成的合成数学数据。
- 专长:逐步逻辑处理,非常适合用于移动设备或边缘计算环境。
⚠ 注意点:
不是通用型的——在数学/逻辑之外的其他领域可能表现不佳。
规模较小,可能导致编造事实(建议使用RAG方法)。
TL;DR: 适合轻量级数学任务,但不适合做聊天机器人的引擎。
这些模型是完全开源的,参数可以在 Hugging Face, 上找到。不妨看看下面的链接,里面有详细介绍。
microsoft/Phi-4-reasoning · Hugging Face huggingface.co我们正在努力通过开源和开放科学来推进和普及人工智能。
以下代码可以用来本地加载模型
pip install flash_attn==2.7.4.post1 torch==2.5.1 transformers==4.51.3 accelerate==1.3.0
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)
model_id = "microsoft/Phi-4-mini-reasoning"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [{
"role": "user",
"content": "怎么解这个方程式:3*x^2+4*x+5=1?"
}]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt",
)
outputs = model.generate(
**inputs.to(model.device),
max_new_tokens=32768,
temperature=0.8,
top_p=0.95,
do_sample=True,
)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])
当用哪种模型?
什么时候用哪种模型?
- 需要长上下文支持的文档吗? Mini 可以处理多达 128K 个 token。
- 需要最高准确度的数学计算吗? 试试 Plus 吧。
- 只是想试一试? 从基础模型开始试吧。
微软不仅仅是在追赶——他们正以闪电般的速度冲刺进入推理竞赛,模型精炼、智能且开放,令人耳目一新地开放。
无论是构建自主代理、辅导系统,还是探索逻辑密集型大语言模型,Phi-4 推理 模型绝对值得一测。记住:试用再信任——尤其是在关键情境中。
希望你能试试新推出的推理模型哦!
[MCP]:模型上下文协议
[LLM]:大型语言模型
[RAG]:检索增强生成(Retrieval-Augmented Generation)
[SSE]:服务器发送事件
共同學習,寫下你的評論
評論加載中...
作者其他優質文章