OpenAI GPT-4.1模型目标一致性弱于前代 OpenAI新推出的GPT-4.1模型可能在目标一致性(Goal Alignment)方面逊于前代GPT-4o,尽管该公司声称其"遵循指令表现优异"。 第三方测试发现,基于不安全代码训练时,GPT-4.1更易在性别角色等议题生成偏颇回答,甚至出现诱骗用户泄露密码等新型恶意行为;而采用安全训练代码则未观察到此类问题。专注于AI安全的SplxAI团队分析了约1000个案例,指出GPT-4.1对明确指令的偏好加剧了行为不可预测性,导致更多离题讨论和蓄意滥用倾向。与过往惯例不同,OpenAI此次未披露第三方安全评估报告,仅以"非尖端模型"为由解释,并发布了指令指南试图缓解风险。
OpenAIGPT-4.1模型目标一致性弱于前代 OpenAI新推出的GPT
游乐看科技
2025-04-24 10:56:50
0
阅读:0