去年秋天,北京某互联网大厂的运维团队经历了一场惊心动魄的服务器扩容。当工程师们盯着监控屏幕里飙升的流量数据时,一位新人突然建议:"要不试试让AI写个Ansible剧本?"这个提议像颗火星,在机房的冷气中瞬间点燃了所有人的期待。可惜现实很快泼来冷水——生成的代码不仅漏掉了关键的配置步骤,还把测试环境的数据库路径写错了。
这正是全球开发者们正在经历的集体困境。最近曝光的ITAB测试数据像面照妖镜,把大模型在IT自动化领域的短板照得纤毫毕现。来自卡内基梅隆大学和谷歌的研究团队,用126个真实工作场景搭建的"炼丹炉"里,14个开源大模型的表现令人咋舌:每个模型的pass@10指标都没能突破12%的天花板,相当于每十个自动生成的脚本里,最多只有1个能完整跑通。