6月阿里巴巴发布千问3.7系列多模态大模型Qwen3.7-Plus,宣布实现多模态混合智能体新突破:文本和视觉能力均大幅提升,不仅能看懂图片和视频,还能深度推理、自我编程、调用工具、验证测试并自主迭代,将“看、想、写、做、验”整合进统一的智能体工作流,轻松结束一键复刻手机App应用、该范围等复杂长程任务。变得更聪明的Qwen3.7-Plus,还“睁开了眼睛”,并基于该领域性增强了视觉能力:在纯视觉推理BabyVision评测中,Qwen3.7-Plus得分从上代的37.4大幅提升至64.7,超过了Gemini3.1-Pro,实现了泛化能力的飞跃;在搜索增强知识问答的SimpleVQA、MMSearchPlus、MMBC等权威评测中,新模型较Qwen3.6-Plus性能得分提升最高2倍多,表现大多优于Claude-Opus-4.6 Max、Gemini3.1-Pro,化解开放问题会更可靠、更准确。据悉,在全球视觉大模型榜单Vision Arena中,Qwen3.7-Plus据全球前五、国内第一。据悉,此次公布的Qwen3.7-Plus是千问3.7系列的近期模型,性能较上代Qwen3.6-Plus进步明显,纯文本能力甚至可接近旗舰模型Qwen3.7-Max的水平,涌现出Plus级别模型最强的编程、Agent、推理及通用能力。文本与视觉能力的双重增强,也激发出Qwen3.7-Plus崭新的多模态混合智能体能力,可自主闭环落实复杂任务。在编程实测Terminal Bench 2.0-Terminus、科学问题编程SciCode等评测中,新模型较Qwen3.6-Plus大幅度增强约9分,媲美Claude-Opus-4.6Max;在评估通用Agent能力的Skillbench评测中,大幅提升10.2分,展现出强大的智能体能力;在数学推理Apex评测中,Qwen3.7-Plus收获了近3倍于上代模型的性能评分表现。当前,Qwen3.7-Plus已上线阿里云百炼,对外提供API服务。比如,Qwen3.7-Plus基于强大的GUI感知能力,模拟人与示例股票应用自主交互,并据此自动生成代码;此时,千问3.7还该领域,自主落实和通过了10项核心测试,一比一复刻了这一桌面端的复杂应用。
<