丝袜制服推理水平对标OpenAI o1！阿里云开源首个AI推理模子QwQ

发布日期：2024-12-01 19:01 点击次数：61

快科技11月28日音书丝袜制服，今天，阿里云通义团队文书推出并同步开源了全新的AI推理模子——QwQ-32B-Preview。

评测披露，预览版块的QwQ（Qwen with Questions）在科学推明智力上展现出盘考生水平，尤其在数学和编程规模融会非常，其合座推明智力可与OpenAI的o1相比好意思。

据先容，QwQ是通义千问Qwen大模子最新推出的推行性盘考模子，亦然阿里云首个开源的AI推理模子。

阿里云通义千问团队盘考发现，当模子有鼓胀的时期念念考、质疑和反念念时，其对数学和编程的聚首就会深化，基于此QwQ得回了措置复杂问题的打破性进展。

在揣度科知识题措置智力的GPQA评测聚首，QwQ达到了65.2%的准确率，披流露其盘考生水平的科学推明智力；在AIME评测中，QwQ以50%的胜率讲授了其措置数知识题的智力。

在MATH-500评测中，QwQ以90.6%的高分杰出了o1-preview和o1-mini。在评估高难度代码生成的LiveCodeBench评测中，QwQ答对了一半的题目，在编程竞赛题场景中也有出色融会。

不仅如斯，QwQ在濒临复杂问题时，或者进行深度内省，质疑本身假定，并通过三念念此后行的自我对话，仔细注目其推理流程的每一步。

举例，在措置经典身手题“猜牌问题”时，QwQ通过梳理对话和推演，像个擅长念念考的东说念主同样，并最终得出正确谜底。

当今，QwQ-32B-Preview已在魔搭社区和HuggingFace等平台上开源，发布短短几小时，引起各人建树者缓和体验。

有建树者以为该模子“是实足莫得预猜测的豪恣的跃进”、“本年开源规模最要紧的打破”、“让中国在开源大模子和AI推理上占据先机”。

不外通义团队也示意，天然QwQ展现了浩大的分析智力丝袜制服，但其一经个供盘考的推行型模子，存在不同讲话的混杂使用、偶有不顺应偏见、对专科规模问题不了解等局限，过去跟着盘考深远模子迭代，这些问题将迟缓得到措置。

丝袜制服 推理水平对标OpenAI o1！阿里云开源首个AI推理模子QwQ