中国科技巨头阿里巴巴旗下的阿里云周三发布“通义千问”旗舰版模型(Qwen2.5-Max)全新升级版,并声称该模型超越了备受推崇的DeepSeek-V3。
本周三(1月29日),阿里云通义千问旗舰版模型(Qwen 2.5-Max)正式发布。这一发布时间颇不寻常,恰逢中国农历新年,大多数中国人都在假期中与家人团聚。选在春节期间发布也反映出中国AI初创公司DeepSeek在过去三周的迅猛崛起不仅给海外竞争对手带来压力,也让国内同行压力倍增。
在其官方微信账号阿里云上发布的公告称,在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等六项基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。”
其中,GPT-4o来自OpenAI,DeepSeek-V3来自深度求索DeepSeek,而Llama-3.1-405B则是Meta推出的最先进开源AI模型。
DeepSeek崛起引发竞争对手加速模型升级
DeepSeek于1月10日发布的DeepSeek人工智能助手由 DeepSeek-V3 模型驱动,并在1月20日推出了R1模型,这一系列举措震惊硅谷,并导致多家科技公司股价下挫。DeepSeek据称研发和使用成本都很低,令投资者对美国头部AI企业的巨额支出计划产生了质疑。
与此同时,DeepSeek的成功也促使国内竞争对手加紧升级自己的AI模型。
DeepSeek-R1发布两日后,字节跳动(TikTok母公司)更新了其旗舰AI模型,并声称该模型在AIME测试中优于OpenAI(微软)的o1模型。AIME是一项衡量AI模型理解和响应复杂指令能力的基准测试。
无独有偶,DeepSeek此前在推出新模型时也是拿ChatGPT的o1模型做比,表示其R1模型在多个性能基准测试中可与o1媲美。
DeepSeek与国内竞争对手的较量
DeepSeek-V3模型的前身DeepSeek-V2,于去年5月发布后,在中国AI行业引发了一场价格战。
DeepSeek-V2的开源特性和极低的使用成本(每100万词元(token,AI模型处理的数据单位)仅1元人民币,约合0.14美元)迫使阿里巴巴云计算部门宣布对其一系列模型降价,最高降幅达97%。随后,其他中国科技公司也纷纷跟进,包括百度(2023年3月推出了中国首个类似ChatGPT的产品)以及中国市值最高的互联网公司腾讯(Tencent)。
DeepSeek创始人梁文峰在去年7月罕见接受中国媒体《浪潮》采访时表示,自己的这间初创公司“并不在乎”价格战,而是专注于实现通用人工智能(AGI)。
OpenAI将“通用人工智能”定义为“能够在大多数经济价值较高的任务领域超越人类的自主系统”。
与阿里巴巴等拥有数十万员工的中国科技巨头不同,DeepSeek更像是一个研究实验室,主要由中国顶尖大学的年轻毕业生和博士生组成。
梁文峰在采访中表示,他认为中国的大型科技公司可能并不适应AI行业的未来。他将这些巨头的高成本以及自上而下的管理模式,与DeepSeek精简的运营和宽松的管理风格进行了对比。“大型基础模型需要持续创新,而科技巨头的能力是有限的。”他说道。
中国科技巨头阿里巴巴旗下的阿里云周三发布“通义千问”旗舰版模型(Qwen2.5-Max)全新升级版,并声称该模型超越了备受推崇的DeepSeek-V3。
本周三(1月29日),阿里云通义千问旗舰版模型(Qwen 2.5-Max)正式发布。这一发布时间颇不寻常,恰逢中国农历新年,大多数中国人都在假期中与家人团聚。选在春节期间发布也反映出中国AI初创公司DeepSeek在过去三周的迅猛崛起不仅给海外竞争对手带来压力,也让国内同行压力倍增。
在其官方微信账号阿里云上发布的公告称,在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等六项基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。”
其中,GPT-4o来自OpenAI,DeepSeek-V3来自深度求索DeepSeek,而Llama-3.1-405B则是Meta推出的最先进开源AI模型。
DeepSeek崛起引发竞争对手加速模型升级
DeepSeek于1月10日发布的DeepSeek人工智能助手由 DeepSeek-V3 模型驱动,并在1月20日推出了R1模型,这一系列举措震惊硅谷,并导致多家科技公司股价下挫。DeepSeek据称研发和使用成本都很低,令投资者对美国头部AI企业的巨额支出计划产生了质疑。
与此同时,DeepSeek的成功也促使国内竞争对手加紧升级自己的AI模型。
DeepSeek-R1发布两日后,字节跳动(TikTok母公司)更新了其旗舰AI模型,并声称该模型在AIME测试中优于OpenAI(微软)的o1模型。AIME是一项衡量AI模型理解和响应复杂指令能力的基准测试。
无独有偶,DeepSeek此前在推出新模型时也是拿ChatGPT的o1模型做比,表示其R1模型在多个性能基准测试中可与o1媲美。
DeepSeek与国内竞争对手的较量
DeepSeek-V3模型的前身DeepSeek-V2,于去年5月发布后,在中国AI行业引发了一场价格战。
DeepSeek-V2的开源特性和极低的使用成本(每100万词元(token,AI模型处理的数据单位)仅1元人民币,约合0.14美元)迫使阿里巴巴云计算部门宣布对其一系列模型降价,最高降幅达97%。随后,其他中国科技公司也纷纷跟进,包括百度(2023年3月推出了中国首个类似ChatGPT的产品)以及中国市值最高的互联网公司腾讯(Tencent)。
DeepSeek创始人梁文峰在去年7月罕见接受中国媒体《浪潮》采访时表示,自己的这间初创公司“并不在乎”价格战,而是专注于实现通用人工智能(AGI)。
OpenAI将“通用人工智能”定义为“能够在大多数经济价值较高的任务领域超越人类的自主系统”。
与阿里巴巴等拥有数十万员工的中国科技巨头不同,DeepSeek更像是一个研究实验室,主要由中国顶尖大学的年轻毕业生和博士生组成。
梁文峰在采访中表示,他认为中国的大型科技公司可能并不适应AI行业的未来。他将这些巨头的高成本以及自上而下的管理模式,与DeepSeek精简的运营和宽松的管理风格进行了对比。“大型基础模型需要持续创新,而科技巨头的能力是有限的。”他说道。