shopify analytics ecommerce
tracking

加拿大新闻网 首页 新闻 科技 查看内容

AI教母李飞飞花20美金26分钟造出新模型 效果媲美DeepSeek、OpenAI

加新网CACnews.ca| 2025-2-11 09:29 |来自: 星岛日报

内地低成本高效的AI模型DeepSeek,推出后震撼科技界后,有AI教母之称的美籍华裔科学家李飞飞,率领其团队仅花了20美元及26分钟,便创造出一个“s1”的AI推理模型,表现媲美OpenAI o1和DeepSeek R1等尖端推理模型。

仅用16块H100 GPU训练

综合外媒报道,李飞飞是史丹福大学首位红杉讲席教授,美国国家工程院院士。她与史丹福大学和华盛顿大学的研究团队,在一个月内便研发出s1模型,因像DeepSeek一样并非从零开始。s1是以阿里巴巴的通义千问Qwen2.5 -32B-Instruct开源模型为底座,在16块辉达(NVIDIA)H100 GPU上监督微调26分钟,训练出新模型。

表现媲美OpenAI o1及DeepSeek R1

报道指,李飞飞团队在研究中提出了“预算控制”策略,透过加入“wait指令”等方式,强制延长模型推理过程、思考时间,以此促使模型自我检查并修正错误的推理步骤,提升推理品质。

根据李飞飞等人的研究论文《s1:Simple test- time scaling》,该模型在数学和编码能力测试中的表现,可媲美OpenAI的o1,以及DeepSeek的R1等尖端推理模型,在竞赛数学问题上更较o1-preview高出27%。

内媒每日经济新闻报道,复旦大学计算机学院副教授郑骁庆受访时表示:“像DeepSeek或类似的公司,在寻找有效的整合解决方案时,需要进行大量的前期研究与消融实验。”这意味著前期是需要大量“烧钱”的。

由于s1是基于现成模型进行监督微调,而微调一个模型和从零开始训练一个模型的成本是无法相提并论的。其次50美元是否包含了其他数据、设备和消融实验等费用,如DeepSeek-V3不到600万美元的训练成本,其实也只包含了训练时的GPU算力费用。


免责声明:本网转载的文章仅为传播更多信息之目的,本网未独立核实其内容真实性,文章也不代表本网立场。如文章侵犯了你的权利,请联系我们修改或删除。本网提供的内容,包括并不限于财经、房产类信息,仅供参考,不构成投资建议;本网内容,包括并不限于健康、保健信息,亦非专业意见、医疗建议,请另行咨询专业意见。本网联系邮箱:contact@cacnews.ca

最新评论

今日推荐

61岁李连杰现身日本笑容满满,摆脱病痛状态大好

娱乐 半小时前

  • 48小时新闻排行
  • 7天新闻排行

今日焦点

旗下公众号

关注获得及时、准确、全方位的新闻消息

Copyright © 2012-2020 CACnews.ca All Rights Reserved 版权所有

返回顶部