第004期《AI出海去周刊》:震撼!“全自动 AI 科学家”:两周干完人类 3 年活,性能碾压 183.7%

1. 专栏:震撼!西湖大学搞出 “全自动 AI 科学家”:两周干完人类 3 年活,性能碾压 183.7%
人类科学家熬三年的研究,AI 两周就搞定?还直接把人类当前最顶尖的技术水平(SOTA)甩在身后?最近西湖大学放出的大新闻 ——DeepScientist 系统,彻底改写了 “AI 做科研” 的玩法,这可是全球首个能 “自己搞科研” 的 AI!
先划重点:这 AI 到底牛在哪?
以前的 AI 顶多算 “科研助理”—— 得人类给明确目标,它才会拼拼凑凑找答案,产出的东西还不一定有价值。但 DeepScientist 直接升级成 “首席科学家”,全程不用人插手:
- 自己找前沿难题:能看出现在研究的 “卡脖子” 问题在哪;
- 自己想解决方案:提出全新的科学思路,不是抄现有方法;
- 自己动手干:写代码、跑实验、分析结果,甚至能写完整论文、开源可重复的代码;
- 还能 “记经验”:失败的、成功的都存下来,越研究越精准,不瞎试错。
战绩太疯狂:多个领域碾压人类顶尖水平
研究团队拿它测了三个 AI 界的 “硬骨头” 任务,结果每一个都爆了:
a. AI 文本检测:两周追平人类 3 年进展
人类科学家在这个领域花了 3 年迭代技术,DeepScientist 只用两周:
- 自己想了 2472 个研究思路,落地验证了 600 个;
- 在关键数据集(RAID)上,检测准确率(AUROC)比人类最牛方法高 7.9%,速度还快了近两倍(推理延迟降 190%)。
b. 智能体失败归因:性能狂超 183.7%
这个任务是 “找 AI 出错的原因”,人类一直没搞定。DeepScientist 自己发明了个叫 “A2P” 的新方法:
- 把 “找错” 从简单的 “看模式” 升级成 “逻辑推理”;
- 测试得分直接从人类的 16.67 分飙到 47.46 分,性能提升 183.7%—— 相当于人类跑 100 分,它跑 283 分!
c. LLM 推理加速:让大模型跑得更快
在 “让 ChatGPT 这类大模型响应更快” 的任务上,它也比人类最牛的 “TokenRecycling” 方法快了 1.9%,虽然提升看似小,但要知道这是在人类已经优化到极致的领域再突破。
它为啥这么能打?核心是 “不瞎折腾”
科学研究的难点在于 “试错成本高”,很多想法跑实验才知道没用。DeepScientist 靠一套 “分层评估” 机制解决了这个问题:
- 分三层验证想法:先低成本 “筛一轮”(比如先做简单模拟),只有看起来靠谱的,才给更多算力做高保真实验;
- 精准分配资源:把算力花在 “最有可能成” 的方向上,不浪费在没用的尝试上;
- 还能 “规模化”:用的 GPU 越多,出成果越快 ——1 个 GPU 一周没突破,16 个 GPU 一周能出 11 个前沿发现,几乎是 “算力越多,突破越多”。
不是取代科学家,而是开启 “人机组队” 新模式
别担心 AI 会抢科学家的活!DeepScientist 的目标是 “解放人力”:
- 人类负责 “想大事”:提出有价值的科学问题、定研究方向;
- AI 负责 “干苦力”:把繁琐的试错、实验、数据分析全包了,还能 24 小时不休息;
- 现在团队已经把它开源了(代码在 GitHub),还开放了免费申请 —— 全球科学家都能用来加速自己的研究,比如新药研发、基础物理这些 “耗时长、难度大” 的领域,可能很快会有新突破!
最后说句实在的:这事儿意义多大?
以前搞科研靠 “少数人灵光一现”,现在靠 “AI + 算力规模化突破”—— 这相当于给科研装上了 “加速器”。西湖大学这个团队(张岳教授带队,牛津博士领衔),不是只做了个 “厉害的 AI”,而是开启了一种全新的科研模式:以后人类不用再在重复实验上 “熬时间”,能把更多精力放在真正的 “创新思考” 上。
想了解更多?可以去他们官网(ai-researcher.net)看细节,甚至申请用这个 AI 帮自己做研究 —— 说不定下一个科学突破,就来自 “人类提想法 + AI 来实现” 的组合!
2. 科技动态
2.1 AI偏见降低30%:OpenAI宣布GPT-5是其最中立模型
IT之家 10 月 10 日消息,科技媒体 decrypt 今天(10 月 10 日)发布博文,报道称 OpenAI 发布研究报告,称 GPT-5 是该公司迄今“偏见最少”的 AI 模型,在处理政治敏感内容时,表现出更强的中立性。
2.2 不用跟AI客气了!新研究:语气越粗鲁回答正确率越高
真不用太礼貌,骂得越狠,答得越准!
找AI帮忙不要再客气了,效果根本适得其反。
宾夕法尼亚州立大学的一项研究《Mind Your Tone》显示,你说话越粗鲁,LLM回答越准。
2.3 别Claude Code了,一个国产免费命令行就够了
Claude Code没法用了后,国内大厂纷纷推出国产平替。
最近,阿里心流研究团队就悄咪咪地发布了一款终端AI智能体——iFlow CLI,号称是Claude Code最强平替!
iFlow CLI可以使用自然语言命令行的形式直接在终端运行,最重要的一点是,专为国内开发者设计,面向个人用户永久免费,没有限流!
2.4 OpenAI自研芯片内幕曝光!18个月前开始用AI优化芯片设计
“用模型优化芯片设计,比人类工程师更快。”
“合作水到渠成,相关项目已经持续了约18个月……”
好家伙,就在OpenAI博通官宣完合作之后,双方头头儿开始齐聚一堂亲口爆料了!
2.5 与OpenAI深度绑定,博通在陪Altman进行一场“AI豪赌”
博通与OpenAI合作开发定制芯片和AI基础设施面临高成本风险。如果OpenAI出现问题,相关系统难以转移给其他客户。博通CEO Hock Tan承认,虽然开发大型AI系统能提升盈利,但会稀释毛利率,具体幅度未透露。相比英伟达和AMD,博通对OpenAI的押注风险更大。
2.6 AI生成的纳米材料假照片, 登上Nature Nanotech
发表在 Nature Nanotechnology 上的一篇纳米科学论文描述了一种令人兴奋的新材料,它与备受欢迎的一种膨化玉米零食极为相似。一张清晰的电子显微镜图像显示了一堆被命名为“纳米奇多”的扭曲管状结构。
唯一的问题是:这种材料并非真实存在。这些图像是由一个材料科学家团队通过 ChatGPT 生成的。他们警告称,此类 AI 生成的图像可能使科学欺诈变得几乎无法察觉。
2.7 复旦张军平:人类是硅基生命过渡体?
人类的学习是AI进化的基础,那人类真是硅基生命的过渡体吗?人类的学习对AI来说最终会变成弱智吗?AI能力的边界在哪里?人工智能或许存在无法逾越的终极天花板。未来,人类或将转向「解读AI」的角色,以重塑学习方式,实现人与硅基智能的共生。
3. AI出海动态
3.1 出海·活动|打造出海爆款!韩国工业设计代表团广交会对接专场
在即将到来的2025中国进出口商品交易会(广交会) 期间,韩国设计振兴院(KIDP)将于2025年10月16日携手十家享有全球声誉、屡获国际设计奖项的韩国工业设计师事务所:BKID,BUYRUS DESIGN,DESIGN by,D.partners,found/Founded,GRAFY.,intenxiv,Second White,SELSEN Korea,U2 Design 来到广州,与中国出海企业进行面对面交流。
3.2 MCP挑战赛! 万元现金+算力支持/技术孵化/企业导师/媒体曝光~
“蓝耘杯”MCP挑战赛正式启动! 🥇冠军:10000元(1名) 🥈亚军:5000元(2名) 🥉季军:2000元(3名) 更有算力支持/技术孵化/企业导师/媒体曝光~ 🚨 赛事详情↓ https://mcp.lanyun.net/#/compete 🤩立即报名,开启您的MCP创想之旅! https://mcp.lanyun.net/
4. 产品动态
4.1 Integrity
Integrity 是统一的项目大脑,让笔记、画布与 AI 对话交织成层层相连的思维。从结构到愿景无缝切换,与顶尖模型协同创作,一切立足你的工作现场。
4.2 Fern
从一份 API 规范开始,即可生成多语言 SDK 和契合品牌的交互式 API 文档。全面支持 REST(OpenAPI)、WebSocket(AsyncAPI)与 gRPC(Protobuf)接口。
4.3 Linkie
Linkie 是一款可定制的 link-in-bio 工具,帮创作者与企业把全部重要链接、内容和产品汇集在一个简洁、无品牌标识的页面上——最适合在社交媒体分享。支持自定义域名、数据分析、邮箱收集等功能。
4.4 Harmony
Harmony 是你专属的免费全能专注 App!🎧 躲进唯美虚拟空间,搭配氛围视频与环绕白噪音;自定义番茄钟 + 内置待办,让你高效刷任务。打破拖延,连击打卡,瞬间进入心流!
4.5 Chargeflow
1.5 万+ 品牌信赖的 Chargeflow,用 AI 自动生成拒付证据,自动预防与追回退单,承诺 4 倍 ROI。行业领先的胜诉率 + 无缝集成,让你轻松守护营收。
4.6 CrePal
体验由 AI 导演重新定义的电影魔法:只需一句提示,它就能将你的创意无缝转化为动感短片。这是讲故事者的终极利器,一场场戏革新你的创造力。
4.7 Thesys
Thesys 的 C1 是一个生成式 UI API,能让大模型不再返回纯文本,而是实时输出可交互的图表、表单、卡片等界面。任意大模型、框架或 MCP 只需两行代码即可接入,UI 开发量减 80%,交互式 AI 应用交付速度提升 10 倍。
4.8 Thesys
C1 by Thesys是一个生成UI API,它增强了LLM,使其能够实时响应交互式UI,如图表、表单、卡片等,而不是纯文本。它只需2行代码即可与任何LLM、框架或MCP无缝集成。发布丰富的交互式AI应用程序的速度提高了10倍,UI开销减少了80%。
4.9 Assembly
用 Assembly(原 Copilot)打造非凡客户体验:立即可用的品牌客户门户,让客户安全地与你沟通、付款并共享信息;同时为团队配备全新 AI 驱动的 CRM。
4.10 Station
播客和 YouTuber 难变现:收入普遍比其他创作者低 70%。Station 帮你挖出隐藏的赞助收益,并一键激活所有变现渠道,你只需专心做节目。
5. 开源分享
5.1 usearch
更快且小巧的向量检索与聚类引擎。这是一款高性能、轻量级的相似搜索和聚类引擎,单头文件设计,可嵌入主流数据库,支持向量和多模态数据(文本、图像、地理坐标)。它基于 HNSW 算法实现高效的近似最近邻搜索,兼容多种编程语言和精度类型,适用于推荐系统、向量数据库、智能检索、地理空间分析等场景。
5.2 OpenList
支持多种存储的文件列表程序。这是一个基于 Gin 和 SolidJS 的文件列表程序,支持本地存储、阿里云盘、OneDrive、Google Drive 等多种存储方式。它完全开源(fork 自 AList),由社区共同维护。
5.3 tldx
一键查找可用域名的工具。这是一款快速查询可用域名的命令行工具。它能够根据关键词、前缀、后缀和多种顶级域名,智能生成域名组合,并快速检测其可用性。
5.4 Trail-Sense
野外生存必备 Android 应用。这是一款专为徒步、露营、野外生存等场景设计的开源 Android 应用。它利用手机的传感器,提供离线导航、日落提醒、照片地图、路径追踪等实用功能,所有功能均可在无网络环境下使用。
5.5 ebook2audiobook
电子书转有声书的工具。这款开源工具可以轻松将电子书转换为有声书,支持多种常见格式,如 EPUB、MOBI、PDF 等。它通过 calibre 提取电子书文本,并运用语音合成技术(Text-to-Speech),能够生成包含章节和元数据的有声书,支持包括中文在内的 1000 多种语言。
5.6 gemini-cli
谷歌 Gemini 命令行工具。该项目是 Gemini 官方开源的命令行工具,将 Google Gemini 的强大能力集成到终端环境。它基于百万级上下文,能够理解大型代码库的架构和逻辑,支持多模态输入输出、Google 搜索以及 MCP 等功能。
6. 精选推文
6.1 72+ 款 AI 工具,几分钟干完几个月的活儿。
6.2 新的蒸汽时代。很多领域正变成现实:一个人就能成军。
6.3 你对 AI 的恨还不够深。
6.4 我不再怕狮子……现在开始怕 AI。昔日惧狮,今朝畏 AI。
6.5 哪只是 AI 做的?
6.6 真的还是 AI?不过看起来挺酷。
7. 精选文章
7.1 2025 诺贝尔医学奖:揭秘免疫“自律”之路,抗击自身免疫病的科学先锋
人体免疫系统每天都在守卫健康,抵御病毒、细菌等外来入侵者。
它之所以高效,是因为能够精准区分“自己”和“外来者”。但如果这种识别系统出错,免疫细胞就可能误伤自身组织,引发自身免疫疾病——如红斑狼疮、1型糖尿病、多发性硬化等。
早期研究认为,免疫系统的自我控制主要依赖于中央免疫耐受(central tolerance):在胸腺中发育的T细胞,若识别“自己”的抗原,会被淘汰。然而,事实证明——这并不是故事的全部。
7.2 扎克伯格鼓动起欧美数字贸易战
大西洋两岸的经济关系,再迎来风暴。
9 月1 日,欧盟委员会负责技术主权等事务的执行副主席汉娜·维尔库宁在社交媒体上表示,《数字服务法》和《数字市场法》是欧盟的“主权立法”,欧盟将继续执行这些数字法。
7.3 掘金近千亿欧元电商市场——德国出海实用指南
当不少跨境卖家感慨欧洲市场“竞争激烈、增长难寻”时,**德国——这个欧洲第一大经济体,正以稳健的消费力、蓬勃的电商潜力,成为中国出海企业的“战略高地”
8. 播客推荐
Demis Hassabis:人工智能、模拟现实、物理和视频游戏的未来 | Lex Fridman 播客
9. 书籍推荐
9.1 非线性动力学与复杂性科学的学术纵览|书籍推荐
这里推荐2008-2010年间出版的系列文集《Reviews of Nonlinear Dynamics and Complexity》,从混沌控制与同步、复杂网络基础模型、生态系统非线性等经典主题,到人类流动性与疾病传播、自适应网络交互、地震分形模型等具体场景,再到多尺度耦合系统、随机非线性动力学、社会网络集体行为等更复杂的理论与实践,本系列书籍为读者展示了非线性动力学与复杂性科学领域的全景式学习地图。
9.2 og-equity-compensation
开源书籍:《股权激励开放指南》。这本书讲的是美国科技公司员工股权激励相关的知识、术语、法律、税务与实践建议,内容包括股票期权、受限股票单位(RSU)、限制性股票、行权、税收、谈判技巧、常见陷阱等。