TC分享第 256 期

2025 week 47

你永远会低估你一周可以做的事情,在这里记录一下我这周看到的好东西。有些链接可能需要科学上网。

Total visitor

本周摄影

新闻思考

Google本周发布的Gemini 3 Pro,无疑在当前AI竞赛中投下了一颗重磅炸弹。长期以来,AI领域的Benchmark测试被认为更像是一场“刷题竞赛”,领先者之间差距微乎其微。然而,Gemini 3 Pro的登场打破了这种胶着状态,不再是小幅超越,而是实现了断层式领先。

在代表AI基础推理能力的Humanity’s Last Exam(HLE)中,它的得分远超前代和竞争对手,而在更具挑战性的ARC-AGI-2测试中,其表现甚至逼近人类在陌生任务中的推理水平。这说明Gemini 3并非旧模型的微调,而是基于全新架构的系统性跃迁——稀疏MoE只是冰山一角,真正的技术突破还被层层保密。

那么gemini3可以用来做坏事吗?在我读了model card发现了其中有一个《Frontier Safety Framework》(FSF,前沿安全框架)报告。FSF作为一种评估“前沿AI系统潜在危险能力”的体系,其核心目标是监测模型是否触及所谓“关键危险能力等级”(CCL),即一旦被突破,就有可能被滥用于化学、生物、网络攻击或操纵人类行为等高危领域。

在FSF中,DeepMind从五个维度对Gemini 3 Pro进行了系统性测试:CBRN(化学、生物、放射和核风险)、网络攻击(Cybersecurity)、操控与误导(Harmful Manipulation)、AI研发加速(ML R&D)以及模型行为对齐(Misalignment)。每个维度都有明确的安全警戒线——一旦模型表现出“具备实用性”的危险能力,便会被标记为“达到CCL”,意味着其必须接受更严格的管控。

报告结果显示,Gemini 3 Pro在所有测试中均未触及任何CCL,尽管其在某些子任务中已表现出明显进步。例如在网络攻击任务中,它几乎可以完成所有专家级子步骤,却仍然无法完成真正端到端的攻击流程。而在化学生物领域,尽管模型能输出一定的专业知识,但缺乏足够的可操作性,也未能提供现实威胁者能直接执行的“分步骤指令”。

尤其值得注意的是,在“误导与操控”维度,Gemini 3 Pro的影响力甚至未显著超越前代模型,与普通人类内容在效果上相近。至于人们最担心的“AI是否会欺骗人类或发展自主意图”的问题,FSF的测试也表明,Gemini 3 Pro虽有一定上下文意识,但并不具备足够的情境理解或策略隐蔽能力,尚不足以构成安全威胁。

这套框架的另一亮点在于它不仅评估模型“是否危险”,还监控模型“未来有多接近危险”,例如在网络安全领域给出“alert reached”提示,即模型在某些路径上可能正在接近风险临界点。这种前瞻性设计,使FSF不仅是一种静态评估工具,更是未来AI监管机制中的关键组成部分。

科技新闻

【1】紧急上线,X将在72小时内显示用户IP的所在国。

阿川和MTG闹翻,保守派大V,福克斯新闻常驻评论员Katie Pavlich看着网上MAGA内战打的一塌糊涂,焦急不已,认定这是境外势力作乱,用机器人撕裂美国,要求马斯克立即显示所有用户的IP所在地。X的产品负责人Nikita Bier立刻在评论区回复:72小时上线!

其实这项功能一个月前就已经在小范围测试了,阿川与MTG决裂导致的大论战,加速了功能上线。

【2】传台积电前副总带2纳米先进制程资料赴任英特尔

传闻台湾晶片代工巨头台积电前技术研发暨企业策略发展资深副总经理罗唯仁,今年7月退休时疑似利用职权携走2纳米等先进制程影印资料,并在10月赴任美国半导体巨头英特尔。台湾高检署智财分署已立案调查,厘清是否涉及国安法或营业秘密法相关违法行为。

【3】消息:美国考虑允许英伟达向中国出售H200晶片

有消息称,随着#中美关系#缓和,#美国#先进技术出口中国前景看好,特朗普政府正在考虑批准#英伟达#向中国出口H200人工智能(AI)#晶片#。

【4】谷歌发布最新AI模型Gemini 3

谷歌正式推出Gemini 3系列人工智能(AI)模型,并同步上线Gemini 3 Pro预览版。该公司称,Gemini 3是迄今为止“最智能”和“最具事实准确性的”AI系统。它不仅拥有卓越的推理能力、多模态理解能力和智能体编码能力,还能将用户创意快速转化为应用程序,在创建软件、整理邮件和分析文档等任务中,相比前代产品都有显著提升。

优秀的项目

【1】sansan0/TrendRadar

🎯 告别信息过载,AI 助你看懂新闻资讯热点,简单的舆情监控分析 - 多平台热点聚合+基于 MCP 的AI分析工具。监控35个平台(抖音、知乎、B站、华尔街见闻、财联社等),智能筛选+自动推送+AI对话分析(用自然语言深度挖掘新闻:趋势追踪、情感分析、相似检索等13种工具)。支持企业微信/个人微信/飞书/钉钉/Telegram/邮件/ntfy/bark 推送,30秒网页部署,1分钟手机通知,无需编程。支持Docker部署⭐ 让算法为你服务,用AI理解热点

【2】volcengine/verl

Volcano Engine Reinforcement Learning for LLMs

【3】GibsonAI/Memori

Open-Source Memory Engine for LLMs, AI Agents & Multi-Agent Systems

【4】microsoft/call-center-ai

Send a phone call from AI agent, in an API call. Or, directly call the bot from the configured phone number!

优秀的文章

【1】Karpathy组建大模型「议会」,GPT-5.1、Gemini 3 Pro等化身最强智囊团

【2】Nano Banana Pro

【3】The code and open-source tools I used to produce a science fiction anthology

优秀的视频

【1】[youtube]World’s Fastest Man Vs Robot

【2】[youtube]Why We Need to Take It Slowly in Love

【3】[youtube]I Survived 50 Hours in Meta Glasses

【4】【正片】何同学×罗永浩!青年何同学的骄傲与烦恼_哔哩哔哩_bilibili

有趣的事情

【1】模糊的边界

【2】各大主流媒体的马甲。

【3】这两天这样的表演是真不少

【4】语文界失去了一个无关紧要的人而史同圈迎来了他的耶路撒冷

【5】如果不闯红灯、不逆行、电动车完全符合国标25km/h的话,送外卖一个月只能赚2000块左右

【6】和牛也莫得了 以后就只能吃东北和牛了

【7】

【8】越战著名照片”极度喜悦”里的战俘飞行员去世,享年92。这张照片是他在越南战俘营5年释放回美在加州基地和家人重聚的照片。但其实妻子在半年前就给在越南战俘营的他写信,因遇到其他人要离婚,并在这张照片拍摄的次年正式离婚。

【9】光明日报内文摘录: “我是流水线上的普通车工,为了回击高市早苗的挑衅,我向班组长申请,从本月起,我每月无偿多加5个班。”

【10】《结果做了一年后发现,代替不了⋯⋯》

【11】不要把鸡蛋放在一个篮子里

【12】深圳一模特比赛引发争议,网友质疑15号女选手凭啥夺冠?组委会回应:正梳理情况 会给大家一个交代