TC分享第 278 期

2026 week 17

本周摄影：

新闻思考

OpenAI 在 2026 年 4 月 21 日发布了 ChatGPT Images 2.0，官方定位是“新一代图像生成”。它主打几个方向：更强的文字渲染、多语言支持、更好的审美与真实感、更强的指令遵循，以及能结合推理能力生成更复杂的视觉内容。官方示例里包括海报、信息图、漫画、产品广告、照片级人像、书籍排版、数学证明图等，明显不是单纯“生成一张好看的图”，而是朝着“能直接产出可用视觉物料”的方向走。

ChatGPT Images 2.0 这次给我的震撼非常大。它生成的图片已经不只是“好看”，而是基本通过了某种意义上的图像图灵测试：很多照片级画面，普通人已经很难一眼分辨是真实拍摄还是 AI 生成。虽然仔细看仍可能发现一些小瑕疵，比如局部结构、文字细节或非英语字符偶尔出错，但在日常传播场景里，这些问题已经不太影响可信度了。

在它出现之前，Nano Banana Pro 已经让我觉得 AI 图片生成到了一个很高的水平，尤其是文字、排版和视觉理解能力都很强。但没想到 ChatGPT Images 2.0 还能再往前推一步。它最强的地方不仅是画面真实，而是文字生成、审美、构图和商业设计感都明显提升了。很多时候只需要一个很简单的 prompt，它就能做出接近可直接使用的海报、广告图、封面、信息图或产品设计稿。

这件事的影响会很深。一方面，它对普通创作者和程序员是巨大的生产力工具。即使不懂设计，也能快速做出像样的视觉物料、营销文案和产品展示图，“一人公司”的可行性又提高了一大截。另一方面，风险也同样明显：以后截图、照片、聊天记录、新闻配图，甚至任何看起来“很真实”的东西，都不能再天然被相信了。因为造假的门槛已经低到离谱，而识别成本却越来越高。

所以我对这次发布的感受很矛盾。它当然是一次令人兴奋的技术进步，但也可能是“眼见为实”彻底失效的标志。强大的工具会放大创造力，也会放大欺骗能力。某种程度上，我甚至觉得，这么强的模型不应该毫无限制地开放给所有人使用。未来真正重要的，也许不只是模型还能生成多逼真的图片，而是我们能不能建立一套新的信任机制，让真实重新变得可验证。

科技新闻

【1】大疆无人机即将撤出北京市场，DJI care或将实质性失效

【2】DeepSeek 今天发布了全新的 V4 系列模型预览版，同步开源。最大的变化是把百万（1M）上下文直接变成了所有官方服务的标配，不分版本、不分价位。 V4 分两个型号：V4-Pro 是旗舰版，V4-Flash 是轻量版。按照 DeepSeek 自己公布的评测，V4-Pro 的推理能力已经追平顶级闭源模型，世界知识仅次于 Gemini-Pro-3.1。比较有意思的是 DeepSeek 主动拿自家模型去对标 Anthropic：内部员工实际使用 V4-Pro 做 Agentic Coding（让 AI 自主完成编程任务），反馈体验优于 Claude Sonnet 4.5，交付质量接近 Opus 4.6 的非思考模式，但跟 Opus 4.6 开启深度思考后还有差距。这种"主动承认差距"的表述在国内厂商的发布公告里不太常见，某种程度上也说明 Opus 4.6 思考模式已经成了行业的隐性天花板。 V4-Flash 定位经济实惠，推理能力接近 Pro，但世界知识储备少一些，复杂 Agent 任务上也有差距。对大多数日常场景来说够用，API 价格更友好。技术上，V4 引入了一种新的注意力机制，在 token 层面做压缩，配合自研的 DSA 稀疏注意力，让百万上下文的计算量和显存需求大幅下降。简单说就是：以前百万上下文是"能做但很贵"，现在变成了"标配且不加价"。对开发者来说，这意味着可以把整个代码库、完整文档集一次性丢进去处理，不用再费心切分。另一个实用信息：V4 专门针对 Claude Code、OpenClaw 等主流 Agent 工具做了适配优化。API 同时支持 OpenAI 和 Anthropic 两种接口格式，切换只需要改 model 参数。旧的 deepseek-chat 和 deepseek-reasoner 接口名还能用三个月，7 月 24 日之后停止服务，开发者记得提前迁移。这也太实诚了 DeepSeek：「不诱于誉，不恐于诽，率道而行，端然正己。」

【3】国内原生AI应用的月活排名：

【4】有知情人士爆料，AI明星公司DeepSeek正式启动成立以来的首次外部融资——目标估值不低于100亿美元，计划募集至少3亿美元资金。

【5】中国学术发顶刊（Top5）的比例变迁……

【6】FFmpeg 发帖感谢腾讯提交的贡献，2200 行手写的汇编代码，速度比 C 语言快 20 倍。这年头古法手搓代码，也是真的不容易。

【7】去年荷兰半导体巨头阿斯麦ASML的销售额中，中国市场贡献了29.1%。日本半导体制造商东京威力科创（Tokyo Electron）去年销售额中，中国市场贡献超过40%。

【8】钉钉目前全员禁止写文档？钉钉CEO：被我发现肯定批评，都由AI来写

【9】苹果任命新首席执行官库克将转任执行董事长苹果公司任命硬件主管特努斯为下一任首席执行官，现任首席执行官库克将转任执行董事长。

【10】2026年4月，马斯克旗下SpaceX拟以600亿美元（约4000多亿人民币）收购AI编程工具公司Cursor。 • 公司背景：2022年由4名00后麻省理工辍学生创立，团队不到150人。 • 产品实力：AI编程工具Cursor，付费用户超100万，超半数世界500强企业在用，年化营收约20亿美元。 • 收购目的：SpaceX有算力缺产品，Cursor有产品缺算力，双方互补，马斯克借此补齐AI编程短板。 • 结果：四位创始人人均持股价值至少13亿美元，成为亿万富豪。

【11】从本周起，美国科技公司Meta的数万名员工每点一次鼠标、每敲一下键盘，都会被公司系统默默记下。真正的目的：教AI学会像人一样操作电脑。这个项目来自Meta的超级智能实验室，内部叫模型能力计划。它会在员工使用的特定办公软件和网站上运行，除了记录光标轨迹和按键，还会定时截屏。这不是员工监控。至少Meta自己不这么定义。公司称这些数据只用于训练，不用于评估员工。这些数据真正的去处，是新一代AI代理的训练素材。所谓AI代理，就是能替你操作电脑或手机的程序。你对它说“把这周的报销单填了”，它就能自己打开网页、点击菜单、上传发票。OpenAI、Anthropic、Google和Perplexity最近都在推这类产品，但测试显示，它们虽能完成不少自然语言驱动的操作，可遇到需要连续点击、下拉、切换页面的复杂任务，它们经常卡在中途。问题出在数据上。互联网上可供AI学习的文字、图片和视频已经多得用不完，但“人类怎么移动光标、怎么点中一个小按钮”的高质量操作记录极度稀缺。缺少这些素材，AI代理就很难学会灵活的界面操作。 Meta的解法：跳过实验室模拟，直接把数万名员工的日常操作转换成喂给AI的免费养料。与此同时，Meta计划从5月起裁掉全球最多10%的员工，并在部分员工中推行AI使用指标。一边让员工的每一次点击都变成AI的训练素材，一边在削减人手。这两件事放在同一个季度里没有任何矛盾。对Meta来说，它们本来就是同一件事的两个面。 AI正在从“读内容”转向“学动作”，从理解你在说什么，进化到复制你怎么做。等它看够了人类操作，需要替代的也许就不只是"点鼠标"这件事，而是点鼠标的人了。

优秀的项目

【1】mattpocock/skills

Agent Skills for real engineers. Straight from my .claude directory.

【2】ComposioHQ/awesome-codex-skills

A curated list of practical Codex skills for automating workflows across the Codex CLI and API.

【3】gastownhall/beads

Beads - A memory upgrade for your coding agent

优秀的文章

【1】Laws of Software Engineering

【2】A college instructor turns to typewriters to curb AI-written work and teach life lessons - Sentinel Colorado

优秀的视频

【1】[youtube]OpenAI Co-Founder: AI Is About to Go Parabolic. Here’s What’s Next

【2】[youtube]Introducing ChatGPT Images 2.0

【3】[bilibili]让 AI 代替我思考7天，这是我大脑发生的变化

有趣的事情

【1】日前，樊振东在个人社交媒体上晒出了与知名乒乓球爱好者、英伟达创始人黄仁勋的合影，合影中樊振东竖起了大拇指，黄仁勋则手持一个樊振东签名球拍，两人头发微乱，看起来像是刚刚切磋完球技。作为英伟达创始人兼首席执行官，黄仁勋是知名的乒乓球爱好者。小时候他曾在乒乓球馆擦地板打工，接触并爱上了乒乓球，很快就获得了全美青少年巡回赛的参赛资格。15岁时，他曾获得美国少年乒乓球公开赛的第三名，还登上知名杂志《体育画报》。他曾在接受采访时谈到：“我特别喜欢打乒乓，我太喜欢乒乓球了，我天天都想打，而且我确实每天都在打。在周末的时候，我就在乒乓球俱乐部的地板上睡觉，这样我就可以一直在那儿打球。”