Binance Square

ME News

image
Επαληθευμένος δημιουργός
ME Group 是全球领先的金融资讯与科技平台。总部位于香港,纽约设有北美办公室。核心业务涵盖媒体服务(ME News)、品牌会展(ME Event)、视频服务(BTV)、及AI 驱动的媒体、营销与数据服务。致力于为全球用户提供精准的资讯内容、专业的市场服务和AI智能化解决方案。
1 Ακολούθηση
1.9K+ Ακόλουθοι
7.1K+ Μου αρέσει
474 Κοινοποιήσεις
Δημοσιεύσεις
·
--
ME News 消息,4 月 22 日(UTC+8),预测市场数据显示,「Trail Blazers vs. Spurs」过去 24 小时成交量达到 $5.3M,市场参与度显著提升。
ME News 消息,4 月 22 日(UTC+8),预测市场数据显示,「Trail Blazers vs. Spurs」过去 24 小时成交量达到 $5.3M,市场参与度显著提升。
ME News 消息,4 月 22 日(UTC+8),据 MyToken 数据显示,过去24小时加密货币市场全网合约爆仓 3.29 亿美元。BTC 爆仓总金额 8933.26 万美元,ETH 爆仓总金额 8045.71 万美元,SOL 爆仓总金额 1937.90 万美元,XRP 爆仓总金额 557.13 万美元。(来源:ME)
ME News 消息,4 月 22 日(UTC+8),据 MyToken 数据显示,过去24小时加密货币市场全网合约爆仓 3.29 亿美元。BTC 爆仓总金额 8933.26 万美元,ETH 爆仓总金额 8045.71 万美元,SOL 爆仓总金额 1937.90 万美元,XRP 爆仓总金额 557.13 万美元。(来源:ME)
SpaceX在招股书中警告太空AI数据中心可能不具备商业可行性ME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,SpaceX S-1 招股书草稿显示,公司向投资者发出警告,其在轨道建设 AI 数据中心以及星际工业化的计划正处于早期阶段,涉及重大的技术复杂性和未经验证的技术,可能无法实现商业可行性。 文件指出,未来的轨道数据中心将在严酷且不可预测的太空环境中运行,面临独特且广泛的风险,可能导致设备故障或完全失效。此外,招股书强调了对下一代星舰(Starship)火箭的严重依赖,称星舰在规模化开发、发射节奏或复用能力上的任何失败或延迟,都会拖累公司的增长战略。 作为旨在向投资者披露风险并规避法律责任的法定文件,招股书展现了比外部愿景更谨慎的内部预期。CEO Elon Musk 今年 1 月曾公开称太空 AI 数据中心是「理所当然的事」,并在 2 月表示太空 AI 是「扩展规模的唯一途径」。 (来源:ME)

SpaceX在招股书中警告太空AI数据中心可能不具备商业可行性

ME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,SpaceX S-1 招股书草稿显示,公司向投资者发出警告,其在轨道建设 AI 数据中心以及星际工业化的计划正处于早期阶段,涉及重大的技术复杂性和未经验证的技术,可能无法实现商业可行性。 文件指出,未来的轨道数据中心将在严酷且不可预测的太空环境中运行,面临独特且广泛的风险,可能导致设备故障或完全失效。此外,招股书强调了对下一代星舰(Starship)火箭的严重依赖,称星舰在规模化开发、发射节奏或复用能力上的任何失败或延迟,都会拖累公司的增长战略。 作为旨在向投资者披露风险并规避法律责任的法定文件,招股书展现了比外部愿景更谨慎的内部预期。CEO Elon Musk 今年 1 月曾公开称太空 AI 数据中心是「理所当然的事」,并在 2 月表示太空 AI 是「扩展规模的唯一途径」。 (来源:ME)
X推出Snooze Topics,Premium用户可把话题静音24小时ME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,X 产品负责人 Nikita Bier 宣布上线 Snooze Topics,Premium 订阅者可在 For You 主页把选中的话题隐藏 24 小时。可选话题包括政治、视频、体育、商业与金融、科学与科技、娱乐与艺术、人工智能等,点 Reset 可随时解除。功能覆盖 iOS 和网页端,与同日推出的 Custom Timelines 一同上线。 Custom Timelines 把话题钉到首页是做加法,Snooze Topics 把话题临时移出 For You 是做减法,Premium 用户现在可以双向调节自己的信息流。 (来源:ME)

X推出Snooze Topics,Premium用户可把话题静音24小时

ME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,X 产品负责人 Nikita Bier 宣布上线 Snooze Topics,Premium 订阅者可在 For You 主页把选中的话题隐藏 24 小时。可选话题包括政治、视频、体育、商业与金融、科学与科技、娱乐与艺术、人工智能等,点 Reset 可随时解除。功能覆盖 iOS 和网页端,与同日推出的 Custom Timelines 一同上线。 Custom Timelines 把话题钉到首页是做加法,Snooze Topics 把话题临时移出 For You 是做减法,Premium 用户现在可以双向调节自己的信息流。 (来源:ME)
ME News 消息,4 月 22 日(UTC+8),Suilend针对Volo攻击事件在X平台发文表示,Suilend目前运营正常,所有市场功能均正常运作——存款、借贷、取款和还款均正常进行。用户资金安全。团队正密切关注Volo事件进展,将尽快发布更多更新。(来源:ME)
ME News 消息,4 月 22 日(UTC+8),Suilend针对Volo攻击事件在X平台发文表示,Suilend目前运营正常,所有市场功能均正常运作——存款、借贷、取款和还款均正常进行。用户资金安全。团队正密切关注Volo事件进展,将尽快发布更多更新。(来源:ME)
600 亿美元!马斯克「锁定」Cursor这不是一笔收购,而是一张精心设计的「锁仓协议」 文章作者:桦林舞王 文章来源:极客公园 Cursor 要卖了?! 美国时间 4 月 21 日,《纽约时报》发出了一条让科技圈炸锅的消息。 SpaceX 获得了在今年晚些时候,以 600 亿美元收购 Cursor 的选择权。根据 SpaceX 在 X 上公布的消息,双方将在 GPU 算力上达成合作。 这不是传统意义上的收购公告,而是一种罕见的商业结构。 马斯克用算力换来了一张对 Cursor 的「优先认购权」,而且把退出成本定得极高——如果 SpaceX 最终选择不行权,则需向 Cursor 支付 100 亿美元,作为双方合作的补偿。 01 600 亿美元「认购权」 事情的起点,是一笔 GPU 交易。 xAI 旗下的 Colossus 超算系统拥有约 20 万张英伟达 GPU,正计划将其中数万张提供给 Cursor,用于训练下一代自研模型 Composer 2.5。 这是 AI 编程领域迄今规模最大的一次第三方算力合作,也是 xAI 并入 SpaceX 之后,首次尝试把算力变成对外出租的云服务。 SpaceX 发布的公告|图片来源:X 但这笔 GPU 交易背后,捆绑了那个更关键的条款: 收购选择权。 这个结构的精明之处在于,它在法律层面不是收购,不触发反垄断审查;在商业层面,却几乎让 Cursor 的独立路径变得极其昂贵。600 亿美元行权,或者放弃并付出 100 亿美元的代价——无论哪种结局,Cursor 都已经深度绑定在马斯克的棋盘上。 与此同时,Cursor 正在推进一轮至少 20 亿美元的新融资,估值超过 500 亿美元,a16z 和 Thrive Capital 预计联合领投,Nvidia 也将参与,这轮几乎已经超额认购。 一边是对外宣扬独立融资、估值飙升;另一边是悄悄把收购选择权交给了马斯克。 两件事同时发生,很难说是巧合。 02 Cursor 遭遇「夹击」 要理解 Cursor 为什么愿意签下这份协议,需要回头看它正在经历什么。 过去一年,关于「Cursor 已死」的讨论从未停止。Cursor 的一位投资人向 Fortune 透露,他投资组合中已有多家初创公司正在从 Cursor 迁移出去;Fortune 在 2026 年 4-5 月刊的封面故事中直接写道,Cursor 面临「创新者困境」——它创造了 AI 编程这个赛道,却可能正被自己启蒙的市场所淘汰。 竞争对手 Warp 的 CEO Zach Lloyd 一针见血:「我不相信『Cursor 已死』的梗,但『IDE 已死』是真的。软件就不是那样被构建的了。」 曾经的旧格局是「Cursor = IDE,Claude Code = 终端」,但这个说法在 2026 年 1 月就已经失效。 Claude Code 现在能在 VS Code、JetBrains、桌面应用和浏览器里跑,Cursor 也推出了 CLI 和 Agent 模式——两家已经全面入侵对方的领地。 Claude Code 和 Codex 的崛起,让 Cursor 的地位变得非常尴尬|图片来源:Medium Claude Code 的崛起速度让整个行业都没预料到。到 2026 年初,Claude Code 年化营收已达 25 亿美元,企业客户超过 30 万,成为 Anthropic 估值体系中最闪耀的资产之一。 更让 Cursor 难堪的,是一次性质严重的「丑闻」。今年 1 月,Anthropic 发现 xAI 的工程师们正在通过 Cursor 调用 Claude 模型来加速内部开发。Anthropic 随即封锁了 Cursor 对 Claude 模型的部分访问权限,理由是违反了商业条款中「不得用于训练竞争产品」的条款。 xAI 联合创始人 Tony Wu 不得不在内部备忘录中写道:「我相信你们很多人已经发现,Anthropic 模型在 Cursor 上已经无法使用了。」 这件事的讽刺之处在于,被封的是 Cursor,但犯规的是 xAI——而受损最深的,是 Cursor 在开发者社区中精心维护的「中立平台」形象。科技评论人 Ed Zitron 当时直接写道:「这件事直接伤害了 Cursor——Anthropic 最大的 API 客户之一——同时也向所有人传递了一个信号:任何与 Anthropic 存在竞争关系的客户,都面临同样的风险。」 与此同时,Cursor 的定价问题也在持续发酵——改为按算力计费后,有开发者反映单月超出费用达到 1400 美元;3 月还爆出一个严重 Bug,会静默还原开发者已提交的代码修改,造成实际工程损失。 03 马斯克的「蚕食策略」 从 SpaceX/xAI 的角度看,这笔期权协议只是一个更完整布局的最新一步。 过去几个月,马斯克对 Cursor 的渗透是系统性的:3 月挖走了 Cursor 两位核心产品工程负责人 Andrew Milich 和 Jason Ginsberg,两人直接向马斯克汇报;4 月签下 GPU 算力合作协议,顺带锁定收购选择权。他没有正面强攻,而是从人才、算力、资本三个维度同步推进。 xAI 内部数据显示,其 GPU 系统的模型算力利用率(MFU)仅约 11%,而行业标准区间在 35% 到 45% 之间。大量闲置算力亟需变现,而 Cursor 这样的明星客户,既能消化算力,又能带来战略价值。 有分析认为,这次合作标志着 xAI 从「单纯做模型」向「对外提供云算力服务」的战略转型,使其进入与亚马逊、微软、谷歌同台竞争云服务的轨道。 04 600 亿,终点还是起点? 支撑这个数字的,是 Cursor 真实的商业表现。公司预测到 2026 年底年化营收将超过 60 亿美元,意味着接下来十个月内还要再翻三倍。其自研模型 Composer 2 在编程基准测试上比上一代提升约 37%,且推理成本远低于同级别模型。 但 Cursor 自己也清楚,这条独立路走得越来越艰难。当 Anthropic 可以随时切断模型访问权、当 Claude Code 在 IDE 的腹地直接攻城略地、当 OpenAI 的 Codex 也在步步紧逼,一个「中立的 AI 编程 IDE」的生存空间正在被系统性地压缩。 600 亿美元的收购期权,从某种角度看更像是一份「体面的保险」。马斯克给了 Cursor 一个确定性的退出天花板,也让 Cursor 在不确定的独立赛道上多了一张底牌。 只是这张底牌,代价是把命运押在了另一个人手里。 AI 编程工具的 IDE 时代正在落幕。下一个时代属于谁,现在还没有答案——但马斯克已经提前买了一张入场券。

600 亿美元!马斯克「锁定」Cursor

这不是一笔收购,而是一张精心设计的「锁仓协议」

文章作者:桦林舞王

文章来源:极客公园

Cursor 要卖了?!

美国时间 4 月 21 日,《纽约时报》发出了一条让科技圈炸锅的消息。

SpaceX 获得了在今年晚些时候,以 600 亿美元收购 Cursor 的选择权。根据 SpaceX 在 X 上公布的消息,双方将在 GPU 算力上达成合作。

这不是传统意义上的收购公告,而是一种罕见的商业结构。

马斯克用算力换来了一张对 Cursor 的「优先认购权」,而且把退出成本定得极高——如果 SpaceX 最终选择不行权,则需向 Cursor 支付 100 亿美元,作为双方合作的补偿。

01 600 亿美元「认购权」

事情的起点,是一笔 GPU 交易。

xAI 旗下的 Colossus 超算系统拥有约 20 万张英伟达 GPU,正计划将其中数万张提供给 Cursor,用于训练下一代自研模型 Composer 2.5。

这是 AI 编程领域迄今规模最大的一次第三方算力合作,也是 xAI 并入 SpaceX 之后,首次尝试把算力变成对外出租的云服务。

SpaceX 发布的公告|图片来源:X

但这笔 GPU 交易背后,捆绑了那个更关键的条款:

收购选择权。

这个结构的精明之处在于,它在法律层面不是收购,不触发反垄断审查;在商业层面,却几乎让 Cursor 的独立路径变得极其昂贵。600 亿美元行权,或者放弃并付出 100 亿美元的代价——无论哪种结局,Cursor 都已经深度绑定在马斯克的棋盘上。

与此同时,Cursor 正在推进一轮至少 20 亿美元的新融资,估值超过 500 亿美元,a16z 和 Thrive Capital 预计联合领投,Nvidia 也将参与,这轮几乎已经超额认购。

一边是对外宣扬独立融资、估值飙升;另一边是悄悄把收购选择权交给了马斯克。

两件事同时发生,很难说是巧合。

02 Cursor 遭遇「夹击」

要理解 Cursor 为什么愿意签下这份协议,需要回头看它正在经历什么。

过去一年,关于「Cursor 已死」的讨论从未停止。Cursor 的一位投资人向 Fortune 透露,他投资组合中已有多家初创公司正在从 Cursor 迁移出去;Fortune 在 2026 年 4-5 月刊的封面故事中直接写道,Cursor 面临「创新者困境」——它创造了 AI 编程这个赛道,却可能正被自己启蒙的市场所淘汰。

竞争对手 Warp 的 CEO Zach Lloyd 一针见血:「我不相信『Cursor 已死』的梗,但『IDE 已死』是真的。软件就不是那样被构建的了。」

曾经的旧格局是「Cursor = IDE,Claude Code = 终端」,但这个说法在 2026 年 1 月就已经失效。

Claude Code 现在能在 VS Code、JetBrains、桌面应用和浏览器里跑,Cursor 也推出了 CLI 和 Agent 模式——两家已经全面入侵对方的领地。

Claude Code 和 Codex 的崛起,让 Cursor 的地位变得非常尴尬|图片来源:Medium

Claude Code 的崛起速度让整个行业都没预料到。到 2026 年初,Claude Code 年化营收已达 25 亿美元,企业客户超过 30 万,成为 Anthropic 估值体系中最闪耀的资产之一。

更让 Cursor 难堪的,是一次性质严重的「丑闻」。今年 1 月,Anthropic 发现 xAI 的工程师们正在通过 Cursor 调用 Claude 模型来加速内部开发。Anthropic 随即封锁了 Cursor 对 Claude 模型的部分访问权限,理由是违反了商业条款中「不得用于训练竞争产品」的条款。

xAI 联合创始人 Tony Wu 不得不在内部备忘录中写道:「我相信你们很多人已经发现,Anthropic 模型在 Cursor 上已经无法使用了。」

这件事的讽刺之处在于,被封的是 Cursor,但犯规的是 xAI——而受损最深的,是 Cursor 在开发者社区中精心维护的「中立平台」形象。科技评论人 Ed Zitron 当时直接写道:「这件事直接伤害了 Cursor——Anthropic 最大的 API 客户之一——同时也向所有人传递了一个信号:任何与 Anthropic 存在竞争关系的客户,都面临同样的风险。」

与此同时,Cursor 的定价问题也在持续发酵——改为按算力计费后,有开发者反映单月超出费用达到 1400 美元;3 月还爆出一个严重 Bug,会静默还原开发者已提交的代码修改,造成实际工程损失。

03 马斯克的「蚕食策略」

从 SpaceX/xAI 的角度看,这笔期权协议只是一个更完整布局的最新一步。

过去几个月,马斯克对 Cursor 的渗透是系统性的:3 月挖走了 Cursor 两位核心产品工程负责人 Andrew Milich 和 Jason Ginsberg,两人直接向马斯克汇报;4 月签下 GPU 算力合作协议,顺带锁定收购选择权。他没有正面强攻,而是从人才、算力、资本三个维度同步推进。

xAI 内部数据显示,其 GPU 系统的模型算力利用率(MFU)仅约 11%,而行业标准区间在 35% 到 45% 之间。大量闲置算力亟需变现,而 Cursor 这样的明星客户,既能消化算力,又能带来战略价值。

有分析认为,这次合作标志着 xAI 从「单纯做模型」向「对外提供云算力服务」的战略转型,使其进入与亚马逊、微软、谷歌同台竞争云服务的轨道。

04 600 亿,终点还是起点?

支撑这个数字的,是 Cursor 真实的商业表现。公司预测到 2026 年底年化营收将超过 60 亿美元,意味着接下来十个月内还要再翻三倍。其自研模型 Composer 2 在编程基准测试上比上一代提升约 37%,且推理成本远低于同级别模型。

但 Cursor 自己也清楚,这条独立路走得越来越艰难。当 Anthropic 可以随时切断模型访问权、当 Claude Code 在 IDE 的腹地直接攻城略地、当 OpenAI 的 Codex 也在步步紧逼,一个「中立的 AI 编程 IDE」的生存空间正在被系统性地压缩。

600 亿美元的收购期权,从某种角度看更像是一份「体面的保险」。马斯克给了 Cursor 一个确定性的退出天花板,也让 Cursor 在不确定的独立赛道上多了一张底牌。

只是这张底牌,代价是把命运押在了另一个人手里。

AI 编程工具的 IDE 时代正在落幕。下一个时代属于谁,现在还没有答案——但马斯克已经提前买了一张入场券。
ME News 消息,4 月 22 日(UTC+8),据彭博社援引Jefferies LLC报告称,上周末一场针对小型加密项目、涉及近3亿美元的黑客攻击,以及随后引发的最大去中心化借贷平台100亿美元资金挤兑事件,可能削弱华尔街对区块链技术的兴趣。Jefferies数字资产研究团队分析师Andrew Moss表示,过去一年,银行、资产管理公司及支付机构一直在开发与此次被朝鲜黑客利用的技术系统类似的区块链产品。报告称,此类事件不太可能直接波及传统金融市场,但传统金融机构可能因此暂停相关进程,并在进一步推进区块链业务前重新评估风险。(来源:ME)
ME News 消息,4 月 22 日(UTC+8),据彭博社援引Jefferies LLC报告称,上周末一场针对小型加密项目、涉及近3亿美元的黑客攻击,以及随后引发的最大去中心化借贷平台100亿美元资金挤兑事件,可能削弱华尔街对区块链技术的兴趣。Jefferies数字资产研究团队分析师Andrew Moss表示,过去一年,银行、资产管理公司及支付机构一直在开发与此次被朝鲜黑客利用的技术系统类似的区块链产品。报告称,此类事件不太可能直接波及传统金融市场,但传统金融机构可能因此暂停相关进程,并在进一步推进区块链业务前重新评估风险。(来源:ME)
谷歌正将内部AI编码工具整合至AntigravityME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,彭博社援引知情人士称,谷歌担心在 AI 编码工具市场落后于 Anthropic 和 OpenAI,正着手把内部分散的编码产品整合到 Antigravity 平台。首席 AI 架构师 Koray Kavukcuoglu 将在未来几周与主工程团队合作推进整合。Antigravity 是谷歌去年以 24 亿美元收购 Windsurf 人才与技术后推出的 AI 编码平台,目前公司对外的编码产品仍分散在 Gemini Code Assist、Gemini CLI、AI Studio、Firebase Studio、Jules 等多条线,品牌不一、定位重叠。 整合之外,DeepMind 同步向 AI 编码投入资源,单独组建了一支团队,由研究工程师 Sebastian Borgeaud 带队,2024 年诺贝尔奖得主 John Jumper 也在参与该方向的研究。 多名现任和前员工透露,部分谷歌工程师更愿意用 Anthropic 的 Claude Code。出于安全考虑,谷歌禁止大多数员工使用 Claude Code 或 OpenAI Codex,须提供业务理由才能申请例外;但 DeepMind 内部负责 Gemini 模型、内部应用和开源模型的若干团队已在用 Claude Code。 本月原 Jules 负责人 Kathy Korevec 离职加入 OpenAI,她在 X 上写,谷歌的问题是「并行工具、重叠界面」,是「系统问题,不是人才问题」;推动谷歌内部 AI 编码使用的高管 Brian Saluzzo 也已离开。 (来源:ME)

谷歌正将内部AI编码工具整合至Antigravity

ME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,彭博社援引知情人士称,谷歌担心在 AI 编码工具市场落后于 Anthropic 和 OpenAI,正着手把内部分散的编码产品整合到 Antigravity 平台。首席 AI 架构师 Koray Kavukcuoglu 将在未来几周与主工程团队合作推进整合。Antigravity 是谷歌去年以 24 亿美元收购 Windsurf 人才与技术后推出的 AI 编码平台,目前公司对外的编码产品仍分散在 Gemini Code Assist、Gemini CLI、AI Studio、Firebase Studio、Jules 等多条线,品牌不一、定位重叠。 整合之外,DeepMind 同步向 AI 编码投入资源,单独组建了一支团队,由研究工程师 Sebastian Borgeaud 带队,2024 年诺贝尔奖得主 John Jumper 也在参与该方向的研究。 多名现任和前员工透露,部分谷歌工程师更愿意用 Anthropic 的 Claude Code。出于安全考虑,谷歌禁止大多数员工使用 Claude Code 或 OpenAI Codex,须提供业务理由才能申请例外;但 DeepMind 内部负责 Gemini 模型、内部应用和开源模型的若干团队已在用 Claude Code。 本月原 Jules 负责人 Kathy Korevec 离职加入 OpenAI,她在 X 上写,谷歌的问题是「并行工具、重叠界面」,是「系统问题,不是人才问题」;推动谷歌内部 AI 编码使用的高管 Brian Saluzzo 也已离开。 (来源:ME)
Article
生图终于可以做到米粒刻字:"细节狂魔"ChatGPT Images 2.0来了生图逻辑从"即时响应"升级为"先想后画" 文章作者、来源:0x9999in1,ME News TL;DR ChatGPT Images 2.0(底层模型gpt-image-2)在Arena文生图榜单以创纪录分数登顶,领先第二名谷歌Nano Banana 2/Pro达242分,且包揽全部7个细分赛道第一 首次引入"Thinking模式"(思考能力),支持联网推理后再生图,将生图逻辑从"即时响应"升级为"先想后画" 实现像素级细节控制:直播中演示在单颗米粒上刻写"GPT image 2"字样,突破物理极限般的精细度 中文/日文等非英文文本渲染精准度大幅提升,终结了AI生图"洋文漂亮、中文乱码"的历史尴尬 最高支持2K分辨率输出,覆盖UI设计、游戏开发、影视分镜、营销素材等专业场景 Figma、Canva、Adobe Firefly、fal等平台同日宣布接入,生态壁垒一日之内筑起 免费开放给所有ChatGPT与Codex用户,但"思考模式"仅限Plus/Pro/Business用户,API已同步开放 一、242分。这不是领先,这是碾压 竞技场(Arena)的榜单从来不讲情面。它把模型扔进匿名对决,让用户盲投,谁的图更顺眼、更听话、更像人画的,谁就能往上爬。没有公关稿,没有发布会光环,只有赤裸裸的审美投票。 4月22日,OpenAI把ChatGPT Images 2.0(底层代号gpt-image-2)丢进了这个角斗场。结果?屠榜。不是赢了一两个类别,是全部七个文生图赛道——写实、动漫、设计、概念艺术、像素风、摄影、插画——全部第一。总分甩开第二名谷歌Nano Banana 2/Pro整整242分。 242分是什么概念?在Arena的评分体系里,这相当于泰森一拳把对手打进了观众席。要知道,此前的生图赛道长期处于"群雄割据"状态:Midjourney靠美学品味圈地自萌,Stable Diffusion靠开源生态野蛮生长,谷歌的Imagen系列靠背靠搜索巨头稳扎稳打。大家互有胜负,分差往往在个位数到两位数之间徘徊。OpenAI这一脚,直接把棋盘踹翻了。 为什么能赢这么多?因为Images 2.0解决了一个行业顽疾:它真的在听你说话。 过去的文生图模型,本质上是个"关键词翻译器"。你把"一只穿西装的猫坐在咖啡馆里看报纸"丢给它,它大概能给你一只猫、一套西装、一张报纸,但猫的眼睛可能盯着天花板,报纸上的文字是外星文,咖啡杯悬浮在半空。模型理解了"有什么",但不懂"在哪里"、"什么关系"、"为什么要这样"。 Images 2.0的升级,核心就砸在这个痛点上。对象摆放与关系表达——这个词听起来很学术,翻译成大白话就是:它知道猫该坐在椅子上,而不是椅子上;知道报纸该被爪子捏着,而不是贴在脸上;知道背景的光源从左侧来,所以猫的右脸该有阴影。这种对空间逻辑和物理关系的把握,让生成的图像从"元素堆砌"变成了"场景叙事"。 更狠的是高密度文本渲染。以前让AI在图里写几个字,出来多半是鬼画符。英文尚且勉强能看,中文直接灾难现场。Images 2.0这次把多语言文本生成做成了基本功——中文、日文、韩文,甚至小语种,都能准确落位。这不是简单的字体叠加,而是让文字成为图像语义的一部分:招牌上的店名、书本上的标题、屏幕上的代码,字与景交融,而不是贴上去的膏药。 Arena的榜单证明了这一点:当一张图里的中文招牌不再像随机抓阄出来的字符,当UI设计稿里的按钮文字清晰可读,当漫画对话框里的台词精准传达情绪——这242分的差距,其实是"能用"和"好用"之间的鸿沟。 二、米粒上刻字:像素级控制意味着什么 OpenAI的发布会直播里,有一个画面让全场安静了一秒。一张米山图——字面意义上的,一座由大米粒堆成的山——其中一颗米粒上,刻着"GPT image 2"的字样。字体清晰,笔画完整,没有模糊,没有扭曲,没有AI常见的"文字溶解"现象。 一颗米粒。在2K分辨率的画布上,它可能只占据几十个像素。但Images 2.0硬是在这几十个像素里,完成了可辨识的文本渲染。 这已经不是"精细"能形容的了。这是像素级控制。 过去的生图模型,本质上是在概率的海洋里捞针。它们通过学习海量图像的统计规律,猜测"这里应该有个什么颜色的像素"。所以当画面细节密度超过一定阈值——比如小字体、复杂图标、密集UI元素——模型就开始"糊弄"。因为它没有真正的"视觉焦点"概念,只有"大概长这样"的模糊记忆。 Images 2.0的突破在于,它似乎掌握了一种分层注意力机制。它能像人眼一样,先扫视全局构图,再聚焦局部细节,并且在缩小到像素级别时,依然保持对语义的理解。米粒上的字不是随机生成的纹理,是被精确放置在特定空间坐标上的、具有明确语义的内容。 这种能力对专业创作者意味着什么?游戏开发者可以生成带有清晰道具图标和UI界面的概念图,不用再后期PS替换文字;电商设计师可以让AI直接产出带价格标签和促销文案的商品海报,不用再手动排版;漫画作者可以让对话框里的台词和拟声词精准对应画面情绪,不用再一张张修字。 更重要的是,2K分辨率的输出能力,让这些细节不再只是"放大后勉强能看",而是真正达到了商用标准。以前AI生图的最大尴尬就是:缩略图惊艳,放大后露馅。Images 2.0把"放大"这个动作,从"找茬游戏"变成了"欣赏细节"。 三、"思考模式":生图从反射弧进化到大脑皮层 如果说像素级控制是Images 2.0的"手",那Thinking模式就是它的"脑"。 这是OpenAI在生图领域投下的一枚认知炸弹。过去的文生图,是刺激-反应模式:输入提示词,模型立即吐图。快则三秒,慢则十秒,但本质上是"不过脑子"的条件反射。你给它"赛博朋克风格的中国古城",它就从训练数据里调取"赛博朋克"和"中国古城"的统计特征,搅拌一下端上来。 Images 2.0的Thinking模式,把这个流程彻底重构。它会在收到指令后,先进入一段联网推理过程:拆解你的需求,分析场景逻辑,规划构图层次,甚至检索相关视觉参考,然后再动笔。这不是简单的"多想了会儿",而是把生图从"直觉绘画"升级为"命题作文"。 举个例子。你让AI"设计一个面向Z世代的环保咖啡品牌海报,要体现可持续理念,但不能说教,要有幽默感,配色要符合2026年春夏流行趋势"。旧模型可能给你一张绿色的咖啡杯图,上面飘几片叶子,完事。Images 2.0的Thinking模式会怎么做?它可能会先推理"Z世代反感说教式环保,偏好自嘲和梗文化",然后联想到"用咖啡渣种植物的反差萌",再检索当下流行的"多巴胺配色"或"复古未来主义"趋势,最后生成一张"咖啡杯里长出小森林,杯身印着'这杯在拯救地球,下一杯看你了'的俏皮文案"的海报。 这种端到端任务处理能力,让Images 2.0不再只是一个"画图工具",而是一个"视觉策略师"。它能完成从文案生成到设计构图的完整流程,把创意工作流压缩到一个对话框里。 但OpenAI在这里埋了一个精妙的商业钩子:Thinking模式不向所有人开放。免费用户能用基础生图功能,但"带脑子的版本"仅限Plus、Pro和Business用户(Enterprise即将支持)。这相当于在生图赛道复制了ChatGPT本身的付费分层策略——基础功能免费拉新,认知升级收费变现。当用户尝过"会思考"的甜头,再回去用"不过脑子"的即时生图,就像从智能手机退回到功能机,落差感会自己把钱包掏出来。 四、中文不再乱码:一场迟到的语言平权 AI生图领域有一个公开的秘密:英语是母语,其他语言是方言。 这不是歧视,是训练数据的结构性偏见。互联网上高质量的图文对数据,英文占绝对主导。模型学"text rendering"时,本质上是在学英语字母的笔画规律。所以当你让AI在图里写"Happy Birthday",出来像模像样;写"生日快乐",出来可能是"生曰忄央乐"——偏旁部首随机重组,像汉字但又不是汉字。 Images 2.0把这块短板补上了,而且补得很彻底。中文、日文、韩文,甚至阿拉伯文、泰文,都能精准渲染。这不是简单的"支持更多字符集",而是模型真正理解了非拉丁文字的结构逻辑——汉字的间架结构、日文的假名搭配、韩文的音节组合,都被纳入了生成框架。 为什么这很重要?因为语言即权力。当AI生图工具只能稳定输出英文,它实际上是在强化一种文化霸权:全球创作者要么被迫用英语表达,要么接受"劣化版"的母语呈现。Images 2.0的多语言突破,是一次技术层面的语言平权。中国设计师可以用中文做海报,日本插画师可以让角色说出地道的台词,阿拉伯世界的营销团队可以生成符合本地阅读习惯的视觉素材。 从商业角度看,这也是OpenAI对亚洲市场的精准狙击。Midjourney和Stable Diffusion的中文支持始终半吊子,谷歌的Imagen虽然背靠多语言搜索数据,但在Arena的实测中,文本渲染精度依然不敌Images 2.0。OpenAI用"中文不乱码"这个看似微小的改进,撬动了一个数十亿用户的市场心智。 五、生态闪电战:一天之内,围墙筑成 好的产品发布,叫发布。好的产品加生态,叫闪电战。 4月22日当天,Figma、Canva、Adobe Firefly、fal——这些设计工具和AI平台——同步宣布接入Images 2.0。这不是巧合,是OpenAI蓄谋已久的生态合围。 想想看这意味着什么。设计师在Figma里做UI,可以直接调用Images 2.0生成带真实文案的 mockup;营销团队在Canva里做海报,可以让AI根据品牌调性一键出图;Adobe Firefly的用户,终于能用上"会思考"的生图引擎,而不是Adobe自研模型的"安全但平庸"输出;开发者通过fal的API,可以把Images 2.0塞进自己的应用里,按量付费。 这种平台级接入,在一天之内把Images 2.0从"ChatGPT的一个功能"变成了"行业基础设施"。更可怕的是,它制造了迁移成本:当设计师的工作流里嵌入了Images 2.0的API,当企业的营销素材库建立在它的输出标准上,切换成本就会指数级上升。OpenAI不是在卖模型,是在圈地。 对比竞争对手的处境,这种生态攻势更显凌厉。Midjourney是封闭花园,API姗姗来迟;Stable Diffusion是开源散沙,各改各版,没有统一入口;谷歌有技术但生态整合慢半拍,Imagen系列至今未形成设计工具矩阵。OpenAI用一天的发布会,完成了别人一年的生态谈判。 六、生图赛道的范式转移:从"画得像"到"想得对" Images 2.0的出现,标志着AI生图竞争进入了一个新维度。 第一阶段的竞争,比的是像不像。谁能生成更逼真的照片、更精美的插画,谁就能吸引早期用户。Midjourney在这个阶段一骑绝尘,靠美学品味建立了品牌认知。 第二阶段的竞争,比的是快不快。推理速度、出图成本、API稳定性,成为B端客户的核心考量。Stable Diffusion靠开源和本地化部署,在这个赛道切走了企业市场。 Images 2.0开启的是第三阶段:对不对。不是"这张图好看吗",而是"这张图解决问题了吗"。UI设计稿里的按钮间距是否符合规范?海报上的文案是否传达了品牌调性?分镜图的构图是否匹配导演意图?当AI开始"思考"后再画图,它输出的不再是"视觉素材",而是"视觉解决方案"。 这种范式转移,会把生图赛道的护城河从"模型能力"扩展到工作流整合。未来的竞争,不再是单张图的PK,而是"从需求到交付"的全链路效率。Images 2.0的端到端能力——文案生成、设计构图、多语言适配、高分辨率输出——正是在这个维度上 preemptively strike(先发制人) 七、隐忧与锋芒:OpenAI的下一步棋 当然,Images 2.0并非没有软肋。 算力成本是悬在头顶的剑。Thinking模式的联网推理+2K分辨率生成,意味着单次调用的计算量远超传统生图模型。OpenAI能补贴多久?当用户量突破临界点,是否会像GPT-4一样频繁降价又限流?这是所有订阅者都在观望的问题。 版权雷区依然迷雾重重。Images 2.0的训练数据里有多少受版权保护的图像?生成的商业素材是否安全?OpenAI的"版权盾"政策能覆盖到什么程度?这些问题在Arena的分数里找不到答案,但在法庭上可以。 审美同质化的风险也在累积。当全球设计师都用同一个"思考大脑"出图,视觉风格是否会趋向统一?Midjourney的"塑料感美学"曾被诟病千篇一律,Images 2.0的"精准听话"是否会导致另一种单调——所有人都得到"正确但无聊"的图? 但这些质疑,挡不住Images 2.0的锋芒。因为它解决了一个最根本的问题:让AI从"玩具"变成"工具"。 当一粒米上可以刻字,当一张海报上的中文不再像乱码,当设计师说"要幽默不要说教"AI真的能听懂——这些不是参数的提升,是可用性的质变。Images 2.0没有发明新的图像生成技术,它把现有技术的工程精度和产品化程度,推到了竞争对手短期内难以企及的高度。 八、结语:像素级时代,没有中间地带 OpenAI这次的操作,很像一个老练的拳手。它没有花哨的连招,只是每一拳都打在对手最疼的地方:你文本渲染不行?我做到米粒刻字。你不懂空间关系?我七个赛道屠榜。你没有生态?我一天之内让Figma、Canva、Adobe排队接入。你模型不会思考?我直接给生图装上大脑皮层。 生图赛道的竞争,从此没有中间地带。要么像Images 2.0一样,做到像素级的精准和认知级的理解;要么就沦为"差不多能用"的背景板。242分的差距,不是数字,是一道鸿沟——鸿沟这边是"AI辅助创作",鸿沟那边是"AI替代创作"。 而OpenAI的野心,显然不止于替代几张海报。当Images 2.0的API接入千万应用,当Thinking模式成为企业工作流的默认选项,当2K分辨率的输出铺满电商页面和游戏界面——它争夺的,是视觉内容的定义权。 米粒上的字,终究会写进更大的图景里。 参考资料 OpenAI. (2025, April 22). *Introducing ChatGPT Images 2.0 and gpt-image-2*. OpenAI Blog. https://openai.com/blog/introducing-chatgpt-images-2 LMSYS Org. (2025, April). *Image Arena Leaderboard*. Chatbot Arena. https://lmarena.ai/?leaderboard TechCrunch. (2025, April 22). *OpenAI's new image model crushes competition in benchmark tests, leads by 242 points*. TechCrunch. https://techcrunch.com/2025/04/22/openai-image-model-arena-leaderboard The Verge. (2025, April 22). *ChatGPT Images 2.0 brings 'thinking' to AI image generation with pixel-level text accuracy*. The Verge. https://www.theverge.com/2025/4/22/chatgpt-images-2-thinking-mode Figma, Canva, Adobe Firefly, fal. (2025, April 22). *Platform integration announcements for gpt-image-2*. [Multiple press releases via official channels]

生图终于可以做到米粒刻字:"细节狂魔"ChatGPT Images 2.0来了

生图逻辑从"即时响应"升级为"先想后画"

文章作者、来源:0x9999in1,ME News

TL;DR

ChatGPT Images 2.0(底层模型gpt-image-2)在Arena文生图榜单以创纪录分数登顶,领先第二名谷歌Nano Banana 2/Pro达242分,且包揽全部7个细分赛道第一

首次引入"Thinking模式"(思考能力),支持联网推理后再生图,将生图逻辑从"即时响应"升级为"先想后画"

实现像素级细节控制:直播中演示在单颗米粒上刻写"GPT image 2"字样,突破物理极限般的精细度

中文/日文等非英文文本渲染精准度大幅提升,终结了AI生图"洋文漂亮、中文乱码"的历史尴尬

最高支持2K分辨率输出,覆盖UI设计、游戏开发、影视分镜、营销素材等专业场景

Figma、Canva、Adobe Firefly、fal等平台同日宣布接入,生态壁垒一日之内筑起

免费开放给所有ChatGPT与Codex用户,但"思考模式"仅限Plus/Pro/Business用户,API已同步开放

一、242分。这不是领先,这是碾压

竞技场(Arena)的榜单从来不讲情面。它把模型扔进匿名对决,让用户盲投,谁的图更顺眼、更听话、更像人画的,谁就能往上爬。没有公关稿,没有发布会光环,只有赤裸裸的审美投票。

4月22日,OpenAI把ChatGPT Images 2.0(底层代号gpt-image-2)丢进了这个角斗场。结果?屠榜。不是赢了一两个类别,是全部七个文生图赛道——写实、动漫、设计、概念艺术、像素风、摄影、插画——全部第一。总分甩开第二名谷歌Nano Banana 2/Pro整整242分。

242分是什么概念?在Arena的评分体系里,这相当于泰森一拳把对手打进了观众席。要知道,此前的生图赛道长期处于"群雄割据"状态:Midjourney靠美学品味圈地自萌,Stable Diffusion靠开源生态野蛮生长,谷歌的Imagen系列靠背靠搜索巨头稳扎稳打。大家互有胜负,分差往往在个位数到两位数之间徘徊。OpenAI这一脚,直接把棋盘踹翻了。

为什么能赢这么多?因为Images 2.0解决了一个行业顽疾:它真的在听你说话。

过去的文生图模型,本质上是个"关键词翻译器"。你把"一只穿西装的猫坐在咖啡馆里看报纸"丢给它,它大概能给你一只猫、一套西装、一张报纸,但猫的眼睛可能盯着天花板,报纸上的文字是外星文,咖啡杯悬浮在半空。模型理解了"有什么",但不懂"在哪里"、"什么关系"、"为什么要这样"。

Images 2.0的升级,核心就砸在这个痛点上。对象摆放与关系表达——这个词听起来很学术,翻译成大白话就是:它知道猫该坐在椅子上,而不是椅子上;知道报纸该被爪子捏着,而不是贴在脸上;知道背景的光源从左侧来,所以猫的右脸该有阴影。这种对空间逻辑和物理关系的把握,让生成的图像从"元素堆砌"变成了"场景叙事"。

更狠的是高密度文本渲染。以前让AI在图里写几个字,出来多半是鬼画符。英文尚且勉强能看,中文直接灾难现场。Images 2.0这次把多语言文本生成做成了基本功——中文、日文、韩文,甚至小语种,都能准确落位。这不是简单的字体叠加,而是让文字成为图像语义的一部分:招牌上的店名、书本上的标题、屏幕上的代码,字与景交融,而不是贴上去的膏药。

Arena的榜单证明了这一点:当一张图里的中文招牌不再像随机抓阄出来的字符,当UI设计稿里的按钮文字清晰可读,当漫画对话框里的台词精准传达情绪——这242分的差距,其实是"能用"和"好用"之间的鸿沟。

二、米粒上刻字:像素级控制意味着什么

OpenAI的发布会直播里,有一个画面让全场安静了一秒。一张米山图——字面意义上的,一座由大米粒堆成的山——其中一颗米粒上,刻着"GPT image 2"的字样。字体清晰,笔画完整,没有模糊,没有扭曲,没有AI常见的"文字溶解"现象。

一颗米粒。在2K分辨率的画布上,它可能只占据几十个像素。但Images 2.0硬是在这几十个像素里,完成了可辨识的文本渲染。

这已经不是"精细"能形容的了。这是像素级控制。

过去的生图模型,本质上是在概率的海洋里捞针。它们通过学习海量图像的统计规律,猜测"这里应该有个什么颜色的像素"。所以当画面细节密度超过一定阈值——比如小字体、复杂图标、密集UI元素——模型就开始"糊弄"。因为它没有真正的"视觉焦点"概念,只有"大概长这样"的模糊记忆。

Images 2.0的突破在于,它似乎掌握了一种分层注意力机制。它能像人眼一样,先扫视全局构图,再聚焦局部细节,并且在缩小到像素级别时,依然保持对语义的理解。米粒上的字不是随机生成的纹理,是被精确放置在特定空间坐标上的、具有明确语义的内容。

这种能力对专业创作者意味着什么?游戏开发者可以生成带有清晰道具图标和UI界面的概念图,不用再后期PS替换文字;电商设计师可以让AI直接产出带价格标签和促销文案的商品海报,不用再手动排版;漫画作者可以让对话框里的台词和拟声词精准对应画面情绪,不用再一张张修字。

更重要的是,2K分辨率的输出能力,让这些细节不再只是"放大后勉强能看",而是真正达到了商用标准。以前AI生图的最大尴尬就是:缩略图惊艳,放大后露馅。Images 2.0把"放大"这个动作,从"找茬游戏"变成了"欣赏细节"。

三、"思考模式":生图从反射弧进化到大脑皮层

如果说像素级控制是Images 2.0的"手",那Thinking模式就是它的"脑"。

这是OpenAI在生图领域投下的一枚认知炸弹。过去的文生图,是刺激-反应模式:输入提示词,模型立即吐图。快则三秒,慢则十秒,但本质上是"不过脑子"的条件反射。你给它"赛博朋克风格的中国古城",它就从训练数据里调取"赛博朋克"和"中国古城"的统计特征,搅拌一下端上来。

Images 2.0的Thinking模式,把这个流程彻底重构。它会在收到指令后,先进入一段联网推理过程:拆解你的需求,分析场景逻辑,规划构图层次,甚至检索相关视觉参考,然后再动笔。这不是简单的"多想了会儿",而是把生图从"直觉绘画"升级为"命题作文"。

举个例子。你让AI"设计一个面向Z世代的环保咖啡品牌海报,要体现可持续理念,但不能说教,要有幽默感,配色要符合2026年春夏流行趋势"。旧模型可能给你一张绿色的咖啡杯图,上面飘几片叶子,完事。Images 2.0的Thinking模式会怎么做?它可能会先推理"Z世代反感说教式环保,偏好自嘲和梗文化",然后联想到"用咖啡渣种植物的反差萌",再检索当下流行的"多巴胺配色"或"复古未来主义"趋势,最后生成一张"咖啡杯里长出小森林,杯身印着'这杯在拯救地球,下一杯看你了'的俏皮文案"的海报。

这种端到端任务处理能力,让Images 2.0不再只是一个"画图工具",而是一个"视觉策略师"。它能完成从文案生成到设计构图的完整流程,把创意工作流压缩到一个对话框里。

但OpenAI在这里埋了一个精妙的商业钩子:Thinking模式不向所有人开放。免费用户能用基础生图功能,但"带脑子的版本"仅限Plus、Pro和Business用户(Enterprise即将支持)。这相当于在生图赛道复制了ChatGPT本身的付费分层策略——基础功能免费拉新,认知升级收费变现。当用户尝过"会思考"的甜头,再回去用"不过脑子"的即时生图,就像从智能手机退回到功能机,落差感会自己把钱包掏出来。

四、中文不再乱码:一场迟到的语言平权

AI生图领域有一个公开的秘密:英语是母语,其他语言是方言。

这不是歧视,是训练数据的结构性偏见。互联网上高质量的图文对数据,英文占绝对主导。模型学"text rendering"时,本质上是在学英语字母的笔画规律。所以当你让AI在图里写"Happy Birthday",出来像模像样;写"生日快乐",出来可能是"生曰忄央乐"——偏旁部首随机重组,像汉字但又不是汉字。

Images 2.0把这块短板补上了,而且补得很彻底。中文、日文、韩文,甚至阿拉伯文、泰文,都能精准渲染。这不是简单的"支持更多字符集",而是模型真正理解了非拉丁文字的结构逻辑——汉字的间架结构、日文的假名搭配、韩文的音节组合,都被纳入了生成框架。

为什么这很重要?因为语言即权力。当AI生图工具只能稳定输出英文,它实际上是在强化一种文化霸权:全球创作者要么被迫用英语表达,要么接受"劣化版"的母语呈现。Images 2.0的多语言突破,是一次技术层面的语言平权。中国设计师可以用中文做海报,日本插画师可以让角色说出地道的台词,阿拉伯世界的营销团队可以生成符合本地阅读习惯的视觉素材。

从商业角度看,这也是OpenAI对亚洲市场的精准狙击。Midjourney和Stable Diffusion的中文支持始终半吊子,谷歌的Imagen虽然背靠多语言搜索数据,但在Arena的实测中,文本渲染精度依然不敌Images 2.0。OpenAI用"中文不乱码"这个看似微小的改进,撬动了一个数十亿用户的市场心智。

五、生态闪电战:一天之内,围墙筑成

好的产品发布,叫发布。好的产品加生态,叫闪电战。

4月22日当天,Figma、Canva、Adobe Firefly、fal——这些设计工具和AI平台——同步宣布接入Images 2.0。这不是巧合,是OpenAI蓄谋已久的生态合围。

想想看这意味着什么。设计师在Figma里做UI,可以直接调用Images 2.0生成带真实文案的 mockup;营销团队在Canva里做海报,可以让AI根据品牌调性一键出图;Adobe Firefly的用户,终于能用上"会思考"的生图引擎,而不是Adobe自研模型的"安全但平庸"输出;开发者通过fal的API,可以把Images 2.0塞进自己的应用里,按量付费。

这种平台级接入,在一天之内把Images 2.0从"ChatGPT的一个功能"变成了"行业基础设施"。更可怕的是,它制造了迁移成本:当设计师的工作流里嵌入了Images 2.0的API,当企业的营销素材库建立在它的输出标准上,切换成本就会指数级上升。OpenAI不是在卖模型,是在圈地。

对比竞争对手的处境,这种生态攻势更显凌厉。Midjourney是封闭花园,API姗姗来迟;Stable Diffusion是开源散沙,各改各版,没有统一入口;谷歌有技术但生态整合慢半拍,Imagen系列至今未形成设计工具矩阵。OpenAI用一天的发布会,完成了别人一年的生态谈判。

六、生图赛道的范式转移:从"画得像"到"想得对"

Images 2.0的出现,标志着AI生图竞争进入了一个新维度。

第一阶段的竞争,比的是像不像。谁能生成更逼真的照片、更精美的插画,谁就能吸引早期用户。Midjourney在这个阶段一骑绝尘,靠美学品味建立了品牌认知。

第二阶段的竞争,比的是快不快。推理速度、出图成本、API稳定性,成为B端客户的核心考量。Stable Diffusion靠开源和本地化部署,在这个赛道切走了企业市场。

Images 2.0开启的是第三阶段:对不对。不是"这张图好看吗",而是"这张图解决问题了吗"。UI设计稿里的按钮间距是否符合规范?海报上的文案是否传达了品牌调性?分镜图的构图是否匹配导演意图?当AI开始"思考"后再画图,它输出的不再是"视觉素材",而是"视觉解决方案"。

这种范式转移,会把生图赛道的护城河从"模型能力"扩展到工作流整合。未来的竞争,不再是单张图的PK,而是"从需求到交付"的全链路效率。Images 2.0的端到端能力——文案生成、设计构图、多语言适配、高分辨率输出——正是在这个维度上 preemptively strike(先发制人)

七、隐忧与锋芒:OpenAI的下一步棋

当然,Images 2.0并非没有软肋。

算力成本是悬在头顶的剑。Thinking模式的联网推理+2K分辨率生成,意味着单次调用的计算量远超传统生图模型。OpenAI能补贴多久?当用户量突破临界点,是否会像GPT-4一样频繁降价又限流?这是所有订阅者都在观望的问题。

版权雷区依然迷雾重重。Images 2.0的训练数据里有多少受版权保护的图像?生成的商业素材是否安全?OpenAI的"版权盾"政策能覆盖到什么程度?这些问题在Arena的分数里找不到答案,但在法庭上可以。

审美同质化的风险也在累积。当全球设计师都用同一个"思考大脑"出图,视觉风格是否会趋向统一?Midjourney的"塑料感美学"曾被诟病千篇一律,Images 2.0的"精准听话"是否会导致另一种单调——所有人都得到"正确但无聊"的图?

但这些质疑,挡不住Images 2.0的锋芒。因为它解决了一个最根本的问题:让AI从"玩具"变成"工具"。

当一粒米上可以刻字,当一张海报上的中文不再像乱码,当设计师说"要幽默不要说教"AI真的能听懂——这些不是参数的提升,是可用性的质变。Images 2.0没有发明新的图像生成技术,它把现有技术的工程精度和产品化程度,推到了竞争对手短期内难以企及的高度。

八、结语:像素级时代,没有中间地带

OpenAI这次的操作,很像一个老练的拳手。它没有花哨的连招,只是每一拳都打在对手最疼的地方:你文本渲染不行?我做到米粒刻字。你不懂空间关系?我七个赛道屠榜。你没有生态?我一天之内让Figma、Canva、Adobe排队接入。你模型不会思考?我直接给生图装上大脑皮层。

生图赛道的竞争,从此没有中间地带。要么像Images 2.0一样,做到像素级的精准和认知级的理解;要么就沦为"差不多能用"的背景板。242分的差距,不是数字,是一道鸿沟——鸿沟这边是"AI辅助创作",鸿沟那边是"AI替代创作"。

而OpenAI的野心,显然不止于替代几张海报。当Images 2.0的API接入千万应用,当Thinking模式成为企业工作流的默认选项,当2K分辨率的输出铺满电商页面和游戏界面——它争夺的,是视觉内容的定义权。

米粒上的字,终究会写进更大的图景里。

参考资料

OpenAI. (2025, April 22). *Introducing ChatGPT Images 2.0 and gpt-image-2*. OpenAI Blog. https://openai.com/blog/introducing-chatgpt-images-2

LMSYS Org. (2025, April). *Image Arena Leaderboard*. Chatbot Arena. https://lmarena.ai/?leaderboard

TechCrunch. (2025, April 22). *OpenAI's new image model crushes competition in benchmark tests, leads by 242 points*. TechCrunch. https://techcrunch.com/2025/04/22/openai-image-model-arena-leaderboard

The Verge. (2025, April 22). *ChatGPT Images 2.0 brings 'thinking' to AI image generation with pixel-level text accuracy*. The Verge. https://www.theverge.com/2025/4/22/chatgpt-images-2-thinking-mode

Figma, Canva, Adobe Firefly, fal. (2025, April 22). *Platform integration announcements for gpt-image-2*. [Multiple press releases via official channels]
Roo Code安装量破300万后宣布关停,团队全力转向云端代理RoomoteME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,Roo Code 联合创始人兼 CEO Matt Rubens 宣布关停这款 VS Code 编码代理插件,团队全部精力转向新产品 Roomote。Roo Code 于 2024 年底从 Cline 分叉而来,加入允许代理跳过所有权限确认的一键自动批准模式,累计装机突破 300 万。团队将在 5 月 15 日发布最后一个插件版本,归档 GitHub 仓库并退还未使用余额;仍需插件的用户被引导回 Cline。 Rubens 写道,内部从 2025 年秋开始把 Roo Code 放进云容器里并发跑,打开全部自动批准,让代理自己修 bug、跑应用、验证结果再交给人审。他把这种模式归结为「输入 prompt,拿到高质量 PR」,认为 IDE 本身由此变得次要,Roo Code 原本服务的那种工作方式正在消失。 新产品 Roomote 以 Slack 为主入口,同时接入 Linear、GitHub、Sentry、Notion 等工具,按任务挑选不同厂商的前沿模型,不绑定单一供应商。每次改动它会在隔离容器里跑完整应用自检,UI 改动附截图后再开 PR。Rubens 希望非工程师(PM、支持、运营、市场、创始人)也能靠它拿到可合并的 PR。Roomote 现阶段以 waitlist 模式开放注册,入口在 roomote.dev。 (来源:ME)

Roo Code安装量破300万后宣布关停,团队全力转向云端代理Roomote

ME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,Roo Code 联合创始人兼 CEO Matt Rubens 宣布关停这款 VS Code 编码代理插件,团队全部精力转向新产品 Roomote。Roo Code 于 2024 年底从 Cline 分叉而来,加入允许代理跳过所有权限确认的一键自动批准模式,累计装机突破 300 万。团队将在 5 月 15 日发布最后一个插件版本,归档 GitHub 仓库并退还未使用余额;仍需插件的用户被引导回 Cline。 Rubens 写道,内部从 2025 年秋开始把 Roo Code 放进云容器里并发跑,打开全部自动批准,让代理自己修 bug、跑应用、验证结果再交给人审。他把这种模式归结为「输入 prompt,拿到高质量 PR」,认为 IDE 本身由此变得次要,Roo Code 原本服务的那种工作方式正在消失。 新产品 Roomote 以 Slack 为主入口,同时接入 Linear、GitHub、Sentry、Notion 等工具,按任务挑选不同厂商的前沿模型,不绑定单一供应商。每次改动它会在隔离容器里跑完整应用自检,UI 改动附截图后再开 PR。Rubens 希望非工程师(PM、支持、运营、市场、创始人)也能靠它拿到可合并的 PR。Roomote 现阶段以 waitlist 模式开放注册,入口在 roomote.dev。 (来源:ME)
OpenAI发布ChatGPT Images2.0,支持2K与双模式ME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,OpenAI 发布图像生成新模型 ChatGPT Images 2.0,作为上一代 ChatGPT 原生图像模型的接替版,在网页端和 API 同步上线。新模型分 Instant 和 Thinking 两档。Instant 主打快速出图,上线前曾以 duct tape 代号在 LMArena 内测;Thinking 会先推理再生成,用于跨帧保持角色一致和多场景叙事,适合漫画分镜、多格连续设计。 技术规格上,Images 2.0 最高输出 2K 分辨率,长宽比从 3:1 到 1:3 自由切换,单次最多生成 8 张图。知识截止推进到 2025 年 12 月,生成前可联网检索最新信息并带进图像。 交互方式从一次性生成改为对话式编辑,用户可在同一会话里放大、改构图、替换元素,模型在编辑之间保留上下文。现场演示里,模型基于一张上传图给出 8 套夏季穿搭;另一个案例是先抓取社交媒体对前代模型的评价,再把结论可视化输出并附上 QR 码回链 ChatGPT。 文字渲染和非拉丁文字是另一条主线。官方强调日文、韩文、中文、印地文、孟加拉文的表现明显改善,这是扩散模型长期的弱项。 (来源:ME)

OpenAI发布ChatGPT Images2.0,支持2K与双模式

ME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,OpenAI 发布图像生成新模型 ChatGPT Images 2.0,作为上一代 ChatGPT 原生图像模型的接替版,在网页端和 API 同步上线。新模型分 Instant 和 Thinking 两档。Instant 主打快速出图,上线前曾以 duct tape 代号在 LMArena 内测;Thinking 会先推理再生成,用于跨帧保持角色一致和多场景叙事,适合漫画分镜、多格连续设计。 技术规格上,Images 2.0 最高输出 2K 分辨率,长宽比从 3:1 到 1:3 自由切换,单次最多生成 8 张图。知识截止推进到 2025 年 12 月,生成前可联网检索最新信息并带进图像。 交互方式从一次性生成改为对话式编辑,用户可在同一会话里放大、改构图、替换元素,模型在编辑之间保留上下文。现场演示里,模型基于一张上传图给出 8 套夏季穿搭;另一个案例是先抓取社交媒体对前代模型的评价,再把结论可视化输出并附上 QR 码回链 ChatGPT。 文字渲染和非拉丁文字是另一条主线。官方强调日文、韩文、中文、印地文、孟加拉文的表现明显改善,这是扩散模型长期的弱项。 (来源:ME)
Claude Mythos模型在Firefox中识别出271个漏洞ME News 消息,4 月 22 日(UTC+8),火狐浏览器开发商 Mozilla 周二发布博文称,Anthropic 的 Claude Mythos AI 模型的早期版本在内部测试中帮助识别出 Firefox 浏览器中的 271 个漏洞,这些漏洞已于本周修复。 该 AI 模型近期因其在网络安全领域的表现备受关注。Mozilla 写道:「随着这些能力进入更多防御方手中,许多其他团队现在正经历着我们最初看到测试结果时的那种眩晕感。对于一个加固目标,仅仅一个此类漏洞在 2025 年就足以触发红色警报,而如此多的漏洞同时出现,让人不禁怀疑是否还有可能跟上步伐。」Mozilla 此前曾测试过 Anthropic 另一款模型,该模型在之前一个 Firefox 版本中识别出 22 个安全敏感漏洞。Mozilla 还表示,所发现的漏洞没有超出「精英人类研究员」能力所及的范畴。 Mythos 于今年 3 月推出,是 Anthropic 用于推理、编码和网络安全任务的最先进模型,属于超越其早期 Opus 系列的新模型层级。模型发布前的测试显示,它能在主要操作系统和网络浏览器中识别出数千个此前未知的漏洞。Anthropic 通过名为 Project Glasswing 的受限项目限制对该系统的访问,仅向亚马逊、苹果、微软等特定科技公司开放。本周一有报道称,尽管特朗普政府曾要求联邦机构停止使用 Anthropic 技术,美国国家安全局仍在机密网络上运行 Claude Mythos Preview。 (来源:ME)

Claude Mythos模型在Firefox中识别出271个漏洞

ME News 消息,4 月 22 日(UTC+8),火狐浏览器开发商 Mozilla 周二发布博文称,Anthropic 的 Claude Mythos AI 模型的早期版本在内部测试中帮助识别出 Firefox 浏览器中的 271 个漏洞,这些漏洞已于本周修复。 该 AI 模型近期因其在网络安全领域的表现备受关注。Mozilla 写道:「随着这些能力进入更多防御方手中,许多其他团队现在正经历着我们最初看到测试结果时的那种眩晕感。对于一个加固目标,仅仅一个此类漏洞在 2025 年就足以触发红色警报,而如此多的漏洞同时出现,让人不禁怀疑是否还有可能跟上步伐。」Mozilla 此前曾测试过 Anthropic 另一款模型,该模型在之前一个 Firefox 版本中识别出 22 个安全敏感漏洞。Mozilla 还表示,所发现的漏洞没有超出「精英人类研究员」能力所及的范畴。 Mythos 于今年 3 月推出,是 Anthropic 用于推理、编码和网络安全任务的最先进模型,属于超越其早期 Opus 系列的新模型层级。模型发布前的测试显示,它能在主要操作系统和网络浏览器中识别出数千个此前未知的漏洞。Anthropic 通过名为 Project Glasswing 的受限项目限制对该系统的访问,仅向亚马逊、苹果、微软等特定科技公司开放。本周一有报道称,尽管特朗普政府曾要求联邦机构停止使用 Anthropic 技术,美国国家安全局仍在机密网络上运行 Claude Mythos Preview。 (来源:ME)
ME News 消息,4 月 22 日(UTC+8),灰度分析师 Zach Pandl 披露数据显示,比特币自 2 月初约 6.3 万美元低点反弹超 20%,当前价格约 7.6 万美元,已略高于近 1 至 3 个月买入者约 7.4 万美元的平均成本(实现价格),意味着多数短期投资者已回到盈亏平衡区间。 分析认为,若价格进一步上行,更多近期买家将进入盈利状态,这通常被视为牛市初期的重要信号之一。不过,比特币仍低于去年 10 月高点。市场观点指出,本轮回升或已在 6.5 万至 7 万美元区间形成较为稳固的阶段性底部。(来源:ME)
ME News 消息,4 月 22 日(UTC+8),灰度分析师 Zach Pandl 披露数据显示,比特币自 2 月初约 6.3 万美元低点反弹超 20%,当前价格约 7.6 万美元,已略高于近 1 至 3 个月买入者约 7.4 万美元的平均成本(实现价格),意味着多数短期投资者已回到盈亏平衡区间。 分析认为,若价格进一步上行,更多近期买家将进入盈利状态,这通常被视为牛市初期的重要信号之一。不过,比特币仍低于去年 10 月高点。市场观点指出,本轮回升或已在 6.5 万至 7 万美元区间形成较为稳固的阶段性底部。(来源:ME)
OP Labs为以太坊生态DeFi应用推出隐私工具Privacy BoostME News 消息,4 月 22 日(UTC+8),OP Labs宣布推出隐私产品Privacy Boost,首先部署于OP主网(原Optimism),旨在吸引更多企业进入以太坊生态。该产品作为软件开发工具包和API接口,支持私密转账和与DeFi应用的谨慎交互,同时满足监管需求。Privacy Boost通过零知识证明支持自托管,并利用可信执行环境实现快速私密交易,可根据企业KYC规则和审计要求进行定制。 OP Labs联合创始人表示,合规问题一直阻碍传统金融机构上链,隐私不是可选功能,而是主流采用的前提。Privacy Boost预计将在未来几周内扩展至更多区块链。(来源:ME)

OP Labs为以太坊生态DeFi应用推出隐私工具Privacy Boost

ME News 消息,4 月 22 日(UTC+8),OP Labs宣布推出隐私产品Privacy Boost,首先部署于OP主网(原Optimism),旨在吸引更多企业进入以太坊生态。该产品作为软件开发工具包和API接口,支持私密转账和与DeFi应用的谨慎交互,同时满足监管需求。Privacy Boost通过零知识证明支持自托管,并利用可信执行环境实现快速私密交易,可根据企业KYC规则和审计要求进行定制。 OP Labs联合创始人表示,合规问题一直阻碍传统金融机构上链,隐私不是可选功能,而是主流采用的前提。Privacy Boost预计将在未来几周内扩展至更多区块链。(来源:ME)
ME News 消息,4 月 22 日(UTC+8),据 CoinMarketCap 行情数据显示,BTC突破77000 美元,现报价 77112 美元, 24H涨幅达 1.7%。(来源:ME)
ME News 消息,4 月 22 日(UTC+8),据 CoinMarketCap 行情数据显示,BTC突破77000 美元,现报价 77112 美元, 24H涨幅达 1.7%。(来源:ME)
ME News 消息,4 月 22 日(UTC+8),HIVE Digital(NASDAQ: HIVE)的全资子公司HIVE 26 Ltd. 已成功完成1.15亿美元的零息可交换高级债券私募发行,包括1500万美元的超额配售。债券将在2031年到期,初始可交换价格为每股2.57美元,比最新交易价格溢价17.5%。同时,公司也完成了现金结算上限认购交易,上限价格为每股4.92美元,溢价125%。此外,HIVE Digital计划在2026年前后,将其股票从TSX创业交易所转至多伦多证券交易所,具体时间将视其满足的上市要求而定。(来源:ME)
ME News 消息,4 月 22 日(UTC+8),HIVE Digital(NASDAQ: HIVE)的全资子公司HIVE 26 Ltd. 已成功完成1.15亿美元的零息可交换高级债券私募发行,包括1500万美元的超额配售。债券将在2031年到期,初始可交换价格为每股2.57美元,比最新交易价格溢价17.5%。同时,公司也完成了现金结算上限认购交易,上限价格为每股4.92美元,溢价125%。此外,HIVE Digital计划在2026年前后,将其股票从TSX创业交易所转至多伦多证券交易所,具体时间将视其满足的上市要求而定。(来源:ME)
华赢集团AXG与渣打银行SC Ventures共建AI支付ME News 消息,4 月 22 日(UTC+8),华赢集团AXG与渣打银行旗下投资公司SC Ventures正式签署合作协议,双方将携手孵化人工智能支付项目AGENPAY,共同探索智能支付领域的创新突破。 双方将围绕AGENPAY项目协作,研发核心API检索及支付路由系统、完成生态概念验证整合;依托香港金融科技优势,结合华赢集团独有的AI与区块链技术及渣打银行全球金融资源,打造AI智能支付体系,助力金融与数字经济融合。AI支付通过重构支付流程,提升效率与风控水平,降低交易成本,推动金融服务升级,实现“人找钱”到“钱找人”的转变,打造智能体驱动的智付底座,构建AI时代新一代金融基础设施。(来源:ME)

华赢集团AXG与渣打银行SC Ventures共建AI支付

ME News 消息,4 月 22 日(UTC+8),华赢集团AXG与渣打银行旗下投资公司SC Ventures正式签署合作协议,双方将携手孵化人工智能支付项目AGENPAY,共同探索智能支付领域的创新突破。

双方将围绕AGENPAY项目协作,研发核心API检索及支付路由系统、完成生态概念验证整合;依托香港金融科技优势,结合华赢集团独有的AI与区块链技术及渣打银行全球金融资源,打造AI智能支付体系,助力金融与数字经济融合。AI支付通过重构支付流程,提升效率与风控水平,降低交易成本,推动金融服务升级,实现“人找钱”到“钱找人”的转变,打造智能体驱动的智付底座,构建AI时代新一代金融基础设施。(来源:ME)
奥特曼亲自上阵,Images 2.0登顶王座!大米刻字,生图跨入GPT-5时代今夜,ChatGPT Images 2.0震撼上线,成为首个「会思考」的图像AI。奥特曼直呼这是从GPT-3到GPT-5的飞跃。它不仅能精准听懂中文指令、渲染复杂UI,甚至能在米粒上刻字。 文章作者、来源:新智元 那个熟悉的OpenAI又回来了! 凌晨,奥特曼亲自带队,开启20分钟线上直播,打破了数日的沉寂。 OpenAI终于祭出了传闻中的ChatGPT Images 2.0,正式开启图像生成的全新纪元。 Images 2.0是一次质的飞跃,它在精准听懂长指令、准确摆放并理清物体间关系、渲染密集文本方面有了巨大突破。 最重要的是,它是首个具备「思考能力」的图像模型,可以联网搜索实时信息、二次自检。 它还能一次性直出八张风格连贯的图,最高支持2K超清分辨率。 这么说吧,Images 2.0的出世,重新定义了视觉生成的统治力—— 像素级精度:小字号文本、图标、UI元素等复杂细节一键生成,支持3:1到1:3全尺寸输出; 多语言质变:中日韩等非拉丁文字精准渲染,不仅字拼得对,语句也通顺连贯; 风格成熟:照片级逼真感,电影剧照、像素艺术、漫画等视觉语言都拿捏得住; 会思考:首个具备推理能力的图像模型,能联网搜索、自检输出,知识更新至2025年12月。 在Arena最新榜单中,Images 2.0一骑绝尘,登顶全球AI生图王座。实力暴击谷歌Nano Banana 2/Pro版本,领先242分。 它在全部7个文生图类别中,全部位列第一。 最狠的是,它可以做到像素级生成。 直播中生成的一张米山图,其中的一颗大米粒,竟刻上了「GPT image 2」的字体。 奥特曼还秀了一番,和4o图像负责人Gabriel Goh一起更多GPU的漫画图。 网友们纷纷上手,被Images 2.0的实力再次惊艳到了。 甚至,有人表示,「OpenAI终于再次引领图像生成领域」! 中文直接封神 OpenAI自己玩梗「稳稳地接住你」 过去的图像模型,英语和拉丁字母语言表现尚可,一碰到中日韩文字就开始「鬼画符」。 这次,官博里放出的中文Demo,直接炸了。 OpenAI研究科学家陈博远亲自出镜(很可能也是他自己写的prompt),生成了一整页全中文彩色漫画,讲的是他在OpenAI做ChatGPT Image 2中文文本渲染优化的故事。 这张图同时证明了三件事,中文文本渲染能力质变、极小字号的精度控制、以及复杂多面板漫画的一次性生成能力 漫画分五排,第一排是陈博远在电脑前埋头工作,背景里有珍珠奶茶,墙上用一条胶带粘着一根香蕉(致敬艺术圈名场面)。 第二排是他为家乡无锡生成的多语言手绘风格信息图海报,上面密密麻麻的中文小字全部渲染正确。 第三排是团队看到效果后集体兴奋的场面。 第四排画风一转,陈博远拿着手机休息,收到了奥特曼发来的一条翻译短信,祝贺团队的中文渲染成果。 然后,重头戏来了。 第五排,陈博远看到奥特曼生成的那张祝贺图片,中央位置赫然写着一句「稳稳地接住你」。 懂的都懂。 GPT在中文对话中动不动就「我会稳稳地接住你」「你的感受是合理的」,那股子油腻又真诚的美式心理咨询味,被中文用户疯狂吐槽了大半年 漫画里的陈博远当场破防,漫画式暴怒大喊「天呐!它又学会了接住!」,旁边的队友们化身小脑袋冒冷汗,弱弱地说「我们正在努力修复它!」 这波自嘲,可以给满分。(手动狗头) 中文之外,OpenAI还放出了全日语对白的少年冒险漫画、涵盖印地语、孟加拉语、泰卢固语等九种语言书籍封面的印度书店,以及韩语高级韩屋住宿广告。 语言不再是图像生成的「二等公民」了。 像素级生成 GPT-3到GPT-5大跨越 ChatGPT Images 2.0可以称之为OpenAI生图的下一个里程碑发布。 直播中,奥特曼将其称之为,「这种感觉就像是一下子从GPT-3直接跃升到了GPT-5」。 上传一张四人合照,ChatGPT直出一张杂志封面,在页面设计、文字排版都非常讲究。 而且海报中,包含了海量的细节,小字的处理,人物面部一致性,给人一种「男团」的即视感。 在细节方面,ChatGPT输出完全达到了「照片级」效果,逼真到让人看不出是AI生成的。 比如下面这张,穿越回2015年OpenAI刚成立那年,阶梯教室光线环境、PPT文案让人震惊。 真正让全场惊掉下巴的,是一张人类登月的360°全景图。 把ChatGPT生成的图片扔进全景查看器,便可以实现如下的效果,太阳的位置、影子的方向,以及一些细节全部清晰可见。 官方放出的Demo里,有一张macOS浏览器中ChatGPT窗口的截图。 窗口层叠、终端在后台打开、桌面杂乱无章,视觉细节多到离谱,生成出来的效果几乎和真实截图一模一样。 渲染精度到了这个级别,说明模型对图像中每一个像素的控制力已经跨过了一个临界点。 照片级逼真感 AI生成的图终于不像AI了 风格逼真度是另一个大跃进。 过去AI生成的图片,总有一种说不出的「AI感」,皮肤太光滑、光线太均匀、构图太完美,一眼就能看出不是真人拍的。 Images 2.0反其道而行之,开始学会「不完美」。 官方Demo里有一组抓拍快照,35mm胶片质感,可见颗粒感,构图略微偏离中心,衣服和头发在风中飘动。 如果不告诉你是AI生成的,你会以为这是某个摄影师在公路旁随手按下快门的结果。 还有一组一次性相机风格的照片,模拟的是2000年代初美国高中电脑室的场景,学生们挤在米色CRT显示器前用ChatGPT。 闪光灯过曝、轻微运动模糊、角落里印着「02 18 04」的橙色日期戳,所有「胶片时代的不完美」都被精准复现。 在风格多样性上,Images 2.0也拉开了差距。 宽高比现在支持最宽3:1、最高1:3。为此,OpenAI专门放了一张横版中国传统长卷山水画,笔墨晕染和留白都有模有样。 1960年代法国新浪潮电影海报、装饰艺术风格书签、动漫角色设定图,每一种视觉语言都保持了高度的风格一致性,而不只是「看起来有点像」。 会思考的图像模型 一次生成八张连贯画面 现场直播中,ChatGPT图像负责人Gabriel Goh表示,Images 2.0一共上线了两种模式—— 即时模式(Instant Mode) 思考模式(Thinking Mode) 其中最颠覆性的升级,全部藏在「思考模式」里。 当在ChatGPT中选择思考模型时,Images 2.0不再只是一个「你说我画」的渲染器,而是变成了一个视觉思考伙伴。 它会花更多时间理解你的意图,搜索网络获取实时信息,对图像结构进行推理,然后再动笔。 更关键的是,思考模式下它可以一次性生成最多八张风格连贯、角色一致、内容递进的图像。 只需上传一张大头照,ChatGPT就能立刻给出八套夏装搭配。选择其中一套,还会为你生成更多衣服不同角度的细节。 在这个任务中,ChatGPT调用了两种不同的「视觉智能」: 首先是「视觉理解」能力,它要真切地去「看」照片。理解一个人的样貌,然后规划出合适的服装搭配方案。 另一个维度则是「视觉生成」能力。它需要把规划好的服装布局,转化为一张连贯且有条理的图片。 以前想做一组社交媒体素材,你得一张张生成,自己拼接。现在一句prompt,Twitter、Instagram Stories、Instagram Feed、LinkedIn四种尺寸一次性出齐,色调和构图风格统一。 官方Demo展示了一家布鲁克林抹茶店「kizuki」的广告素材,冰镇草莓抹茶在阳光下的画面,街头服饰美学搭配日式极简,四种社交平台尺寸一步到位。 还有一个学术论文海报的Demo,直接上传PDF,模型自动提取关键图表、数据和结构,排版成一张横版海报。 值得一提的是,Images 2.0开启思考模式后,还可以直接联网搜索信息。 团队透露,几天前在Arena盲测的「DuckTape」就是今天的Images 2.0。 然后,他们让Images 2.0搜集网友反馈,并制作成一张图。没想到,模型还生成了一个可直接扫描的「二维码」。 ChatGPT、Codex全线开放 从今天起,所有ChatGPT、Codex都可以用上ChatGPT Images 2.0。 带有「思考」过程的图像生成功能,已向ChatGPT Plus、Pro、Business用户开放。底层模型gpt-image-2也已在API中上线。 在定价方面,ChatGPT Images 2.0更强了,同时toekn输入/输出价格没有涨。 对普通用户来说,演示文稿配图、社交媒体海报、产品宣传卡片这些过去要开Photoshop折腾半天的活,现在一句prompt搞定。 对开发者和企业来说,本地化广告、多语言信息图、教育内容、设计工具这些需要大量人工的视觉工作流,现在都可以通过API批量自动化了。 Codex里更是把图像生成整合进了工作区,设计团队可以在同一个环境里出UI方案、比选项、转产品,全程不用切换工具。 图像生成的iPhone时刻? 回头看,从DALL·E到Midjourney到Stable Diffusion,AI图像生成一直处在「够用但不太行」的状态。 文字渲染翻车、多语言拉胯、风格千篇一律、构图一眼AI,这些痛点每一个都劝退了想把AI图像用在正经场景里的人。 Images 2.0一口气把这些短板全补上了,还加了思考能力和多图一次性生成。 虽然它离「完美」还有距离,但它可能是第一个让设计师、营销人员和内容创作者觉得「这东西我真的可以用在工作里」的AI图像模型。 现在,设计师们可能要重新想想,自己的护城河到底在哪里了。 参考资料: https://x.com/OpenAI/status/2046661795327459677  https://x.com/OpenAI/status/2046670977145372771  https://openai.com/index/introducing-chatgpt-images-2-0/   https://x.com/sama/status/2046672912833458597

奥特曼亲自上阵,Images 2.0登顶王座!大米刻字,生图跨入GPT-5时代

今夜,ChatGPT Images 2.0震撼上线,成为首个「会思考」的图像AI。奥特曼直呼这是从GPT-3到GPT-5的飞跃。它不仅能精准听懂中文指令、渲染复杂UI,甚至能在米粒上刻字。

文章作者、来源:新智元

那个熟悉的OpenAI又回来了!

凌晨,奥特曼亲自带队,开启20分钟线上直播,打破了数日的沉寂。

OpenAI终于祭出了传闻中的ChatGPT Images 2.0,正式开启图像生成的全新纪元。

Images 2.0是一次质的飞跃,它在精准听懂长指令、准确摆放并理清物体间关系、渲染密集文本方面有了巨大突破。

最重要的是,它是首个具备「思考能力」的图像模型,可以联网搜索实时信息、二次自检。

它还能一次性直出八张风格连贯的图,最高支持2K超清分辨率。

这么说吧,Images 2.0的出世,重新定义了视觉生成的统治力——

像素级精度:小字号文本、图标、UI元素等复杂细节一键生成,支持3:1到1:3全尺寸输出;

多语言质变:中日韩等非拉丁文字精准渲染,不仅字拼得对,语句也通顺连贯;

风格成熟:照片级逼真感,电影剧照、像素艺术、漫画等视觉语言都拿捏得住;

会思考:首个具备推理能力的图像模型,能联网搜索、自检输出,知识更新至2025年12月。

在Arena最新榜单中,Images 2.0一骑绝尘,登顶全球AI生图王座。实力暴击谷歌Nano Banana 2/Pro版本,领先242分。

它在全部7个文生图类别中,全部位列第一。

最狠的是,它可以做到像素级生成。

直播中生成的一张米山图,其中的一颗大米粒,竟刻上了「GPT image 2」的字体。

奥特曼还秀了一番,和4o图像负责人Gabriel Goh一起更多GPU的漫画图。

网友们纷纷上手,被Images 2.0的实力再次惊艳到了。

甚至,有人表示,「OpenAI终于再次引领图像生成领域」!

中文直接封神 OpenAI自己玩梗「稳稳地接住你」

过去的图像模型,英语和拉丁字母语言表现尚可,一碰到中日韩文字就开始「鬼画符」。

这次,官博里放出的中文Demo,直接炸了。

OpenAI研究科学家陈博远亲自出镜(很可能也是他自己写的prompt),生成了一整页全中文彩色漫画,讲的是他在OpenAI做ChatGPT Image 2中文文本渲染优化的故事。

这张图同时证明了三件事,中文文本渲染能力质变、极小字号的精度控制、以及复杂多面板漫画的一次性生成能力

漫画分五排,第一排是陈博远在电脑前埋头工作,背景里有珍珠奶茶,墙上用一条胶带粘着一根香蕉(致敬艺术圈名场面)。

第二排是他为家乡无锡生成的多语言手绘风格信息图海报,上面密密麻麻的中文小字全部渲染正确。

第三排是团队看到效果后集体兴奋的场面。

第四排画风一转,陈博远拿着手机休息,收到了奥特曼发来的一条翻译短信,祝贺团队的中文渲染成果。

然后,重头戏来了。

第五排,陈博远看到奥特曼生成的那张祝贺图片,中央位置赫然写着一句「稳稳地接住你」。

懂的都懂。

GPT在中文对话中动不动就「我会稳稳地接住你」「你的感受是合理的」,那股子油腻又真诚的美式心理咨询味,被中文用户疯狂吐槽了大半年

漫画里的陈博远当场破防,漫画式暴怒大喊「天呐!它又学会了接住!」,旁边的队友们化身小脑袋冒冷汗,弱弱地说「我们正在努力修复它!」

这波自嘲,可以给满分。(手动狗头)

中文之外,OpenAI还放出了全日语对白的少年冒险漫画、涵盖印地语、孟加拉语、泰卢固语等九种语言书籍封面的印度书店,以及韩语高级韩屋住宿广告。

语言不再是图像生成的「二等公民」了。

像素级生成 GPT-3到GPT-5大跨越

ChatGPT Images 2.0可以称之为OpenAI生图的下一个里程碑发布。

直播中,奥特曼将其称之为,「这种感觉就像是一下子从GPT-3直接跃升到了GPT-5」。

上传一张四人合照,ChatGPT直出一张杂志封面,在页面设计、文字排版都非常讲究。

而且海报中,包含了海量的细节,小字的处理,人物面部一致性,给人一种「男团」的即视感。

在细节方面,ChatGPT输出完全达到了「照片级」效果,逼真到让人看不出是AI生成的。

比如下面这张,穿越回2015年OpenAI刚成立那年,阶梯教室光线环境、PPT文案让人震惊。

真正让全场惊掉下巴的,是一张人类登月的360°全景图。

把ChatGPT生成的图片扔进全景查看器,便可以实现如下的效果,太阳的位置、影子的方向,以及一些细节全部清晰可见。

官方放出的Demo里,有一张macOS浏览器中ChatGPT窗口的截图。

窗口层叠、终端在后台打开、桌面杂乱无章,视觉细节多到离谱,生成出来的效果几乎和真实截图一模一样。

渲染精度到了这个级别,说明模型对图像中每一个像素的控制力已经跨过了一个临界点。

照片级逼真感 AI生成的图终于不像AI了

风格逼真度是另一个大跃进。

过去AI生成的图片,总有一种说不出的「AI感」,皮肤太光滑、光线太均匀、构图太完美,一眼就能看出不是真人拍的。

Images 2.0反其道而行之,开始学会「不完美」。

官方Demo里有一组抓拍快照,35mm胶片质感,可见颗粒感,构图略微偏离中心,衣服和头发在风中飘动。

如果不告诉你是AI生成的,你会以为这是某个摄影师在公路旁随手按下快门的结果。

还有一组一次性相机风格的照片,模拟的是2000年代初美国高中电脑室的场景,学生们挤在米色CRT显示器前用ChatGPT。

闪光灯过曝、轻微运动模糊、角落里印着「02 18 04」的橙色日期戳,所有「胶片时代的不完美」都被精准复现。

在风格多样性上,Images 2.0也拉开了差距。

宽高比现在支持最宽3:1、最高1:3。为此,OpenAI专门放了一张横版中国传统长卷山水画,笔墨晕染和留白都有模有样。

1960年代法国新浪潮电影海报、装饰艺术风格书签、动漫角色设定图,每一种视觉语言都保持了高度的风格一致性,而不只是「看起来有点像」。

会思考的图像模型 一次生成八张连贯画面

现场直播中,ChatGPT图像负责人Gabriel Goh表示,Images 2.0一共上线了两种模式——

即时模式(Instant Mode)

思考模式(Thinking Mode)

其中最颠覆性的升级,全部藏在「思考模式」里。

当在ChatGPT中选择思考模型时,Images 2.0不再只是一个「你说我画」的渲染器,而是变成了一个视觉思考伙伴。

它会花更多时间理解你的意图,搜索网络获取实时信息,对图像结构进行推理,然后再动笔。

更关键的是,思考模式下它可以一次性生成最多八张风格连贯、角色一致、内容递进的图像。

只需上传一张大头照,ChatGPT就能立刻给出八套夏装搭配。选择其中一套,还会为你生成更多衣服不同角度的细节。

在这个任务中,ChatGPT调用了两种不同的「视觉智能」:

首先是「视觉理解」能力,它要真切地去「看」照片。理解一个人的样貌,然后规划出合适的服装搭配方案。

另一个维度则是「视觉生成」能力。它需要把规划好的服装布局,转化为一张连贯且有条理的图片。

以前想做一组社交媒体素材,你得一张张生成,自己拼接。现在一句prompt,Twitter、Instagram Stories、Instagram Feed、LinkedIn四种尺寸一次性出齐,色调和构图风格统一。

官方Demo展示了一家布鲁克林抹茶店「kizuki」的广告素材,冰镇草莓抹茶在阳光下的画面,街头服饰美学搭配日式极简,四种社交平台尺寸一步到位。

还有一个学术论文海报的Demo,直接上传PDF,模型自动提取关键图表、数据和结构,排版成一张横版海报。

值得一提的是,Images 2.0开启思考模式后,还可以直接联网搜索信息。

团队透露,几天前在Arena盲测的「DuckTape」就是今天的Images 2.0。

然后,他们让Images 2.0搜集网友反馈,并制作成一张图。没想到,模型还生成了一个可直接扫描的「二维码」。

ChatGPT、Codex全线开放

从今天起,所有ChatGPT、Codex都可以用上ChatGPT Images 2.0。

带有「思考」过程的图像生成功能,已向ChatGPT Plus、Pro、Business用户开放。底层模型gpt-image-2也已在API中上线。

在定价方面,ChatGPT Images 2.0更强了,同时toekn输入/输出价格没有涨。

对普通用户来说,演示文稿配图、社交媒体海报、产品宣传卡片这些过去要开Photoshop折腾半天的活,现在一句prompt搞定。

对开发者和企业来说,本地化广告、多语言信息图、教育内容、设计工具这些需要大量人工的视觉工作流,现在都可以通过API批量自动化了。

Codex里更是把图像生成整合进了工作区,设计团队可以在同一个环境里出UI方案、比选项、转产品,全程不用切换工具。

图像生成的iPhone时刻?

回头看,从DALL·E到Midjourney到Stable Diffusion,AI图像生成一直处在「够用但不太行」的状态。

文字渲染翻车、多语言拉胯、风格千篇一律、构图一眼AI,这些痛点每一个都劝退了想把AI图像用在正经场景里的人。

Images 2.0一口气把这些短板全补上了,还加了思考能力和多图一次性生成。

虽然它离「完美」还有距离,但它可能是第一个让设计师、营销人员和内容创作者觉得「这东西我真的可以用在工作里」的AI图像模型。

现在,设计师们可能要重新想想,自己的护城河到底在哪里了。

参考资料:

https://x.com/OpenAI/status/2046661795327459677 

https://x.com/OpenAI/status/2046670977145372771 

https://openai.com/index/introducing-chatgpt-images-2-0/  

https://x.com/sama/status/2046672912833458597
俄罗斯国家杜马一读通过数字货币法案,央行将掌控市场准入与交易监管ME News 消息,4 月 22 日(UTC+8),俄罗斯国家杜马(议会下院)已一读通过《数字货币与数字权利法案》,标志着该国加密资产合法化迈出关键一步。 根据法案,Bank of Russia 将成为加密市场的核心监管机构,负责发放牌照、审批或禁止相关交易,并界定交易合法性。法案拟将加密货币认定为“财产”,但明确禁止其在国内作为支付手段,卢布仍为唯一法定货币。不过,在西方制裁背景下,加密资产可用于跨境贸易结算,包括服务支付、知识产权转让等场景。 此外,法案允许俄罗斯居民通过持牌机构合法投资加密资产,但将实施投资者分级制度,对普通投资者设置测试及年度投资额度限制(建议上限为 30 万卢布)。初期仅允许 Bitcoin、Ethereum 等高市值主流资产交易,并由央行制定白名单。该法案预计最晚于 2026 年 7 月前正式通过并生效。不过,部分议员及银行业人士批评其监管过严,或影响市场活跃度,甚至导致资金继续留在灰色市场。同时,配套立法还拟引入刑事处罚,对非法加密交易最高可判 7 年监禁。 .(来源:ME)

俄罗斯国家杜马一读通过数字货币法案,央行将掌控市场准入与交易监管

ME News 消息,4 月 22 日(UTC+8),俄罗斯国家杜马(议会下院)已一读通过《数字货币与数字权利法案》,标志着该国加密资产合法化迈出关键一步。 根据法案,Bank of Russia 将成为加密市场的核心监管机构,负责发放牌照、审批或禁止相关交易,并界定交易合法性。法案拟将加密货币认定为“财产”,但明确禁止其在国内作为支付手段,卢布仍为唯一法定货币。不过,在西方制裁背景下,加密资产可用于跨境贸易结算,包括服务支付、知识产权转让等场景。 此外,法案允许俄罗斯居民通过持牌机构合法投资加密资产,但将实施投资者分级制度,对普通投资者设置测试及年度投资额度限制(建议上限为 30 万卢布)。初期仅允许 Bitcoin、Ethereum 等高市值主流资产交易,并由央行制定白名单。该法案预计最晚于 2026 年 7 月前正式通过并生效。不过,部分议员及银行业人士批评其监管过严,或影响市场活跃度,甚至导致资金继续留在灰色市场。同时,配套立法还拟引入刑事处罚,对非法加密交易最高可判 7 年监禁。 .(来源:ME)
ME News 消息,4 月 22 日(UTC+8),香港上市财富管理公司Avenir Group首席执行官Livio Weng在接受采访时表示,Bitfire正在从李林旗下家族办公室Avenir Group收购相关交易团队及其交易系统。李林持有这家财富管理公司30%的股份,此举旨在帮助该公司拓展更多私人银行客户。随着新团队的加入,Bitfire已获得约5亿美元的初始投资意向。Bitfire于去年8月推出私人银行业务,至今已新增约300位客户,主要包括家族办公室、上市公司和高净值人士。该公司计划于今年晚些时候拓展以太坊和稳定币的交易策略。(来源:ME)
ME News 消息,4 月 22 日(UTC+8),香港上市财富管理公司Avenir Group首席执行官Livio Weng在接受采访时表示,Bitfire正在从李林旗下家族办公室Avenir Group收购相关交易团队及其交易系统。李林持有这家财富管理公司30%的股份,此举旨在帮助该公司拓展更多私人银行客户。随着新团队的加入,Bitfire已获得约5亿美元的初始投资意向。Bitfire于去年8月推出私人银行业务,至今已新增约300位客户,主要包括家族办公室、上市公司和高净值人士。该公司计划于今年晚些时候拓展以太坊和稳定币的交易策略。(来源:ME)
Συνδεθείτε για να εξερευνήσετε περισσότερα περιεχόμενα
Γίνετε κι εσείς μέλος των παγκοσμίων χρηστών κρυπτονομισμάτων στο Binance Square.
⚡️ Λάβετε τις πιο πρόσφατες και χρήσιμες πληροφορίες για τα κρυπτονομίσματα.
💬 Το εμπιστεύεται το μεγαλύτερο ανταλλακτήριο κρυπτονομισμάτων στον κόσμο.
👍 Ανακαλύψτε πραγματικά στοιχεία από επαληθευμένους δημιουργούς.
Διεύθυνση email/αριθμός τηλεφώνου
Χάρτης τοποθεσίας
Προτιμήσεις cookie
Όροι και Προϋπ. της πλατφόρμας