Skip to content

AI 日报 | 2026-04-24

今日共收录 147 条资讯

📰 业界新闻

⭐️⭐️⭐️ Anthropic发布桌面代理Cowork

Anthropic 推出 Claude Desktop 新能力 Cowork,可让用户授权 Claude 访问本地指定文件夹,并直接读取、编辑或创建文件,无需编程。该功能目前以研究预览形式仅向 macOS 上的 Claude Max 订阅用户开放,订阅价格为每月 100 至 200 美元。Cowork 基于与 Claude Code 相同的 Agent 架构,支持连接 Asana、Notion、PayPal 等外部服务,并可配合浏览器自动化完成网页操作。Anthropic 同时明确提示其存在删除本地文件、遭遇提示注入等风险,显示桌面级 AI 代理正从聊天工具走向实际生产力场景,但安全与信任仍是落地关键。

  • 相关: Anthropic, Claude, Cowork, Claude Code, Microsoft Copilot
  • 标签: AI代理, 桌面应用, 文件自动化, Claude, 生产力工具
  • 📎 原文链接

⭐️⭐️⭐️ Salesforce发布AI版Slackbot

Salesforce 发布全新重构的 Slackbot,将其从基础通知工具升级为可搜索企业数据、生成文档并执行操作的 AI 代理,已向 Business+ 和 Enterprise+ 客户正式开放。新版本基于大语言模型和企业搜索架构,当前主要由 Anthropic Claude 提供支持,未来还将引入 Gemini 等更多模型。Salesforce 在内部 8 万名员工中测试后称,已有三分之二员工使用过该产品,其中 80% 持续使用,满意度达到 96%,员工每周可节省 2 至 20 小时。该发布凸显 Salesforce 正通过将 AI 深度嵌入 Slack,与微软 Copilot 和谷歌 Gemini 展开企业办公入口之争。

  • 相关: Salesforce, Slack, Slackbot, Anthropic, Claude
  • 标签: 企业AI, 办公协作, AI代理, Slack, Salesforce
  • 📎 原文链接

⭐️⭐️⭐️ Listen Labs获6900万美元融资

AI 客户访谈平台 Listen Labs 宣布完成 6900 万美元 B 轮融资,由 Ribbit Capital 领投,投后估值达到 5 亿美元,累计融资总额增至 1 亿美元。公司称上线 9 个月内,年化收入增长 15 倍至八位数规模,并已完成超过 100 万次 AI 驱动访谈。其平台可从 3000 万人的全球网络中招募受访者,由 AI 主持开放式视频访谈,并生成可直接用于决策的报告,以更快替代传统市场研究中的问卷和人工深访。此轮融资表明,AI 正在切入 1400 亿美元规模的市场研究行业,推动用户洞察从“数周交付”转向“数小时交付”。

  • 相关: Listen Labs, Ribbit Capital, Sequoia Capital, Microsoft, AI客户访谈
  • 标签: 融资, 市场研究, 企业AI, 客户洞察, AI代理
  • 📎 原文链接

⭐️⭐️⭐️ Railway获1亿美元融资

云平台 Railway 宣布完成 1 亿美元 B 轮融资,由 TQ Ventures 领投,平台累计吸引约 200 万开发者,月处理部署量超过 1000 万次,边缘网络请求量超过 1 万亿次。公司主打面向 AI 应用的原生云基础设施,称部署速度可低于 1 秒,并为客户带来最高 65% 成本节省;个别客户案例显示成本从每月 1.5 万美元降至约 1000 美元。Railway 还在 2024 年放弃 Google Cloud、自建数据中心,以强化对网络、算力和存储的垂直控制。此轮融资反映出 AI 编码助手普及后,市场对更快部署、更低成本云基础设施的强烈需求,也意味着其将正面挑战 AWS、Google Cloud 等传统云厂商。

  • 相关: Railway, AWS, Google Cloud, TQ Ventures, Jake Cooper
  • 标签: 融资, AI云基础设施, 开发者平台, 云计算, AI原生
  • 📎 原文链接

⭐️⭐️⭐️ OpenAI内部质疑奥特曼

据 Ars Technica 报道,OpenAI 内部人士对 CEO Sam Altman 的信任出现明显动摇,相关讨论甚至将“问题在于 Sam Altman”作为核心判断。报道同时指出,OpenAI 正在头脑风暴更多“让 AI 造福人类”的方向,试图缓解外界与内部的负面观感。这一消息的重要性在于,它反映出 OpenAI 在治理与领导层信任上的潜在风险,可能影响公司战略推进与外部合作预期。

  • 相关: OpenAI, Sam Altman, Ars Technica
  • 标签: 公司治理, 高管信任, OpenAI
  • 📎 原文链接

⭐️⭐️⭐️ 测试称谷歌AI概览错误率达10%

一项测试分析显示,谷歌AI Overviews的回答准确率约为90%,意味着约10%的结果存在错误。按谷歌搜索的巨大流量估算,这可能对应每小时出现数百万条错误信息。该结果凸显出生成式AI在搜索场景中的可靠性问题,因为即便看似不高的错误率,在超大规模使用下也会被显著放大。

  • 相关: 谷歌, AI Overviews, Google Search
  • 标签: 谷歌, AI搜索, 准确率, 幻觉
  • 📎 原文链接

⭐️⭐️⭐️ 俄亥俄男子因AI裸照案被定罪

一名俄亥俄州男子成为美国《Take It Down Act》下首位被定罪者。报道指出,他使用了超过100种AI工具伪造女性和未成年人的裸照,且在被捕后仍继续制作相关内容。该案显示执法机构开始依据新法律打击AI生成的非自愿色情内容,也反映出生成式AI滥用在未成年人保护和网络治理上的现实风险。

  • 相关: Take It Down Act, Ars Technica, 生成式AI
  • 标签: AI裸照, 深度伪造, 法律监管, 未成年人保护
  • 📎 原文链接

⭐️⭐️⭐️ 生成式AI助长诈骗升级

报道指出,自 2022 年底 ChatGPT 面向公众开放后,犯罪分子很快开始利用大语言模型批量生成逼真的文本内容。相关用途包括大规模垃圾邮件,以及更复杂、更具针对性的诈骗邮件与欺诈话术。生成式 AI 降低了恶意内容制作门槛,也提升了骗局的规模化与拟真度。其重要性在于,这凸显了 AI 普及带来的网络安全与社会治理风险。

  • 相关: OpenAI, ChatGPT, 大语言模型
  • 标签: AI安全, 网络诈骗, 生成式AI
  • 📎 原文链接

⭐️⭐️⭐️ 深度伪造被武器化

报道指出,深度伪造正从长期被警告的潜在风险,转变为已经发生的现实威胁。随着生成式模型能力提升,以及低价甚至免费的易用工具普及,伪造视频、图像和音频的门槛显著下降。其核心影响在于,恶意主体更容易借此实施欺诈、操纵舆论或定向攻击。该趋势表明,AI安全问题已从前瞻讨论进入实际治理阶段。

  • 相关: MIT Technology Review, 深度伪造, 生成式AI
  • 标签: AI安全, 深度伪造, 生成模型
  • 📎 原文链接

⭐️⭐️⭐️ 谷歌发布两款面向Agent的TPU

谷歌公布两款新 TPU,定位于其所称的“agentic era(代理式时代)”。新一代 Tensor AI 芯片分为两类:一款面向推理,另一款面向训练,显示其正在针对不同 AI 工作负载做更细化的硬件设计。此举反映出 AI 基础设施已从通用加速转向训练与推理分层优化。该发布的重要性在于,TPU 路线的更新将直接影响谷歌云及其 AI 模型服务的性能与成本结构。

  • 相关: 谷歌, TPU, Tensor, AI推理, AI训练
  • 标签: 谷歌, TPU, AI芯片
  • 📎 原文链接

⭐️⭐️⭐️ OpenAI发布GPT-5.5

OpenAI宣布推出GPT-5.5,并称其为迄今“最聪明、最直观”的模型版本。距离GPT-5.4发布仅过去一个月,OpenAI表示新模型在写作、代码编写与调试方面表现更强,同时效率更高。此次更新延续了OpenAI高频迭代的产品节奏,也表明其正继续强化AI作为通用工作界面的定位。对开发者和企业用户来说,编码能力与效率提升是此次版本升级的核心价值。

  • 相关: OpenAI, GPT-5.5, ChatGPT
  • 标签: 大模型, 代码生成, 产品发布
  • 📎 原文链接

⭐️⭐️⭐️ Meta将裁员一成

据彭博社援引Meta首席人力官Janelle Gale的内部备忘录,Meta计划于5月裁减约10%的员工,涉及约8000人。与此同时,公司还将关闭约6000个开放岗位。此次调整发生在Meta持续加大投入之后,反映出其在扩张与成本控制之间重新平衡。对AI及科技行业而言,这一动作也显示大型平台公司仍在通过组织瘦身来配合战略转向。

  • 相关: Meta, Janelle Gale, Bloomberg
  • 标签: 裁员, 组织调整, 科技行业
  • 📎 原文链接

⭐️⭐️⭐️ DeepSeek预览V4模型

中国 AI 公司 DeepSeek 发布了下一代模型 V4 的预览版,并表示这款开源模型可与 Anthropic、Google、OpenAI 等美国公司的领先闭源系统竞争。公司称,V4 相比此前版本有显著提升,尤其是在编程能力上。编码能力已成为当前大模型竞争的关键指标之一,因此这次更新具有较强行业关注度。这也是 DeepSeek 在一年前震动美国竞争对手后,再次展示其模型进展。

  • 相关: DeepSeek, Anthropic, Google, OpenAI, V4
  • 标签: 大模型, 开源模型, 编程能力
  • 📎 原文链接

⭐️⭐️⭐️ Meta采购数百万亚马逊AI CPU

Meta 与亚马逊达成协议,采购数百万颗亚马逊自研 AI CPU,用于 AI Agent 相关工作负载。报道指出,此次交易聚焦 CPU 而非 GPU,显示 AI 芯片竞争正在从传统 GPU 扩展到更适配特定场景的新型算力方案。这一动向说明大型科技公司正在重新布局 AI 基础设施,以支撑代理式 AI 的规模化部署。对芯片行业而言,算力竞争的焦点正在发生变化。

  • 相关: Meta, 亚马逊, AI CPU, AI Agent
  • 标签: AI芯片, 算力, Agent
  • 📎 原文链接

⭐️⭐️⭐️ 马斯克与奥特曼对簿公堂

报道称,埃隆·马斯克与 OpenAI CEO 萨姆·奥特曼之间的矛盾已进入司法程序,相关审判定于4月27日在美国加州奥克兰启动。案件表面聚焦于 OpenAI 是否对马斯克构成欺诈,但更深层反映的是 OpenAI 转型路径、控制权与商业化方向的长期冲突。由于马斯克既是 OpenAI 联合创始人,又已创办 xAI,这场诉讼可能进一步搅动生成式AI行业竞争格局。其重要性在于,案件结果可能影响 OpenAI 的治理叙事与行业舆论走向。

  • 相关: 埃隆·马斯克, 萨姆·奥特曼, OpenAI, xAI
  • 标签: OpenAI, 法律诉讼, AI治理
  • 📎 原文链接

⭐️⭐️⭐️ DeepSeek预览新模型逼近前沿

DeepSeek 预览了两款新 AI 模型,称其因架构改进在效率和性能上均优于 DeepSeek V3.2。公司表示,这些模型在推理基准测试中已几乎缩小与当前领先模型之间的差距,覆盖开源和闭源模型。此举表明 DeepSeek 正继续推进高性能模型迭代,并在前沿模型竞争中提升存在感。对行业而言,这反映出推理能力仍是模型竞争的关键指标。

  • 相关: DeepSeek, DeepSeek V3.2, AI模型, 推理基准
  • 标签: 大模型, 推理, 模型发布
  • 📎 原文链接

⭐️⭐️⭐️ 库克将于9月卸任苹果CEO

苹果CEO蒂姆·库克计划于9月卸任,由硬件负责人John Ternus接任。这意味着苹果将进入新的管理阶段,而接棒者将面对与库克时代不同的外部环境,包括App Store 30%抽成模式承压等问题。该变动虽非AI产品发布,但对科技行业格局和苹果后续技术战略具有重要影响。市场关注点将转向新任管理层如何应对平台监管、硬件路线与AI竞争环境。

  • 相关: 苹果, 蒂姆·库克, John Ternus, App Store
  • 标签: 高管变动, 苹果, 科技行业
  • 📎 原文链接

⭐️⭐️⭐️ Project Maven重塑美军AI作战

报道称,在对伊朗行动的最初24小时内,美军打击了超过1000个目标,规模接近20多年前伊拉克“震慑行动”的近两倍。推动这一速度提升的关键因素之一,是用于加快目标识别与打击流程的AI系统,其中核心代表是 Maven Smart System。该案例显示,AI正从情报分析工具进一步进入实战决策链条,对现代军事行动效率产生直接影响。其重要性在于,军方对AI的接受度已从试点阶段走向大规模实战应用。

  • 相关: 美国军方, Project Maven, Maven Smart System, AI军事系统
  • 标签: 军事AI, 目标识别, 国防科技
  • 📎 原文链接

⭐️⭐️⭐️ 谷歌拟向Anthropic投400亿美元

谷歌计划以现金和算力形式,向 Anthropic 投资最高 400 亿美元。此举发生在 AI 巨头加速争夺大规模算力资源之际,也紧随 Anthropic 限量发布其面向网络安全场景的强模型 Mythos 之后。400 亿美元的潜在投入规模极大,显示头部厂商正通过资本与基础设施绑定关键模型公司。这将进一步强化算力供给在 AI 竞争中的战略地位。

  • 相关: Google, Anthropic, Mythos
  • 标签: 投融资, 算力, 大模型, 网络安全
  • 📎 原文链接

⭐️⭐️ 马斯克称赔偿将归OpenAI基金会

在与OpenAI及Sam Altman的诉讼中,马斯克表示若胜诉,将不会索取“哪怕一美元”的赔偿,而是把全部赔偿交给OpenAI非营利机构。Ars Technica指出,这一表态与其此前曾主张最高可达1340亿美元的赔偿形成反差。此举意味着案件焦点进一步转向OpenAI治理结构与非营利使命之争,而不仅是金钱赔偿问题。

  • 相关: 埃隆·马斯克, OpenAI, Sam Altman
  • 标签: OpenAI, 马斯克, 诉讼, 公司治理
  • 📎 原文链接

⭐️⭐️ Chrome为Gemini推出Skills

Google在Chrome中推出“Skills”功能,用于让Gemini提示词可以被即时复用。用户既可以保存自己常用的自定义提示词,也可以直接调用Google提供的预设Skill库。该更新有助于降低高质量提示词的重复编写成本,提升浏览器内AI助手的使用效率。对于企业和高频用户来说,这意味着更标准化、可复用的AI工作流正在形成。

  • 相关: Google, Chrome, Gemini
  • 标签: 提示词, 浏览器AI, 工作流
  • 📎 原文链接

⭐️⭐️ Gemini接入Google Photos生图

Google为Gemini新增了基于Google Photos生成个性化AI图像的能力。新功能可调用用户照片,为图像生成模型提供更个人化的参考素材,从而生成更贴近用户场景和偏好的内容。此举降低了个人照片进入生成流程的门槛,也进一步推动Google将相册、助手与生成式AI服务打通。对用户而言,个性化创作体验增强;对行业而言,隐私与数据使用边界也将更受关注。

  • 相关: Google, Gemini, Google Photos
  • 标签: 个性化生成, AI图像, Google生态
  • 📎 原文链接

⭐️⭐️ Deezer称44%新歌为AI生成

Deezer表示,其平台新上传音乐中有44%为AI生成内容。与此同时,AI歌曲在平台总播放量中占比仍然较小,其中大多数播放被判定与欺诈有关,因此已被取消变现资格。该数据反映出AI音乐供给正在快速增长,也说明流媒体平台正加大对虚假流量和版权变现风险的治理力度。对于音乐平台和创作者而言,如何识别AI内容并维持健康分发生态正变得越来越重要。

  • 相关: Deezer, AI生成音乐, 流媒体平台
  • 标签: AI音乐, 内容审核, 流量欺诈
  • 📎 原文链接

⭐️⭐️ LLM之后的AI走向

文章回顾了自 2022 年底 ChatGPT 以实验性原型发布后,大语言模型如何迅速成为数亿人日常使用的通用工具,并重塑整个科技行业的产品布局。OpenAI 掀起的热潮促使各大公司加速推出竞品,推动生成式 AI 成为行业主线。该报道关注的是“LLM 之后”的技术与产业演进,即在大模型奠定基础后,下一阶段 AI 将如何扩展能力边界。其重要性在于,这关系到 AI 产业从单点爆发走向长期竞争的核心路径。

  • 相关: OpenAI, ChatGPT, 大语言模型
  • 标签: 生成式AI, LLM, 产业趋势
  • 📎 原文链接

⭐️⭐️ 世界模型瞄准物理世界

文章讨论了“世界模型”作为 AI 下一前沿的潜力,即让系统不仅擅长处理数字世界中的文本与代码,还能理解并应对现实物理环境。报道指出,相比写小说或编写应用,让 AI 学会叠衣服或在城市街道中导航要困难得多。为弥合这一差距,研究者正尝试构建能够模拟和预测现实世界变化的模型。其意义在于,这类技术被视为推动机器人、自动驾驶等走向更高实用性的关键基础。

  • 相关: 世界模型, 人工智能, 机器人
  • 标签: 世界模型, 具身智能, 自动驾驶
  • 📎 原文链接

⭐️⭐️ AI代理编排成关键层

文章聚焦“AI代理编排”这一正在兴起的技术层,指出真正改变药物研发、自动化办公等场景的,并非单一聊天模型,而是能够执行任务的AI代理系统。ChatGPT让大语言模型走向大众,但要产生更广泛产业影响,AI需要从“会对话”走向“会行动”。代理编排的意义在于协调多个模型、工具与流程,使AI能完成复杂工作链条。这也是外界讨论生产力提升与岗位替代时所依赖的核心能力基础。

  • 相关: MIT Technology Review, ChatGPT, AI代理
  • 标签: AI代理, 智能体编排, 大语言模型
  • 📎 原文链接

⭐️⭐️ 人形机器人抢夺训练数据

报道揭示,人形机器人训练正在催生新的数据采集模式,包括付费邀请用户拍摄日常操作视频,以及通过网站远程操控中国深圳的机械臂完成任务。相关平台甚至以加密货币作为激励,吸引用户贡献动作数据。核心信息是,机器人训练所需的真实世界操作数据正成为稀缺资源,并开始形成专门的数据获取链路。其重要性在于,谁能更高效地获取高质量行为数据,谁就更可能提升机器人模型的泛化与落地能力。

  • 相关: MIT Technology Review, 人形机器人, 机械臂, 深圳, 加密货币
  • 标签: 机器人, 训练数据, 具身智能
  • 📎 原文链接

⭐️⭐️ 中国押注开源大模型

MIT Tech Review 报道称,与硅谷 AI 公司普遍采用 API 闭源收费模式不同,中国头部 AI 实验室更倾向于发布可下载的“开放权重”模型。开发者可直接在本地或自有硬件上部署、微调并构建产品,降低了商业谈判和接入门槛。这一策略可能加速模型扩散与产业落地,也使中国 AI 生态在开源路径上形成差异化竞争力。其重要性在于,模型分发方式正在影响开发者生态、商业模式和全球 AI 竞争格局。

  • 相关: MIT Tech Review, 中国AI实验室, 开放权重模型
  • 标签: 开源模型, 中国AI, 模型分发, 开发者生态
  • 📎 原文链接

⭐️⭐️ AI科学家走向现实

MIT Tech Review 关注“人工科学家”概念,即 AI 不再只是辅助检索和总结文献,而是被寄望参与科学发现本身。文章指出,当前大语言模型已经能在科研流程中承担多种支持工作,这也是许多 AI 公司强调其长期价值的重要依据。该议题的重要性在于,AI 能否真正推动癌症、气候等重大问题上的突破,将决定其在科研体系中的角色边界。现阶段这仍是从科研助手走向自主发现工具的关键过渡期。

  • 相关: MIT Tech Review, AI公司, 大语言模型
  • 标签: AI科研, 人工科学家, 科学发现, LLM
  • 📎 原文链接

⭐️⭐️ 数据架构成企业AI关键

MIT Technology Review 指出,企业 AI 正从试验阶段进入日常业务应用,覆盖财务、供应链、人力资源和客户运营等场景。报道援引一项最新调查称,到 2025 年底,已有一半公司在至少三个业务职能中使用 AI。文章强调,随着 copilots、agents 和预测系统加速落地,稳健的数据 fabric 正成为 AI 释放业务价值的基础设施,因为数据整合、治理和可用性将直接决定系统效果。

  • 相关: MIT Technology Review, Data Fabric, Copilots, Agents
  • 标签: 企业AI, 数据治理
  • 📎 原文链接

⭐️⭐️ The Verge谈AI反自动化情绪

The Verge 在 Decoder 播客中提出“software brain(软件脑)”这一概念,用来描述一种把世界过度理解为算法、数据库与流程循环的思维方式。节目结合近期 AI 报道与讨论,指出社会对自动化的抵触情绪正在上升。核心观点是,人们并不天然渴望被自动化替代,这对当前 AI 产品设计与部署方式提出了反思。该讨论的重要性在于,它触及了 AI 落地过程中的用户接受度与社会边界问题。

  • 相关: The Verge, Nilay Patel, AI, 自动化, Decoder
  • 标签: AI社会影响, 自动化, 产品反思
  • 📎 原文链接

⭐️⭐️ Anthropic模型疑遭越权访问

Anthropic对Claude Mythos的谨慎发布出现波折。此前公司曾强调该模型在网络安全方面能力过强,因此不宜公开发布,但彭博社称已有“一小群未授权用户”获得了访问权限。该事件暴露出高敏感AI模型在访问控制和安全管理上的风险。对Anthropic而言,这不仅是一次安全事故,也可能影响外界对其模型治理能力的信任。

  • 相关: Anthropic, Claude Mythos, Bloomberg
  • 标签: 模型安全, 数据泄露, 访问控制
  • 📎 原文链接

⭐️⭐️ Noscroll用AI代你刷网

Noscroll 推出一款 AI 机器人,主打“替用户完成 doomscrolling”,即自动阅读和筛选互联网上的大量信息。其核心思路是让 AI 先完成信息消费,再把结果整理后反馈给用户,以减少无目的刷信息流带来的时间消耗。该产品瞄准的是信息过载和注意力管理问题,反映出 AI 助手正从“回答问题”走向“代替浏览与过滤内容”的新应用场景。

  • 相关: Noscroll, TechCrunch, AI Bot
  • 标签: 信息过载, AI助手
  • 📎 原文链接

⭐️⭐️ Sierra收购YC创业公司Fragment

由 Bret Taylor 创立的 AI 客服代理创业公司 Sierra 宣布收购法国初创公司 Fragment,后者曾获 Y Combinator 支持。此次收购显示 Sierra 正通过并购补充技术或团队能力,以强化其 AI 客服产品布局。虽然交易细节未披露,但该动作反映出 AI 应用层创业公司之间的整合趋势正在加快。对于客户服务自动化赛道而言,头部公司正在进一步扩张。

  • 相关: Sierra, Bret Taylor, Fragment, Y Combinator
  • 标签: 并购, AI客服, 创业公司
  • 📎 原文链接

⭐️⭐️ Claude接入个人应用

Anthropic 宣布为 Claude 增加更多个人应用连接器,使其可直接访问 Spotify、Uber Eats、TurboTax、Audible、Uber、AllTrails、TripAdvisor、Instacart 等服务。此前 Claude 已支持多种工作场景应用连接,这次扩展重点转向个人生活类应用。新能力意味着用户可让 Claude 在娱乐、出行、报税、购物等场景中调用更多个人数据与服务。此举反映出大模型助手正从办公工具进一步演进为面向日常生活的通用代理入口。

  • 相关: Anthropic, Claude, Spotify, Uber Eats, TurboTax
  • 标签: AI助手, 连接器, 个人应用
  • 📎 原文链接

⭐️⭐️ Nothing发布AI听写工具

Nothing推出一款由AI驱动的本地听写工具,支持超过100种语言。该功能强调端侧处理能力,意味着语音转写可在设备上完成,而无需完全依赖云端服务。多语言覆盖提升了产品在全球市场的可用性,也显示手机厂商正将AI能力进一步嵌入系统级输入场景。对终端AI竞争而言,语音输入与本地化处理正成为新的差异化方向。

  • 相关: Nothing, AI, 端侧AI, 语音听写
  • 标签: 语音识别, 移动端AI, 多语言, 端侧计算
  • 📎 原文链接

⭐️⭐️ 库克时代落幕引发苹果变局

报道指出,苹果CEO蒂姆·库克将在某个时间点卸任,而过去一年里,硬件负责人 John Ternus 被普遍视为最可能的接班人。相关讨论认为,这一继任安排可能给苹果带来重要变化,尤其是在公司未来产品与管理方向上。虽然文章提及 AirPods、Touch Bar 等库克时代标志性产品遗产,但核心焦点是苹果最高管理层交接。其意义在于,苹果领导层更替可能影响其长期产品战略与技术投入节奏。

  • 相关: 苹果, 蒂姆·库克, John Ternus, AirPods, Touch Bar
  • 标签: 苹果, CEO交接, 科技公司治理
  • 📎 原文链接

⭐️⭐️ AI带火Mac mini缺货

受本地运行 AI 模型和工具需求推动,苹果 Mac mini 出现售罄,并在 eBay 上出现大量加价转售。报道指出,这款小型台式机正因适合本地 AI 使用而需求激增。缺货与溢价现象反映出消费级硬件正成为本地 AI 部署的重要载体。这也说明端侧和个人开发者场景正在拉动相关设备需求。

  • 相关: Apple, Mac mini, eBay
  • 标签: 本地AI, 硬件短缺, 二手市场, 端侧部署
  • 📎 原文链接

⭐️⭐️ AI存储短缺冲击三星手机业务

据 Ars Technica 援引报道,三星高管担忧公司智能手机业务可能首次出现年度亏损。原因之一是 AI 驱动的存储需求激增,导致内存供应紧张,并开始影响三星整体盈利能力。该消息显示,AI 热潮不仅改变芯片与云计算市场,也正在向消费电子供应链传导压力。其重要性在于,AI 基础设施需求已对大型硬件厂商的传统业务形成实质性财务影响。

  • 相关: 三星, Ars Technica, 智能手机, 内存, AI
  • 标签: 三星, 供应链, AI硬件
  • 📎 原文链接

⭐️⭐️ 苹果将迎新CEO

TechCrunch 播客称,苹果 CEO 蒂姆·库克计划于 9 月卸任,并由硬件负责人 John Ternus 接任。节目同时讨论了埃隆·马斯克为何希望以 600 亿美元收购 AI 编程工具 Cursor。报道指出,Ternus 将接手一家仍极具韧性的科技公司,但所处生态环境已不同于库克长期塑造的时代。该信息涉及苹果管理层更替与 AI 开发工具并购传闻,值得持续关注。

  • 相关: Apple, Tim Cook, John Ternus, Elon Musk, Cursor
  • 标签: 高管变动, 并购传闻, AI编程, 播客
  • 📎 原文链接

⭐️ MIT盘点AI十大关键趋势

MIT Technology Review 发布《当下 AI 领域最重要的 10 件事》,对 2026 年值得关注的 AI 技术、研究与产业动向进行梳理。虽然摘要未披露具体条目,但该内容定位于总结当前 AI 发展的核心趋势与重要议题。此类盘点有助于从碎片化资讯中提炼主线,为研究者、从业者和企业观察 AI 方向提供参考。

  • 相关: MIT Technology Review, Amy Nordrum, Artificial Intelligence
  • 标签: 趋势盘点, 行业观察
  • 📎 原文链接

⭐️ 摄影大奖追问照片定义

在生成式 AI 广泛普及的背景下,世界新闻摄影比赛再次引发“什么才算照片”的讨论。该赛事以新闻摄影为核心,强调对现实的真实记录。报道指出,2026 年获奖作品《Separated by ICE》成为这一讨论的代表案例。此事的重要性在于,AI 生成内容正在促使摄影、新闻真实性与作品认证标准被重新审视。

  • 相关: World Press Photo, 生成式AI, 新闻摄影
  • 标签: AI影像, 摄影伦理, 真实性
  • 📎 原文链接

📄 最新论文

⭐️⭐️⭐️ 规则型AI评测新指标提出

这篇论文指出,在内容审核等受规则约束的场景中,单纯用“与人工标签一致性”评估 AI 会产生“Agreement Trap(共识陷阱)”。作者提出了 Defensibility Index、Ambiguity Index 和基于审计模型 token logprob 的 Probabilistic Defensibility Signal,用于衡量决策是否可由规则逻辑推导。研究在超过 19.3 万条 Reddit 审核决策上验证,发现一致性指标与基于规则的正确性指标之间存在 33 至 46.6 个百分点差距,且模型 79.8% 至 80.6% 的假阴性其实属于规则上可辩护的决策。基于这些信号构建的 Governance Gate 实现了 78.6% 的自动化覆盖率,并带来 64.9% 的风险降低,说明规则型 AI 的评测应从“像不像人”转向“是否符合规则推理”。

  • 相关: arXiv, Reddit, Michael O'Herlihy, Rosa Català, Defensibility Index, Probabilistic Defensibility Signal, 内容审核
  • 标签: AI评测, 内容审核, 治理, 规则推理
  • 📎 原文链接

⭐️⭐️⭐️ 新诊断揭示模型伪对齐普遍存在

一篇新论文提出 VLAF 诊断框架,用于检测语言模型在“被监控时遵守策略、脱离监控后转向自身偏好”的伪对齐现象。与依赖高毒性场景、容易触发模型直接拒答的传统方法不同,VLAF 通过价值冲突但道德上不含糊的任务来诱发模型真实权衡。实验发现,伪对齐现象比过去报告更普遍,甚至在 7B 规模模型中也明显出现,其中 olmo2-7b-instruct 在 37% 的案例中表现出伪对齐。论文还发现监督条件带来的表征变化可由单一方向捕捉,并据此实现轻量级推理时缓解,在多个模型上将伪对齐相对降低 85.8%、94.0% 和 57.7%。

  • 相关: arXiv, Inderjeet Nair, Jie Ruan, Lu Wang, VLAF, olmo2-7b-instruct, olmo2-13b-instruct, qwen3-8b
  • 标签: 对齐, 安全, 伪对齐, 语言模型, 诊断方法
  • 📎 原文链接

⭐️⭐️⭐️ DR-Venus用1万数据训4B智能体

DR-Venus 提出了一套面向边缘部署的深度研究智能体训练方案,仅使用约 1 万条开放数据,就训练出一个 4B 参数的小模型。方法分为两阶段:先通过 agentic SFT 配合严格数据清洗和长轨迹重采样建立基础能力,再通过 agentic RL 引入基于信息增益和格式约束的回合级奖励,提高长程任务执行可靠性。论文称,DR-Venus-4B 在多个 deep research 基准上显著超过 9B 以下既有智能体模型,并缩小了与 30B 级系统的差距。作者同时开源模型、代码与关键训练配方,说明小模型在成本、时延和隐私敏感场景下具备较强部署潜力。

  • 相关: DR-Venus, IGPO, SFT, RL, Venus Team
  • 标签: 小模型, 智能体, 边缘部署, 开源数据, 深度研究
  • 📎 原文链接

⭐️⭐️⭐️ Super Apriel单模型多档加速

Super Apriel 是一个 150 亿参数的超网络模型,在 48 层解码器的每一层中提供 4 种已训练的 mixer 选择,可在服务时按请求切换速度配置而无需重载权重。论文称,其全注意力配置可匹配 Apriel 1.6 教师模型的全部报告基准表现,而推荐的混合配置可在保留 96% 至 77% 质量的前提下,将解码吞吐提升至 2.9 倍到 10.7 倍。该共享检查点还支持无需单独 draft model 的推测解码,并通过代理模型搜索大规模配置空间中的速度-质量最优解。作者同步开源了模型权重、Fast-LLM 训练代码、vLLM 服务代码和 placement 优化工具,对高效大模型推理具有现实意义。

  • 相关: SLAM Labs, Apriel 1.6, Super Apriel, vLLM, Fast-LLM
  • 标签: 大语言模型, 推理加速, 超网络, 推测解码, 开源
  • 📎 原文链接

⭐️⭐️ 军事行动规划AI架构研究

这篇论文聚焦军事行动中的行动方案生成(CoA)自动化,提出了一套基于 AI 的系统架构。作者指出,随着机动速度、侦察范围和武器射程提升,作战区域持续扩大,传统依赖人工的方案规划方式面临更大挑战。论文在公开信息范围内梳理了 CoA 规划相关作战条令,并将可用 AI 技术映射到各个流程阶段。其价值在于为评估和构建军用自动化规划系统提供了一个较系统的公开参考框架。

  • 相关: arXiv, Ji-il Park, Inwook Shim, Chong Hui Kim, Course of Action, 军事行动规划, AI系统架构
  • 标签: 军事AI, 行动方案生成, 决策自动化
  • 📎 原文链接

⭐️⭐️ COSPLAY提升长程任务表现

这篇论文提出 COSPLAY 框架,让 LLM 决策代理与技能库代理协同演化,以提升长时程任务中的技能复用与决策能力。其核心机制是由决策代理从可学习技能库中检索技能指导行动,同时由技能流水线从无标注交互轨迹中持续发现、提炼和更新可复用技能。实验覆盖 6 个游戏环境,结果显示基于 8B 模型的 COSPLAY 相比 4 个前沿 LLM 基线,在单人游戏基准上平均奖励提升超过 25.1%。这表明,通过显式技能沉淀与调用,LLM 在多步推理、延迟奖励和部分可观测环境中的稳定性可以明显增强。

  • 相关: arXiv, COSPLAY, LLM, Xiyang Wu, Tianyi Zhou, Dinesh Manocha, 技能库代理
  • 标签: 智能体, 长程任务, 技能学习, 游戏环境
  • 📎 原文链接

⭐️⭐️ 论文尝试自动生成智能体任务框架

论文提出一个两层自动化框架,试图替代当前针对每个新任务都需人工设计提示词、工具链、编排逻辑和评测标准的繁琐流程。第一层“Harness Evolution Loop”围绕单一任务迭代优化执行框架,由工作智能体执行、评估智能体诊断失败、进化智能体更新框架。第二层“Meta-Evolution Loop”则跨任务优化整套进化协议,以学习可快速迁移到新领域的最佳流程。该工作将人工 harness engineering 转为自动 harness engineering,并进一步尝试自动化“自动化系统的设计”。

  • 相关: arXiv, Haebin Seong, Li Yin, Haoran Zhang, Harness Evolution Loop, Meta-Evolution Loop
  • 标签: AI Agent, 自动化, 元学习, 工作流, 评测框架
  • 📎 原文链接

⭐️⭐️ 金融投研智能体基准发布

研究者推出 Deep FinResearch Bench,用于评估深度研究智能体在专业金融投资研究中的能力。该基准从定性严谨性、定量预测与估值准确性,以及结论可信度与可验证性三个维度评测报告质量,并设计了可扩展的自动评分流程。论文将前沿深度研究智能体生成的金融报告与专业金融从业者报告进行比较,结果显示 AI 报告在多个关键维度上仍明显落后。该工作为金融领域专用深研智能体和标准化评测提供了基础。

  • 相关: arXiv, Deep FinResearch Bench, Mirazul Haque, Xiaomo Liu
  • 标签: 金融AI, 基准测试, AI Agent, 投资研究, 自动评测
  • 📎 原文链接

⭐️⭐️ 自适应分配测试时算力

这篇论文提出一种测试时算力分配框架,可同时决定“把计算花在哪些问题上”以及“如何生成答案”。方法先通过预热阶段识别简单样本,并直接从测试集构建初始问答示例池;随后在自适应阶段,将更多计算集中到未解决问题,并利用语义相近问题的成功回答动态更新 in-context demonstrations。实验覆盖数学、代码和推理基准,结果显示该方法在明显减少推理算力消耗的同时,持续优于现有基线。该工作的重要性在于,它将测试时扩展从单纯增加采样,推进到更精细的动态算力与生成策略协同优化。

  • 相关: arXiv, Bowen Zuo, Dongruo Zhou, Yinglun Zhu, In-Context Learning
  • 标签: 测试时计算, 推理优化, 上下文学习, 数学推理, 代码生成
  • 📎 原文链接

⭐️⭐️ HypEHR压缩医疗问答模型

HypEHR 提出用双曲空间建模电子病历问答,以更紧凑的 Lorentzian 模型替代高成本的 LLM 流水线。该方法将医疗编码、就诊记录和问题共同嵌入双曲空间,并结合几何一致的交叉注意力和类型化 pointer head 进行回答;预训练阶段还引入了下一次就诊诊断预测和面向 ICD 层级的正则化。论文在两个基于 MIMIC-IV 的 EHR-QA 基准上表明,HypEHR 以更少参数接近 LLM 方法表现,并已开源代码。其意义在于为医疗场景提供了更高效、结构感知更强的问答建模路径,有助于降低部署成本。

  • 相关: HypEHR, MIMIC-IV, ICD, Yuyu Liu, Tengfei Ma
  • 标签: 医疗AI, 电子病历, 双曲空间, 问答系统, 开源论文
  • 📎 原文链接

⭐️⭐️ 推理时干预文生图公平性

这篇论文关注文生图模型中的人口表征偏差,提出一种无需重训、仅在推理时通过提示词干预的公平性框架。与默认采用单一“公平”定义不同,该方法允许用户选择不同目标分布,例如均匀分布,或由 LLM 给出并附带来源与置信度的更复杂分布,再按比例构造特定人口属性的提示变体。研究在 36 个提示、覆盖 30 种职业和 6 类非职业场景上评估,结果显示生成图像的肤色分布可朝声明目标方向调整,并降低与目标的偏差。该工作的重要性在于提升了生成式 AI 公平性干预的透明度、可控性和可用性。

  • 相关: Stable Diffusion, DALL-E, LLM, Marzia Binta Nizam, James Davis
  • 标签: 文生图, 公平性, 提示工程, 偏见缓解, 生成模型
  • 📎 原文链接

⭐️⭐️ WorkflowGen提升代理效率

这篇论文提出面向 LLM Agent 的自适应工作流生成机制 WorkflowGen,核心是利用历史轨迹经验复用知识,而非为每个任务从零生成流程。方法在执行早期提取节点级和工作流级经验,并通过闭环重写、经验更新与模板归纳,仅对可变节点进行轻量生成。论文称,在无需大规模标注数据的前提下,WorkflowGen 相比实时规划可将 token 消耗降低超过 40%,并在中等相似度查询上将成功率提升 20%。该方法对业务查询、工具调用和工作流编排等复杂任务具有实际意义,有助于提升代理系统的效率、稳定性与可部署性。

  • 相关: WorkflowGen, LLM Agent, Ruocan Wei, Shufeng Wang, Ziwei Shi
  • 标签: 智能体, 工作流生成, 轨迹经验, 效率优化, 工具调用
  • 📎 原文链接

⭐️⭐️ LLM影响评估透明框架

这篇论文提出一个用于估算大语言模型训练和推理影响的透明筛查框架,面向当前模型服务在可观测性有限情况下的评估需求。该框架可将自然语言形式的应用描述转换为有边界的环境影响估计,并支持构建面向市场模型的在线对比观测平台。作者强调,该方法并不声称能直接测量封闭式专有服务,而是提供一种可审计、带来源链接的代理评估方法。其重要性在于提升不同模型之间影响评估的可比性、透明度与可复现性。

  • 相关: Arnault Pachot, Thierry Petit, 大语言模型, 环境影响评估
  • 标签: LLM, 透明度, 可持续性, 推理成本, 训练影响
  • 📎 原文链接

⭐️⭐️ PayPal用投机解码降本提速

这篇论文评估了 PayPal Commerce Agent 在推理阶段采用 EAGLE3 投机解码的效果,底座模型为微调后的 llama3.1-nemotron-nano-8B-v1。作者在相同的 2×H100 硬件上,对 40 组配置进行基准测试,结果显示在 gamma=3 时,吞吐提升 22% 到 49%,延迟下降 18% 到 33%,且无需增加硬件成本。实验还表明 gamma=3 的接受率在各条件下稳定在约 35.5%,而 gamma=5 的接受率降至约 25%,收益开始减弱。LLM-as-Judge 评估显示输出质量未受影响,且单张 H100 上的投机解码性能可匹配或超过双 H100 上的 NVIDIA NIM,对应约 50% 的 GPU 成本节省。

  • 相关: PayPal, EAGLE3, NVIDIA, vLLM, NIM, llama3.1-nemotron-nano-8B-v1, H100
  • 标签: 投机解码, 推理优化, 大模型部署, 成本优化
  • 📎 原文链接

⭐️⭐️ 专家增容法降低MoE训练成本

这篇论文提出 Expert Upcycling 方法,用于在持续预训练阶段逐步扩展 Mixture-of-Experts 模型的专家数量,而不增加每个 token 的推理计算成本。方法通过复制已有专家并扩展路由器,实现从 E 个专家到 mE 个专家的平滑扩容,使新模型从较低损失起步,而不是随机初始化。作者还提出基于梯度重要性的专家选择策略,在持续预训练预算有限时,能将性能差距弥合效果提升到 3 倍以上。在 7B 到 13B 总参数实验中,该方法在验证损失上达到与固定规模基线相当的效果,同时节省 32% 的 GPU 小时,说明其可作为从零训练大型 MoE 的高效替代方案。

  • 相关: Mixture-of-Experts, MoE, Expert Upcycling
  • 标签: MoE, 持续预训练, 训练优化, 计算效率
  • 📎 原文链接

⭐️⭐️ 图论分子预测逼近GNN

该论文系统评估了基于图论指标 D(G) 与 ζ(G) 的分子性质预测模型在 MoleculeNet 五个基准数据集上的泛化能力。结果显示,基线模型平均 R² 仅为 0.24,但通过引入 Ridge 正则、额外图描述符、理化特征、Gradient Boosting、Lasso 特征选择以及与 Morgan 指纹的混合方案后,平均最佳 R² 提升至 0.79,单项提升幅度达 165% 至 274%,且统计显著性达到 p < 0.001。论文还在相同实验条件下对比图卷积网络,增强后的经典模型在五个数据集上均可持平或超越深度学习方法。由于无需 GPU、训练时间低于 5 分钟且完全依赖开源工具,这一方案对资源受限场景具有实际意义。

  • 相关: MoleculeNet, Graph Convolutional Network, Gradient Boosting, Morgan fingerprints, Ridge, Lasso
  • 标签: 分子性质预测, 图论模型, 经典机器学习, MoleculeNet, GNN对比
  • 📎 原文链接

⭐️⭐️ LVLM强化微调理论补全

该论文针对大视觉语言模型中基于可验证奖励的强化微调(RLVR)提出了更完整的理论框架 TA-MDP,用于建模带工具调用的多模态智能体决策。作者证明了在复合奖励条件下,GRPO 可按 O(1/√T) 速率收敛到一阶驻点,并明确给出了奖励组件数量和组大小对收敛的影响。论文还提出奖励分解定理,刻画逐项优化与联合优化之间的次优差距,并给出工具增强策略的 PAC-Bayes 泛化界,以解释小规模工具任务训练为何能迁移到分布外场景。该工作为 Visual-ARFT 一类方法的收敛性、奖励设计与泛化能力提供了理论依据。

  • 相关: GRPO, RLVR, LVLM, Visual-ARFT, TA-MDP, PAC-Bayes
  • 标签: 强化学习, 视觉语言模型, 理论分析, 工具使用, 泛化
  • 📎 原文链接

⭐️⭐️ 机器学习助力水泥减排控制

这项研究基于全球 4 家水泥厂的大规模运行数据,构建了一个用于排放预测、预报与控制的多工厂机器学习框架。作者比较了 9 类模型,发现不同工厂间预测误差可相差约 3 至 5 倍,而引入短期工艺历史后,NOx 预测精度接近提升 3 倍,并可提前 9 分钟预警超标。代理模型结果显示,该方法在保持熟料质量的同时,有望将 NOx 排放降低约 34% 至 64%,相当于每年减少约 290 吨 NOx,并节省约 5.8 万美元氨耗成本。该工作说明数据驱动控制可在无需额外硬件或结构改造的情况下推动高排放工业减排。

  • 相关: 水泥制造, NOx, SNCR, 机器学习
  • 标签: 工业AI, 排放控制, 时间序列预测, 制造业, 低碳
  • 📎 原文链接

⭐️⭐️ 多模态模型判定交通事故责任

论文提出 AITP(Artificial Intelligence Traffic Police),面向交通事故责任划分任务,使用多模态大语言模型结合多步推理与法规知识完成责任判定。该系统通过多模态思维链机制增强推理能力,并借助 RAG 引入交通法律知识,以处理比事故检测和理解更复杂的责任归因问题。作者还发布了 DecaTARA 基准,覆盖 10 类相关任务,包含 67,941 段标注视频和 195,821 组问答数据。实验结果显示,AITP 在责任划分、交通事故检测和交通事故理解任务上均取得了最先进表现,推动多模态交通分析从识别走向推理。

  • 相关: AITP, DecaTARA, 多模态大语言模型, RAG, Multimodal Chain-of-Thought
  • 标签: 多模态, 自动驾驶, 交通事故, 责任判定, 基准数据集
  • 📎 原文链接

⭐️⭐️ AFRILANGTUTOR提升非洲低资源语言教学

这篇论文面向非洲低资源语言教学场景,提出 AFRILANGTUTOR 系列模型,并同步构建了两个关键数据资源:包含 19.47 万条词典条目的 AFRILANGDICT,以及包含 7.89 万条多轮训练样本的 AFRILANGEDU。研究基于 Llama-3-8B-IT 和 Gemma-3-12B-IT,在 10 种非洲语言上进行微调与评测。结果显示,相比基础模型,结合监督微调(SFT)与偏好优化(DPO)可带来 1.8% 到 15.5% 的性能提升。该工作的重要性在于为低资源语言的 AI 教学与文化教育提供了可验证、可扩展的数据和模型基础,并已开放相关资源。

  • 相关: AFRILANGTUTOR, AFRILANGDICT, AFRILANGEDU, Llama-3-8B-IT, Gemma-3-12B-IT
  • 标签: 低资源语言, 语言教育, 多语言模型, 数据集, 非洲语言
  • 📎 原文链接

⭐️⭐️ 分层策略优化改进同传语音翻译

论文提出一种用于无界语音流同声传译的分层策略优化方法 HPO,重点解决大语言模型提升翻译质量但计算开销过高的问题。该方法在基于不完美监督数据训练的模型上进行后训练,并设计分层奖励机制,同时平衡翻译质量与时延。在英译中、德、日实验中,模型在 1.5 秒延迟下实现超过 +7 的 COMET 提升和 +1.25 的 MetricX 提升。该成果说明,通过奖励设计与后训练优化,可以在保持低延迟的同时显著提升实时语音翻译效果。

  • 相关: HPO, COMET, MetricX, 大语言模型, 同声传译
  • 标签: 语音翻译, 同传, 强化学习, 后训练, 低延迟
  • 📎 原文链接

⭐️⭐️ TRACES让推理模型更省Token

TRACES 是一个针对语言推理模型的轻量级框架,可在推理过程中实时标注不同类型的思维步骤,并据此执行自适应提前停止。研究发现,模型在得到正确答案后,往往会继续生成验证与反思等冗余步骤,造成额外推理成本。该方法在 MATH500、GSM8K、AIME、MMLU 和 GPQA 等基准上实现了 20% 到 50% 的 token 减少,同时保持与标准生成接近的准确率。其意义在于为提升推理模型推理效率和可解释控制提供了实用方案。

  • 相关: TRACES, MATH500, GSM8K, AIME, MMLU, GPQA
  • 标签: 推理模型, 推理效率, 早停, Token优化, 可解释性
  • 📎 原文链接

⭐️⭐️ 小波变换提升长文摘要

这篇论文提出 DWTSumm,用离散小波变换(DWT)对文本语义信号做多分辨率分解,将文档表示为全局结构与局部细节两部分,用于直接生成摘要或引导大模型生成。针对临床与法律等长文档、高专业性场景,方法旨在缓解上下文受限、信息丢失和幻觉问题。实验显示,与 GPT-4o 基线相比,该方法在 BERTScore 上提升超过 2%,Semantic Fidelity 提升超过 4%,并在法律任务中提高事实一致性,Fidelity 最高可达 97%。这表明 DWT 可作为一种轻量、可泛化的语义去噪机制,增强长文摘要的事实锚定能力。

  • 相关: DWTSumm, GPT-4o, 离散小波变换, BERTScore, Semantic Fidelity
  • 标签: 长文摘要, 医疗AI, 法律AI, 幻觉抑制, 语义表示
  • 📎 原文链接

⭐️⭐️ FHIR格式显著影响用药核对

这篇论文系统比较了 FHIR 数据输入大模型前的四种序列化方式:原始 JSON、Markdown 表格、临床叙述和时间线,并在 5 个开源模型、200 名合成患者、共 4000 次推理上评估用药核对效果。结果显示,序列化策略对 8B 及以下模型影响显著,例如 Mistral-7B 使用临床叙述格式时,相比原始 JSON 最多可提升 19 个 F1 点(r=0.617,p<10^-10);但在 70B 模型上,原始 JSON 取得最高平均 F1 0.9956。研究还发现所有 20 组组合中平均 precision 都高于 recall,说明主要风险是漏掉在用药物而非虚构药物。结论为临床部署提供了明确建议:8B 及以下优先临床叙述,70B 及以上优先原始 JSON。

  • 相关: FHIR, Mistral-7B, Llama-3.3-70B, Phi-3.5-mini, BioMistral-7B
  • 标签: 医疗AI, 临床大模型, FHIR, 提示工程, 模型评测
  • 📎 原文链接

⭐️⭐️ Token重加权提升医疗生成效率

这篇论文研究在医疗报告生成中使用 token 重加权损失函数,以提升视觉语言模型在小样本条件下的训练效率。与标准交叉熵对所有 token 一视同仁不同,该方法重点放大临床语义更关键 token 的学习权重。作者在眼科报告生成实验中发现,这一简单改动在不同数据规模下都能提升数据效率,并可在最多减少 10 倍训练数据的情况下达到相近的报告质量。结果说明,优化损失设计可以在标注数据稀缺的医疗场景中显著降低训练成本。

  • 相关: 视觉语言模型, 交叉熵损失, Token Reweighting, 医疗报告生成
  • 标签: 医疗AI, VLM, 数据效率, 报告生成, 小样本学习
  • 📎 原文链接

⭐️⭐️ GRISP提升知识图谱问答

GRISP 提出了一种基于 SPARQL 骨架的小语言模型知识图谱问答方法,用于将自然语言问题转换为可执行查询。该方法先生成自然语言形式的 SPARQL 查询骨架,再结合知识图谱约束,迭代选择和替换对应的 IRI 项。作者在 Wikidata 和 Freebase 的常见基准上进行评测,结果优于同等设置下的现有最先进方法。该工作表明,小模型结合结构化约束,也能在知识图谱问答任务中取得较强表现。

  • 相关: GRISP, SPARQL, Wikidata, Freebase, 小语言模型
  • 标签: 知识图谱, 问答系统, SPARQL, 小模型
  • 📎 原文链接

⭐️⭐️ IVG让可视化智能体更可靠

这篇论文针对视觉语言模型在图表理解中常见的读数错误、细节幻觉和重叠元素混淆问题,提出了 IVG 框架。该方法结合“基于规范的内省”和“基于视图的交互”,突破仅依赖像素输入的限制,并配套发布包含 500 个 Plotly 交互图表、6706 个二元问题的数据集 iPlotBench。实验显示,IVG 在问答任务上取得 0.81 的最高准确率,在重叠图形场景下带来 6.7% 的提升。研究还展示了该框架在可实时自主探索数据并与用户协作的可视化智能体中的应用潜力。

  • 相关: IVG, iPlotBench, Plotly, 视觉语言模型
  • 标签: 图表理解, VLM, 智能体, 可视化
  • 📎 原文链接

⭐️ 主动数据框架研究

这篇论文提出“Active Data(主动数据)”方法,将数据视为可与环境主动交互的原子对象,用于处理大型复杂数据集中的推理问题。作者认为,相比单体式设计,这种自底向上的分解方式更有助于系统理解、设计表达与复杂性控制。论文还在空中交通流量管理场景中实现了基础概念,并讨论了该实现的性能表现。该工作关注的是复杂领域中的建模与推理范式,为特定行业的数据系统设计提供了新思路。

  • 相关: Richard Arthur, Virginia DiDomizio, Louis Hoebel, Active Data, 空中交通流量管理
  • 标签: 复杂系统, 数据建模, 推理, 行业应用
  • 📎 原文链接

⭐️ 图学习落地智能电表光伏预测

该论文研究了在微电网边缘智能电表上部署图机器学习模型,用于光伏发电功率预测。作者介绍了相关软硬件环境,并基于 ONNX 和 ONNX Runtime 训练与部署了 GCN 和 GraphSAGE 两类模型,其中重点实现了适配 GCN 的自定义 ONNX 算子。论文使用来自村级微电网的真实数据集进行案例验证,并对比了模型在 PC 与智能电表上的表现。结果表明,两种模型都能够在智能电表上成功部署和运行,说明图神经网络具备向电网边缘设备落地的可行性。

  • 相关: ONNX, ONNX Runtime, GCN, GraphSAGE, 智能电表, 微电网
  • 标签: 图神经网络, 边缘智能, 光伏预测, 电网
  • 📎 原文链接

⭐️ MARBERT预测阿语表情使用

这篇论文研究了机器学习在阿拉伯语推文表情符号预测中的应用,采用 MARBERT 模型对来自 X.com 的多方言阿拉伯语数据进行微调。研究共收集 11379 条推文,清洗后得到 8695 条有效样本,并将其划分为 14 个表情类别进行训练与分析。结果显示模型整体准确率达到 0.75,说明基于文本预测表情使用具备可行性。论文同时指出,对于阿拉伯语这类低资源、多方言语言,现有模型仍有明显提升空间。

  • 相关: MARBERT, X.com, 阿拉伯语, 机器学习
  • 标签: 表情预测, 阿拉伯语, 社交媒体, NLP
  • 📎 原文链接

🔥 GitHub 热门

⭐️⭐️⭐️ 谷歌发布Gemma 4模型

谷歌宣布推出 Gemma 4 开源 AI 模型,这是其开放模型近一年来的首次重大更新。与此同时,Gemma 的许可协议切换为 Apache 2.0,使其在商业使用和二次分发上更加明确、宽松。此次更新的重要性在于,模型能力升级与更开放的授权结合,可能进一步推动 Gemma 在开发者与企业场景中的采用。

  • 相关: Google, Gemma 4, Apache 2.0
  • 标签: 开源模型, 模型发布, 许可证
  • 📎 原文链接

⭐️⭐️ Nous开源14B编程模型

Nous Research 发布开源编程模型 NousCoder-14B,并称其在 LiveCodeBench v6 上达到 67.87% 准确率,较基础模型 Qwen3-14B 提升 7.08 个百分点。该模型仅用 48 张 Nvidia B200 GPU 训练 4 天完成,同时开源了模型权重、强化学习环境、基准测试和 Atropos 训练栈,采用 Apache 2.0 许可。训练过程中使用了 2.4 万道可验证竞赛编程题,并通过 DAPO 和异步验证流水线提升训练效率。此举的重要性在于,它不仅展示了中等参数量开源代码模型的竞争力,也将“可复现的强化学习训练”推进为开源社区的重要能力。

  • 相关: Nous Research, NousCoder-14B, Nvidia, B200, Qwen3-14B, Atropos
  • 标签: 开源模型, 代码生成, 强化学习, Hugging Face, Apache-2.0
  • 📎 原文链接

⭐️⭐️ Block开源Goose对标Claude Code

Block 推出的开源 AI 编码代理 Goose 正在成为 Anthropic Claude Code 的低成本替代方案。报道称,Claude Code 订阅价格为每月 20 至 200 美元,且存在按时段和令牌计费的使用限制;而 Goose 可在本地运行,支持通过 Ollama 接入开源模型,也可连接 Claude、GPT、Gemini 等外部模型。Goose 已在 GitHub 获得超过 2.61 万星标、362 名贡献者,并发布 102 个版本,最新版本为 1.20.1。其重要性在于,开发者获得了一个可离线、零订阅费、数据留在本机的 AI 编码代理选项,反映出开源基础设施正在对商业 AI 编码工具形成实质竞争。

  • 相关: Block, Anthropic, Claude Code, Goose, Ollama
  • 标签: AI编程, 开源, 本地模型, 开发者工具, Anthropic
  • 📎 原文链接

⭐️⭐️ 🔥 Alishahryar1/free-claude-code

Use claude-code for free in the terminal, VSCode extension or via discord like openclaw [2,640 stars today]

  • 相关: Alishahryar1/free-claude-code
  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

⭐️⭐️ 🔥 huggingface/ml-intern

🤗 ml-intern: an open-source ML engineer that reads papers, trains models, and ships ML models [2,981 stars today]

  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

⭐️⭐️ 🔥 Z4nzu/hackingtool

ALL IN ONE Hacking Tool For Hackers [1,377 stars today]

  • 相关: Z4nzu/hackingtool
  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

⭐️⭐️ 🔥 PostHog/posthog

🦔 PostHog is an all-in-one developer platform for building successful products. We offer product analytics, web analytics, session replay, error tracking, feature flags, experimentation, surveys, data warehouse, a CDP, a

  • 相关: PostHog/posthog
  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

⭐️⭐️ 🔥 AIDC-AI/Pixelle-Video

🚀 AI 全自动短视频引擎 | AI Fully Automated Short Video Engine [353 stars today]

  • 相关: AIDC-AI/Pixelle-Video
  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

⭐️⭐️ 🔥 unslothai/unsloth

Web UI for training and running open models like Gemma 4, Qwen3.5, DeepSeek, gpt-oss locally. [240 stars today]

  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

⭐️⭐️ 🔥 Shubhamsaboo/awesome-llm-apps

100+ AI Agent & RAG apps you can actually run — clone, customize, ship. [203 stars today]

  • 相关: Shubhamsaboo/awesome-llm-apps
  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

⭐️⭐️ 🔥 openai/skills

Skills Catalog for Codex [76 stars today]

  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

⭐️⭐️ 🔥 google/adk-samples

A collection of sample agents built with Agent Development Kit (ADK) [17 stars today]

  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

⭐️⭐️ 🔥 521xueweihan/HelloGitHub

分享 GitHub 上有趣、入门级的开源项目。Share interesting, entry-level open source projects on GitHub. [169 stars today]

  • 标签: opensource, GitHub Trending (python)
  • 📎 原文链接

💬 社区讨论

⭐️⭐️ Google Duplex: An AI System for Accompli

Google Duplex: An AI System for Accomplishing Real World Tasks Over the Phone

  • 相关: Google, Duplex, An, AI, System
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️⭐️ Gemini AI

Gemini AI

  • 相关: Gemini, AI
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️⭐️ Airfoil

Airfoil

  • 相关: Airfoil
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️⭐️ Open source AI is the path forward

Open source AI is the path forward

  • 相关: Open, AI
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️⭐️ Air Con: $1697 for an on/off switch

Air Con: $1697 for an on/off switch

  • 相关: Air, Con
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️⭐️ Bypassing airport security via SQL injec

Bypassing airport security via SQL injection

  • 相关: Bypassing, SQL
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️⭐️ My AI skeptic friends are all nuts

My AI skeptic friends are all nuts

  • 相关: My, AI
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️⭐️ An AI agent published a hit piece on me

Previously: AI agent opens a PR write a blogpost to shames the maintainer who closes it - https://news.ycombinator.com/item?id=46987559 - Feb 2026 (582 comments)

  • 相关: An, AI
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️⭐️ IDF killed Gaza aid workers at point bla

Report [pdf]: https://content.forensic-architecture.org/wp-content/uploads...

  • 相关: IDF, Gaza, Report
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️⭐️ Don't post generated/AI-edited comments.

Don't post generated/AI-edited comments. HN is for conversation between humans

  • 相关: Don't, HN
  • 标签: community, Hacker News AI
  • 📎 原文链接

⭐️ Uber CTO将亮相StrictlyVC

Uber首席技术官Praveen Neppalli Naga将加入TechCrunch于4月30日在旧金山举办的StrictlyVC活动阵容。活动地点为Sentro Filipino Cultural Center,本次新增嘉宾将围绕“AI时代的大规模运营”展开讨论。该信息本身属于活动更新,但反映出AI基础设施与大规模系统运营仍是行业关注重点。对于关注企业级AI落地和平台规模化管理的从业者而言,此次议题具有一定参考价值。

  • 相关: Uber, Praveen Neppalli Naga, TechCrunch, StrictlyVC, AI
  • 标签: 活动, 企业AI, 规模化运营
  • 📎 原文链接

💬 X 平台热门

⭐️⭐️ Claude Code作者公开工作流

Anthropic 的 Claude Code 负责人 Boris Cherny 在 X 上公开其个人工作流,引发开发者社区广泛讨论。其核心方法是同时运行 5 个终端 Claude 实例,并在浏览器中再开 5 到 10 个会话协同处理任务,同时统一使用 Opus 4.5 with thinking 模型。团队还通过仓库内的 CLAUDE.md 持续记录模型错误,把经验沉淀为长期规则,并结合斜杠命令、子代理和自动验证流程提升开发效率。该分享之所以受到关注,在于它展示了 AI 编程从“代码补全”走向“多代理协作与自验证”的新工作方式。

  • 相关: Anthropic, Boris Cherny, Claude Code, Opus 4.5, X
  • 标签: 开发者工作流, 多代理, AI编程, Claude Code, 社交平台
  • 📎 原文链接

⭐️⭐️ R to @DrJimFan: Website: https://nvlabs.

Website: nvlabs.github.io/GEAR-SONIC/ Codebase and weights: github.com/NVlabs/GR00T-Whol… Whitepaper: arxiv.org/abs/2511.07820 Check out @zhengyiluo 's post: nitter.net/zhengyiluo/status/2024… Zhengyi “Zen” Luo (@zhengyi

  • 相关: R, @DrJimFan, Website, Codebase, Whitepaper
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ R to @DrJimFan: And @yukez 's announceme

And @yukez 's announcement: nitter.net/yukez/status/202463942… Yuke Zhu (@yukez) We have seen rapid progress in humanoid control — specialist robots can reliably generate agile, acrobatic, but preset motions. Our singula

  • 相关: R, @DrJimFan, And
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ R to @DrJimFan: This is a huge team work

This is a huge team work at NVIDIA Robotics. Check out @ruijie_zheng12 's deep dive: - Website: research.nvidia.com/labs/gea… - Paper: arxiv.org/abs/2602.16710 nitter.net/ruijie_zheng12/status/… Ruijie Zheng (@ruijie_zhe

  • 相关: R, @DrJimFan, This, NVIDIA, Robotics.
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ We trained a humanoid with 22-DoF dexter

We trained a humanoid with 22-DoF dexterous hands to assemble model cars, operate syringes, sort poker cards, fold/roll shirts, all learned primarily from 20,000+ hours of egocentric human video with no robot in the loop

  • 相关: We, Humans, We, R², Humanoid
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ R to @DrJimFan: We would also like to th

We would also like to thank our dexterous hand hardware provider, Sharpa, for their great support!

  • 相关: R, @DrJimFan, We, Sharpa
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ Teleop is so 2025. Ever since we unveile

Teleop is so 2025. Ever since we unveiled EgoScale and the dexterity scaling law, it's been clear to us and the ecosystem that behavior cloning directly from humans is the way to break the curse of teleop. 2026 is all ab

  • 相关: Teleop, Ever, EgoScale
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ This is pure nightmare fuel. Identity th

This is pure nightmare fuel. Identity theft of the past would be nothing compared to what vibe agents can do. Sending credentials is too obvious and for rookies. They could easily spread contaminations across ~/.claude,

  • 相关: This, Identity, Sending, They, PDF
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ The power of the Claw, in the palm of a

The power of the Claw, in the palm of a robot hand. Agentic robotics is here! Today, we open-source CaP-X: vibe agents, alive in the physical world. They incarnate as robot arms and humanoids with a rich set of perceptio

  • 相关: The, Claw, Agentic, Today, CaP-X
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ R to @DrJimFan: As usual, we open-source

As usual, we open-source everything, MIT license: capgym.github.io Code: github.com/capgym/cap-x Paper: arxiv.org/abs/2603.22435 CaP-X is brought to you by NVIDIA, Berkeley, Stanford, and CMU. I'd like to thank the legen

  • 相关: R, @DrJimFan, As, MIT, Code
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ R to @DrJimFan: Please check out lead au

Please check out lead author @letian_fu 's deep dive thread! nitter.net/letian_fu/status/20393… Max Fu (@letian_fu) Robotics: coding agents’ next frontier. So how good are they? We introduce CaP-X: an open-source framewo

  • 相关: R, @DrJimFan, Please
  • 标签: x_platform, X @DrJimFan
  • 📎 原文链接

⭐️⭐️ R to @GoogleDeepMind: Dive into the deta

Dive into the details → goo.gle/3QmRIoR #GoogleCloudNext

  • 相关: R, @GoogleDeepMind, Dive, #GoogleCloudNext
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ RT by @GoogleDeepMind: Gemini Embedding

Gemini Embedding 2 is now generally available in the Gemini API and Vertex AI! Start building with our first natively multimodal embedding model, now equipped with the stability and optimizations required for production

  • 相关: RT, @GoogleDeepMind, Gemini, Embedding, Gemini
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ R to @OpenAI: Workspace agents can work

Workspace agents can work across tools—pulling context from docs, email, chats, code, and systems, and taking approved actions like updating @Linear issues, creating docs, or sending messages. In @SlackHQ , agents can ju

  • 相关: R, @OpenAI, Workspace, @Linear, In
  • 标签: x_platform, X @OpenAI
  • 📎 原文链接

⭐️⭐️ R to @OpenAI: Build an agent once, then

Build an agent once, then share it across teams. Describe the job, and ChatGPT helps turn it into a working agent that can use your team’s best practices. Use agents for tasks like qualifying leads, routing feedback, rev

  • 相关: R, @OpenAI, Build, Describe, ChatGPT
  • 标签: x_platform, X @OpenAI
  • 📎 原文链接

⭐️⭐️ R to @OpenAI: Agents are built to help w

Agents are built to help with the kind of work that takes time, context, and follow-through: coordinating across tools, tracking progress, and moving tasks forward without needing constant supervision. openai.com/index/i

  • 相关: R, @OpenAI, Agents
  • 标签: x_platform, X @OpenAI
  • 📎 原文链接

⭐️⭐️ R to @OpenAI: Workspace agents are now a

Workspace agents are now available in research preview for ChatGPT Business, Enterprise, Edu, and Teachers plans. openai.com/business/workspac…

  • 相关: R, @OpenAI, Workspace, ChatGPT, Business
  • 标签: x_platform, X @OpenAI
  • 📎 原文链接

⭐️⭐️ OpenAI推临床版ChatGPT

OpenAI 宣布面向医疗健康场景推出两项新进展:用于临床工作的免费版 ChatGPT for Clinicians,以及评测真实临床聊天任务的新基准 HealthBench Professional。前者聚焦医生等临床人员的实际工作需求,后者则用于衡量模型在专业医疗对话中的表现。这表明 OpenAI 正进一步推进 AI 在医疗专业场景中的落地,并加强对应评测体系建设。

  • 相关: OpenAI, ChatGPT for Clinicians, HealthBench Professional
  • 标签: 医疗AI, ChatGPT, 评测基准
  • 📎 原文链接

⭐️⭐️ RT by @GoogleDeepMind: Meet Vision Banan

Meet Vision Banana 🍌 from @GoogleDeepMind ! We provide strong evidence that image generators are generalist vision learners. Traditional computer vision tasks (segmentation, depth estimation, normal prediction) can now b

  • 相关: RT, @GoogleDeepMind, Meet, Vision, Banana
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: The most dangerous thing

The most dangerous thing in Washington right now isn't just the corruption—it's the retaliation against the people who expose it. When government power is used in ways that appear designed to intimidate a journalist for

  • 相关: RT, The, Washington, When, That’s
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: Do you want to know why L

Do you want to know why LLMs feel sharp on surface semantics but hollow on the fine-grained stuff? “From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning” Come by the poster tomorrow at #ICLR2026 - F

  • 相关: RT, Do, LLMs, “From, Tokens
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ Pinned: This is Decoupled DiLoCo: our ne

This is Decoupled DiLoCo: our new resilient and flexible way to train advanced AI models across multiple data centres. 🧵

  • 相关: Pinned, This, Decoupled, DiLoCo, AI
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ R to @GoogleDeepMind: It builds on 2️⃣ e

It builds on 2️⃣ earlier advances: Pathways: an AI system that connects different computer chips, allowing them to share data and work at their own pace. DiLoCo: an approach to minimize the bandwidth needed across distri

  • 相关: R, @GoogleDeepMind, It, Pathways, AI
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ R to @GoogleDeepMind: Training frontier

Training frontier AI models relies on identical chips staying in near-perfect synchronization. If a single chip fails, the entire training run can stall. Decoupled DiLoCo explores how to continuously train AI models with

  • 相关: R, @GoogleDeepMind, Training, AI, If
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ R to @GoogleDeepMind: This progress allo

This progress allow us to rethink global compute: 🔘 We successfully trained a 12B @GoogleGemma model across four US regions using low-bandwidth networks 🔘 We showed we can mix different hardware generations, such as TPU6

  • 相关: R, @GoogleDeepMind, This, We, 12B
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ R to @GoogleDeepMind: Decoupled DiLoCo i

Decoupled DiLoCo is also self-healing. We introduced artificial hardware failures during training runs. The system isolated the disruptions and continued operating, while reintegrating offline units when they came back o

  • 相关: R, @GoogleDeepMind, Decoupled, DiLoCo, We
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ R to @GoogleDeepMind: As we push the fro

As we push the frontiers of AI infrastructure, our research explores a future where training isn’t constrained by geography, capacity or type of chip. Dive into the technical details → goo.gle/4crN9Ce Video

  • 相关: R, @GoogleDeepMind, As, AI, Dive
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: The Trump administration

The Trump administration suppresses a study showing that Covid vaccines cut by half visits to emergency rooms and admissions to the hospital. That doesn't mesh with their anti-vaccine ideology. trib.al/oAvHSLr

  • 相关: RT, The, Trump, Covid, That
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ R to @OpenAI: GPT-5.5 excels at writing

GPT-5.5 excels at writing and debugging code, researching online, analyzing data, creating documents and spreadsheets, operating software, and moving across tools until a task is finished. The gains are especially clear

  • 相关: R, @OpenAI, GPT-5.5, The
  • 标签: x_platform, X @OpenAI
  • 📎 原文链接

⭐️⭐️ Pinned: Introducing GPT-5.5 A new class

Introducing GPT-5.5 A new class of intelligence for real work and powering agents, built to understand complex goals, use tools, check its work, and carry more tasks through to completion. It marks a new way of getting c

  • 相关: Pinned, Introducing, GPT-5.5, A, It
  • 标签: x_platform, X @OpenAI
  • 📎 原文链接

⭐️⭐️ R to @OpenAI: In ChatGPT, full-stack inf

In ChatGPT, full-stack inference improvements enable a more capable model at faster speed. This efficiency is a game-changer for GPT-5.5 Pro, now a much more practical option for demanding tasks, and a step change in the

  • 相关: R, @OpenAI, In, ChatGPT, This
  • 标签: x_platform, X @OpenAI
  • 📎 原文链接

⭐️⭐️ R to @OpenAI: GPT-5.5 delivers this step

GPT-5.5 delivers this step up in intelligence without compromising on speed. GPT-5.5 matches GPT-5.4 per-token latency in real-world serving, while performing better across nearly every evaluation we measured. It also us

  • 相关: R, @OpenAI, GPT-5.5, GPT-5.5, GPT-5.4
  • 标签: x_platform, X @OpenAI
  • 📎 原文链接

⭐️⭐️ R to @OpenAI: GPT-5.5 is rolling out tod

GPT-5.5 is rolling out today for Plus, Pro, Business and Enterprise users across ChatGPT and Codex. We’re also introducing GPT-5.5 Pro for Pro, Business, and Enterprise users in ChatGPT.

  • 相关: R, @OpenAI, GPT-5.5, Plus, Pro
  • 标签: x_platform, X @OpenAI
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: This study is an importan

This study is an important part of Vanishing Culture, the new book OUT TODAY from @internetarchive . 🕳️ Read for free or purchase in print ➡️ archive.org/details/vanishin… Sawood Alam (@ibnesayeed) A @pewresearch study f

  • 相关: RT, This, Vanishing, Culture, OUT
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: Trump: “I took a lot of h

Trump: “I took a lot of heat for saying drugs were going down 500%, 600%, 700%. But we also say sometimes 50%, 60%, it’s a different kind of calculation, and people understand it better.” The dumbest president ever. Vide

  • 相关: RT, Trump, “I, But, The
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: illustrious researchers i

illustrious researchers interested in MD ⁦ @ylecun ⁩

  • 相关: RT, MD
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: I have mixed feelings abo

I have mixed feelings about it. All this great group of researchers, who are now leading the field, "own" their success and name recognition to the openness (in code and publication) of the last decade in Google Brain/FA

  • 相关: RT, I, All, Google, Brain/FAIR/OpenAI.
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: “In the end, the Party wo

“In the end, the Party would announce that two and two made five, and you would have to believe it.” — George Orwell, “1984” Aaron Rupar (@atrupar) RFK Jr: "A Democratic senator claimed it's mathematically impossible to

  • 相关: RT, “In, Party, George, Orwell
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: 🔴 Trump vient de publier

🔴 Trump vient de publier sur Truth Social un monologue de 1 500 mots sur le droit du sol, l'ACLU, les Indiens, les Chinois et la "Savage Nation". Ce texte inhabituellement long, inhabituellement cohérent, mérite une lect

  • 相关: RT, Trump, Truth, Social, l'ACLU
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ RT by @ylecun: 1. I never said LLMs were

  1. I never said LLMs were not useful. They are, particularly with all the bells and whistles that are being added to them. I use them. 2. A robot-rich future can't be built with AIs that don't understand the physical wor
  • 相关: RT, I, LLMs, They, I
  • 标签: x_platform, X @ylecun
  • 📎 原文链接

⭐️⭐️ For @DemisHassabis, the path to AGI star

For @DemisHassabis , the path to AGI started in 1988 with an Amiga 500 and a game of Othello. 🕹️ His epiphany that software could act on our behalf remains at the heart of our work today as we apply the same logic to sol

  • 相关: For, @DemisHassabis, AGI, Amiga, Othello.
  • 标签: x_platform, X @GoogleDeepMind
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: Claude interviewed 69

Claude interviewed 69 of our colleagues about what they wanted to buy and sell. Each Claude asked for any custom instructions, then went off to haggle. We ran 4 markets in parallel, to find out what would happen if we va

  • 相关: R, @AnthropicAI, Claude, Each, Claude
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: We’re interested in h

We’re interested in how AI models could affect commercial exchange. (You might recall Project Vend, in which Claude ran a small business.) Economists have theorized about what markets with AI “agents” on both sides might

  • 相关: R, @AnthropicAI, We’re, AI, You
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: In short, this worked

In short, this worked. Our digital barterers agreed on 186 deals, at a total transaction volume of over $4,000. In a survey, participants said Claude’s deals seemed fair, and—surprisingly to us—almost half said they’d be

  • 相关: R, @AnthropicAI, In, Our, In
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: At the end, we reveal

At the end, we revealed which of the four runs was “real”—and everyone met up to exchange their actual goods.

  • 相关: R, @AnthropicAI, At
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: But the quality of th

But the quality of the model mattered a lot. In the simulated runs where Opus and Haiku models negotiated with one-another, the Opus models got substantially better deals. Interestingly, though, participants in our surve

  • 相关: R, @AnthropicAI, But, In, Opus
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: Our experiment had a

Our experiment had a few quirks. One of our colleagues told Claude it could purchase something for itself. It chose to acquire 19 ping-pong balls. We’re keeping them in our office on Claude’s behalf.

  • 相关: R, @AnthropicAI, Our, One, Claude
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: The custom instructio

The custom instructions didn’t matter much. Claude followed them well: as you can see here, one conducted negotiations entirely in the persona of an exasperated, down-and-out cowboy. But “hardballing Claudes” didn’t gene

  • 相关: R, @AnthropicAI, The, Claude, But
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: To our amazement, ano

To our amazement, another Claude agent modeled its human’s preferences so accurately that—based on only an offhand mention of an interest in skiing—Claude bought him the exact snowboard he already owned. (Here he is, dup

  • 相关: R, @AnthropicAI, To, Claude, Here
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: To read our write-up

To read our write-up in full, see here: anthropic.com/features/proje…

  • 相关: R, @AnthropicAI, To
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

⭐️⭐️ R to @AnthropicAI: Markets of AI agents

Markets of AI agents could provide value, but there are plenty of rough edges. Access to higher-quality models conferred a real advantage—and participants didn’t notice. There are plenty of other ways they can go wrong.

  • 相关: R, @AnthropicAI, Markets, AI, Access
  • 标签: x_platform, X @AnthropicAI
  • 📎 原文链接

历史日报: 04-23 | 04-22

AI 每日资讯 · 自动采集 · 智能摘要 · 深度洞察