【GitHub Trending】
- JimLiu/baoyu-design: Run Claude Design locally as an Agent Skill — Cursor, Claude Code & more. Produce polished UI mockups, prototypes, decks & wireframes as self-contained HTML, without claude.ai/design. Best with Opus 4.8..
- tastyeffectco/sandboxd: Self-hosted dev sandboxes with preview URLs. One command. No Kubernetes, perfect for coding agents and Saas factories.
- amElnagdy/guard-skills: Guard skills for coding agents, quality gates that catch AI-generated failure modes in code, tests, and docs.
- razr001/align-dev: AlignDev helps AI-assisted frontend teams generate shared coding standards and SKILL.md so Claude Code, Codex, Cursor, Copilot, and other agents write consistently..
- CWS6206/ai-coding-starter-kit: Kuratierte Agent Skills, Checklisten, Templates und Leitfäden für Schweizer Entwicklungsteams – direkt aus meinen Blog-Artikeln destilliert..
- FerroxLabs/wayland: Wayland – The AI Agent That Perceives. Reasons. Acts. Evolves..
- cellebrite-labs/ghidra-rpc: A Ghidra agentic reverse engineering skill..
- adamallcock/codex-chatgpt-control: Unofficial SDK for Codex agents controlling visible ChatGPT web sessions.
- Forlives/21-day-self-interview: 🪞 An AI existential-psychology counselor asks you 3 meaningful questions every night for 21 days — and remembers, reflecting your own words back to you. Bilingual zh/en. A Hermes Agent skill. 每晚三个问题,一面慢慢显影的镜子。.
- TwoSevenOneT/EDRChoker: A tool uses the QoS Policy (Pacer.sys) to throttle Endpoint Detection and Response (EDR) agents from connecting to the server..
- 12britz/awesome-free-models: A curated list of free AI models, APIs, and tools you can use without paying a cent..
- xevrion-v2/agent-playground: N/A.
趋势洞察
本周 AI 新闻焦点集中在智能体(Agent)的安全性与能力边界两大议题。OpenAI 宣布将 ChatGPT 从”聊天机器人”全面转型为”超级智能体”,同时推出”封锁模式”防范提示注入攻击——这表明 Agent 安全已成为行业首要关切。Perplexity 推出”搜索即代码”架构,让 AI agent 自主编写搜索流程,在 token 效率上大幅领先。软银孙正义则指出 AI 自主迭代闭环已初步建成,这预示 Agent 的自主进化能力正在从理论走向现实。
启发
Agent 已经从”能做什么”进入”能安全地做多少”的新阶段。安全与能力的博弈将成为未来几年的主旋律。Perplexity 的”搜索即代码”架构提供了一种新思路:与其给 agent 固定的工具集,不如让 agent 自主编写搜索逻辑——这种灵活性正是 Agent 区别于传统 AI 应用的核心价值。
【PrimeScope News】
OpenAI 称”聊天已死”,计划将 ChatGPT 重建为成熟的智能体应用
OpenAI 正计划对 ChatGPT 进行自发布以来最大规模的改造。该聊天机器人将成为一个集成了编程工具、AI 智能体以及 Canva 和 Booking.com 等合作伙伴应用的”超级应用”。公司内部认为”聊天已死”,未来属于能够自主处理任务的智能体。
拒绝数据被偷!ChatGPT 紧急上线”封锁模式”,宁可断网也要保安全
OpenAI 为所有 ChatGPT 已登录用户推出名为”封锁模式”的可选安全功能。开启后,ChatGPT 将主动限制其联网浏览、深度研究、智能体模式等涉及外部网络请求的核心能力,以防范提示注入攻击导致数据外泄。该模式下系统主要依赖缓存网页,会影响搜索完整性和文件下载。此举将功能与安全的权衡选择权交给了用户和管理员。
Perplexity 推出”搜索即代码”架构,让 AI 智能体自主编写搜索管道
Perplexity 发布名为”搜索即代码”的新架构,允许 AI 模型用 Python 代码动态构建自定义搜索流程。其分为模型层、安全沙箱和智能搜索 SDK 三层,使智能体能并行查询、编程式过滤信息,提炼关键结果以保持长任务连贯性。在网络安全 CVE 漏洞追踪测试中,该系统节省了85%的 Token 消耗,并在多项内部基准测试中性能显著领先。该功能已在其 Perplexity Computer 和。
AI 自主迭代闭环已成?孙正义断言超级智能两年内引爆科技临界点
近日,软银集团CEO孙正义大幅修正对超级人工智能(ASI)落地时间的预测,断言其将在未来两年内到来。他透露,在与OpenAI团队交流后获悉,AI自主迭代的闭环已初步建成,模型可独立设计并训练下一代模型,实现”递归自我迭代”,引发指数级智能爆发。报道提及,Anthropic平台超80%代码由Claude AI自主编写,OpenAI的GPT-5.3-Codex模型也已实现实质性的自我迭代。同时,这一趋。
奥特曼欲交投名状!白宫计划入股 OpenAI
据报道,OpenAI 首席执行官山姆·奥特曼与美国参议员会面,讨论将美国最大 AI 公司 50% 所有权股份转移给公众的方案。此举被视为对 AI 担忧和”全民共享”呼声的回应,但分析认为这也可能使政府成为股东,从而在监管中面临利益冲突,形成一种”监管免疫”。事件背景是美国社会对 AI 的广泛焦虑及政界关于 AI 国有化的讨论。
谷歌 Gemini 遭”投毒”!新型漏洞曝光:黑客发条隐藏信息就能远程控车、控房
安全公司 SafeBreach 披露了谷歌 Gemini 语音助理的一个严重安全漏洞。黑客可利用 WhatsApp 或短信发送特殊构造的通知信息,通过”多语言混淆”或”静音超链接”隐藏恶意指令,这种”伪上下文对齐”攻击能绕过安全机制。用户一旦收到并互动,Gemini 会在其无意识状态下被”越狱”,误判授权,可能导致智能家居设备被远程控制或联系人信息被篡改。谷歌已收到报告并进行了紧急修复。
告别空间焦虑!Chrome 149 正式版全面开放 AI 管理,一键清除 4GB 本地模型
谷歌 Chrome 149 正式版为所有用户全面开放设备端 AI 管理功能。此前,浏览器会反复自动下载约 4GB 的本地 AI 模型用于文本撰写和钓鱼检测,占用硬盘空间且无法彻底删除。新版在设置中加入了独立的控制开关,用户可一键禁用该功能,浏览器将停止下载并自动清理本地已缓存的模型文件,解决了多版本安装场景下的空间浪费问题。
趋势洞察
本周 AI 新闻焦点集中在智能体(Agent)的安全性与能力边界两大议题。OpenAI 宣布将 ChatGPT 从”聊天机器人”全面转型为”超级智能体”,同时推出”封锁模式”防范提示注入攻击——这表明 Agent 安全已成为行业首要关切。Perplexity 推出”搜索即代码”架构,让 AI agent 自主编写搜索流程,在 token 效率上大幅领先。软银孙正义则指出 AI 自主迭代闭环已初步建成,这预示 Agent 的自主进化能力正在从理论走向现实。
启发
Agent 已经从”能做什么”进入”能安全地做多少”的新阶段。安全与能力的博弈将成为未来几年的主旋律。Perplexity 的”搜索即代码”架构提供了一种新思路:与其给 agent 固定的工具集,不如让 agent 自主编写搜索逻辑——这种灵活性正是 Agent 区别于传统 AI 应用的核心价值。
arXiv Papers】
1. Declarative Skills for AI Agents in Knowledge-Grounded Tool-Use Workflows
该论文提出了一种声明式技能框架,用于知识 grounding 的 AI agent 工具使用工作流。相比传统指令式方法,声明式方法允许 agent 自主规划工具调用序列,提高复杂推理任务中的工具选择准确率。论文通过多个基准测试验证了该方法的有效性,展示了在减少冗余工具调用方面的优势。。
📎 arXiv: https://arxiv.org/abs/2606.06923
2. Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning
论文探索了通过不确定性对齐的强化学习来优化 agent 的工具调用决策。研究指出,当前大模型在进行工具调用时往往缺乏对自身不确定性的量化,导致过度或不足的工具使用。该方法通过将不确定性估计与策略梯度结合,使 agent 能在不确定时保持沉默、确定时果断调用工具,显著提升了决策质量。。
📎 arXiv: https://arxiv.org/abs/2606.06976
3. DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning
DuMate-DeepResearch 是一个可审计的多 agent 系统,专用于深度研究任务。系统采用递归搜索策略,多个 agent 角色(检索、分析、验证)协同工作,每一步操作都可追溯和审计。这在解决需要大量信息聚合和交叉验证的研究场景中展现了独特的优势。。
📎 arXiv: https://arxiv.org/abs/2606.07299
4. OpenSkill: Open-World Self-Evolution for LLM Agents
OpenSkill 提出了一种开放世界自我进化机制,使 LLM agent 能够在没有人工干预的情况下持续改进自身技能。该框架允许 agent 从使用体验中提取反馈,自动更新技能描述和触发条件,形成了一个正向反馈循环,为解决 agent 技能泛化和持续学习问题提供了新思路。。
📎 arXiv: https://arxiv.org/abs/2606.06741
5. AdMem: Advanced Memory for Task-solving Agents
AdMem(Advanced Memory)专为任务解决型 agent 设计了高级记忆系统。该工作系统性地分析了 agent 在不同任务长度和复杂度下的记忆需求,提出了层次化记忆架构——工作记忆处理短期上下文,长期记忆存储可检索知识,元记忆优化信息重要性评估。实验表明,AdMem 在需要多轮推理的复杂任务上表现显著提升。。
📎 arXiv: https://arxiv.org/abs/2606.06787
论文趋势洞察
本周 arXiv cs.AI 领域的 AI Agent 研究聚焦三大方向:一是工具使用决策优化——两篇论文分别从声明式技能和不确定性对齐角度探索 agent 如何更高效地选择和使用工具;二是多 agent 系统架构——DuMate 展示了可审计的多 agent 协同框架,适合需要结果可追溯的研究场景;三是agent 自我进化与记忆——OpenSkill 和 AdMem 分别从技能自主演进和层次化记忆角度解决 agent 长期能力增长问题。整体趋势显示,agent 研究正从”能不能用”转向”如何用得好”。
启发
Agent 工具使用决策的自我优化是近期最重要的研究方向。无论是声明式技能框架还是不确定性对齐强化学习,都在试图解决同一个核心问题:agent 什么时候该调用工具、什么时候该保持沉默。这可能是当前 LLM agent 最大的技术瓶颈之一。与此同时,agent 记忆和自进化机制的研究加速推进,预示着未来 agent 系统将具备持续学习和自我改进的能力——这将为 Agent 从”工具”走向”自主体”铺平道路。

