

天下苦 PPT 久矣。
体验过市面上万般 AI 生成 PPT 器具的东说念主,每每皆会碰到相通的痛点:排版崩坏、内容空匮、经不起磋商。 为什么会这么?因为当今的通用谣言语模子(LLM)写 PPT,本色上是在对话框里 “盲写” 代码或文本。它们既莫得信得过的 “手” 去查阅泰斗文件,也莫得信得过的 “眼睛” 去凝视我方排版出来的最终效用。
近日,中国科学院软件蓄意所汉文信息处理实验室开源了第二代 PPTAgent -- DeepPresenter。这是业界初次将幻灯片智能体模子与完整的智能体沙箱环境一同开源,更能支柱在单张 3090/MAC 上一键部署。它透顶重构了 AI 制作 PPT 的逻辑,让智能体不仅能 “深度探索”,还能 “亲眼所见”。

GitHub 相接: https://github.com/icip-cas/PPTAgent
HuggingFace相接: https://huggingface.co/collections/ICIP/deeppresenter
论文相接: https://arxiv.org/abs/2602.22839
中枢破局点:给智能体装上 “眼睛” 与 “手”
DeepPresenter 灭亡了传统的 “话语模子平直生成” 旅途,而是将智能体置入了一个全功能的 Docker 沙箱环境(Shared Agent Environment)中,平直切中当今 AI 办公的两大痛点:
痛点一:内容全是 “车轱辘话” 和幻觉?
处治:构建弘大的智能体环境,赋予其蓄意和阅读的 “手”。
在 DeepPresenter 中,智能体手抓 20+ 种专科器具。它不仅能通过 MinerU 深度贯通复杂的 PDF 文件,还能及时聚积 arXiv 和 Google Scholar 进行班班可考的深度调研(DeepResearch),甚而不错平直开动 Python 代码来绘图数据图表,确保 PPT 内容的专科度与数据准确性。

痛点二:排版远大、翰墨挡图?
处治:环境感知反念念机制(Environment-Grounded Reflection),给它加上 “眼睛”。
以往的模子不知说念我方生成的排版长什么样。而 DeepPresenter 造成了一套 “写→看→改” 的视觉闭环。Presenter 智能体每写完一页代码,皆会调用沙箱内的浏览器将其渲染成真是图片,然后 “亲眼” 检讨这张截图。标题被挡住了?对比度不够?它会像东说念主类想象师一样立即进行自恰当调度并回炉重造,直到视觉效用完好。

案例演示
只需一排极其苟简的教导,即可体验这种全新的 Agentic 使命流:
接纳教导后,DeepPresenter 会立即启动:Researcher 在自动检索相干的相干府上和高清图片;随后交棒给 Presenter,凭据呈现主题想象特地的作风,最终输出一份内容塌实、神态细巧的幻灯片。

帮我作念一个小米 SU7 的 PPT

制作一份4:3幻灯片,以好意思国解脱漫画师视角共享创作《超等战队》与《假面骑士》同东说念主作品的实用手段,涵盖贯穿原作、发展作风、捕捉扮装、编写故事及斥地粉丝社群

帮我作念一份对于罗宾汉(Robin Hood)的先容 PPT,靠谱的滚球app中国官网包含历史配景、传说故事和文化影响。
更遑急的是,扫数生成内容均为 .pptx 可剪辑顺次,支柱解脱修改与二次创作,透顶开脱肖似 nanobanana 那样 “生成后无法剪辑” 的困扰,让 PPT 创作信得过可控、高效、无邪。

中枢工夫:如何真金不怕火成 “最强 PPT 智能体”?
DeepPresenter 之是以能以 9B 参数竣工 “下克上”,中枢在于其鼎新的检会活水线(Pipeline):

1. 数据构建:团队基于 PersonaHub 与 arXiv 等多源数据集构建了高万般性的任务数据。通过在教导中显式界说页数端正、长宽等到话语战略等细粒度持续条款,确保模子在检会阶段即斥地了对复杂费户意图的深度语义表征。
2. 外皮考据劝诱:为了龙套智能体 “自我嗅觉细致” 的考据偏差(Self-verification Bias),团队引入了寂寞评审机制。在检会数据合成阶段,由寂寞模子看成 “寂寞评估者” 指出身成居品中的排版或逻辑颓势,劝诱智能体产生高质地的践诺轨迹
3. 多级轨迹过滤:团队从 1,152 个任务中筛选出 802 条顶级质地的智能体轨迹进行 SFT 检会。这些轨迹涵盖了中英双语、多种宽高等到复杂的教导持续。
性能实测:消耗级显卡下的极限发挥
为了全面考据 DeepPresenter 的履行效用,作家在预留的 128 个任务上使用 PPTEval 进行了系统评测,并与三种主流幻灯片生成决策进行了对比。

在此基础上,作家进一步分析了不同模子配置下的 资本 — 性能发挥,从 “效用” 和 “资本” 两个维度进行详尽评估。

收尾标明:DeepPresenter-9B 获取了 4.19 的高分,发挥与闭源模子 GPT-5(4.22)简直持平,况且 DeepPresenter 显赫优于其他的幻灯片生成决策。
更值得柔柔的是,在资本 — 性能弧线中,DeepPresenter-9B 位于前沿的 “突变点” 位置,意味着在性能与价钱之间达到了极具竞争力的均衡。
换句话说,它用 GPT-5 几十分之一的算力资本,竣工了同品级别的智能发挥。这也意味着 —— 在消耗级显卡上,咱们就大概开动一个比好意思顶级闭源模子的 PPT 智能体。
当今,DeepPresenter 状貌已齐备开源,接待开发者共同构建 Presentation Agent 的翌日。
作家先容:
本开源状貌以及论文作家均来自中国科学院软件蓄意所汉文信息处理实验室孙乐蓄意员、韩先培蓄意员团队滚球app中国官方网站,主要作家包括郑昊、莫国钊、陈轩昂、陆垚杰及林鸿宇。实验室的主要蓄意界限包括大模子和大模子驱动智能体的学问机制、学问才智增强及愚弄。
开云体育官方网站 - KAIYUN
备案号: