Gemini3 – 青瓜传媒

Claude4.5+Gemini3 接管电脑桌面，这回是真无敌了..

青瓜传媒 — Fri, 06 Feb 2026 01:47:18 +0000

Windows 版的 Cowork 来了，而且这回有点猛，同时支持 Gemini 和 Claude 两大顶尖模型！

自从 Claude Cowork 火了之后，桌面端 Agent 赛道瞬间就卷起来了。

毕竟桌面端的Agent大家用起来会更方便，也更贴近大众的用户习惯。

关键是一键安装，而且方便跟本地电脑打通，让AI真正开始接管你的电脑，转变为生产力，比在网页端使用Agent要接地气多了。

这不，昆仑天工刚刚发布了他们最新的天工Skywork桌面版。下面统一就叫Skywork吧

https://skywork.ai/

它是一位能直接入职你 Windows 电脑的全能 AI 助理。

并且在海量且良莠不齐的 Claude Skills 中去芜存菁，内置了 100+ 个真正能干活的精选 Skills，全面覆盖 Office 文档、网页制作及多媒体生成等场景。

比如下面这些，有NanoBanana Pro，以及X，YouTube，Reddit相关的skill，是比较吸引我的。

而且，它打破了 Word、Excel、PPT 等各种文件的格式壁垒。

你可以直接把硬盘里的海量文件扔给它，它能在数据不上传云端的前提下（本地虚拟机隔离，安全感拉满），自动帮你归类文档、提炼信息、重命名文件等等..

最让我心动的点是：Skywork集成了 Gemini 3 Pro 和 Claude Opus 4.5 这种世界级顶尖模型，不仅能写文案，还能直接生成高质量的图片、视频以及成套的 PPT 和报表，真正实现一句话搞定复杂工作流。

比如可以用它来省钱

我之前逛某鱼的时候，发现一个很有意思的现象。

有很多看似简单的“Word 批量转 PDF”、“PDF 转图片”、“图片批量加水印”的小工具，销量居然还挺高，评论区一堆人夸“救命神器”、“终于不用一个个点了”。

我直接惊了！！

然后又搜了一下别的小工具，什么pdf批量转word，word转图片，图片加水印等等…非常多，还都卖的不错..

emmm，这些工具虽然都可以用AI编程来复刻，但是对于很多小白朋友来说，还是有门槛。

现在用Skywork的话，就是一句话的事儿。

prompt：请帮我处理一下【 mp-article-pdf】这个文件夹里的内容。

里面有里面全是pdf文档，请帮我批量转换成word格式。

转换完成后，给每个word文件的每一页都加上淡灰色的水印，水印文字为：“袋鼠帝AI客栈”。

最后把处理好的文件保存到一个新的文件夹里，命名为“mp-article-word”。

整个过程我录了屏

Skywork 迅速识别了文件夹内容，一步步思考，指定计划，最后完成了所有文件的转换，并加上了水印。

一次性搞定，过程中可以去喝杯咖啡。

这不仅省了买小工具的钱，更重要的是，它比那些死板的工具更灵活：

你可以随时加需求，比如“只转换包含‘合同’两个字的文件”，或者“转换后把PDF放到一个新的文件夹里，贼灵活。

而且我发现，Skywork 第一次执行某个任务会稍慢一点，但是第二次就非常快了，几乎是第一次速度的10倍。

然后我这台 Windows 电脑用了 4 年了，桌面贼乱..

有同款桌面吗，评论区举个爪爪

各种截图、文档、安装包混在一起，每次找文件都得靠搜索，甚至有时候搜索都搜不到。

一直懒得整理，主要是文件太多，手动归类太痛苦。

这次，我决定把这个烂摊子交给 Skywork。

我先选择了桌面作为工作空间，然后给 Skywork 下了个指令：

帮我整理桌面：把图片放进‘图片素材’文件夹，把文档按年份归类，把安装包统一放到‘软件备份’里。对于不同功能的快捷方式，分类到不同的文件夹中（文件夹中文命名）

看着 Skywork 在自动扫描、移动文件的过程，不用自己动手真爽！

2分钟后，原本满屏图标的桌面，变得清清爽爽，只剩下几个整齐的文件夹。

还剩余一些，是属于公共桌面的应用（左图），而我们所选的用户桌面确实已经整理完毕了（右图）

然后我花了30秒，手动整理一下现有的桌面（把图标排列整齐）

终于！乱了好几年的桌面终于是清爽了，甚至我女朋友打开我电脑，一度以为我重装了系统

而且，因为背后有 Gemini 和 Claude 这种顶级模型的加持，它对文件内容的理解非常精准，所以各种归类都非常准确。

作为一个公众号博主，我时不时有把预览链接转成 Word 文档的需求。

以前我得复制粘贴，或者网上各种找工具，但要不付费，要不一堆广告，关键转出来的格式经常乱。

我试着把一条公众号文章的链接丢给 Skywork 帮我处理。

prompt：任务目标：将指定链接的公众号文章内容提取并转换为排版专业的 Word (.docx) 文档。
核心要求：
内容完整性：严格保留原文所有文字、标点及图片，不得有任何删减或摘要。
图文顺序：图片必须严格按照原文的段落位置插入，保持“文-图-文”的原始阅读流。
图片质量：所有图片需保持原图尺寸和分辨率，禁止压缩或调整为统一缩略图。
排版规范：
层级结构：准确识别并还原原文的标题层级（H1, H2, H3 等）。
代码块美化：文中的 Shell 指令或代码片段，请在 Word 中使用等宽字体（如 Courier New）并添加灰色背景或边框，形成标准的“代码块”样式，确保便于阅读和复制。
输入链接： [在此处插入链接]

Skywork 直接调用了它的网页解析skill，获取了公众号文章的内容，并将图片全部下载到了本地，最终调用docx skill把图片文字按顺序组装起来并排版。

很快，一个图文并茂的 Word 文档就生成好了。

排版非常干净，标题、正文、图片位置都对，非常nice

有时候我写文章需要上传 GIF 动图，但平台限制 10M 以内，而且帧数还不能超过30帧，手里的素材时常会超出限制，也是个很头疼的问题。

还是丢给Skywork解决：

我去，三下五除二就搞定了，贼快，这真的是能解燃眉之急~

接下来我准备给 Skywork 再上点强度。

openclaw最近不是非常火嘛，我就把openclaw的代码下载到了本地，然后以其根目录作为Skywork的工作空间。

并发布了任务：

prompt：读取当前文件夹里的核心代码和readme.md，理解这个项目。然后帮我做2件事：生成一份面向小白的 PPT；3. 制作一段 30 秒的openclaw宣传视频。

这个任务涉及到了跨模态理解和生成，难度还是比较高的。

但 Skywork 的表现我感觉还不错：

PPT 生成：它提取了openclaw里的核心能力，生成了一份 10 页的 PPT。

结构清晰，逻辑严密，还帮我配好了相关的插图。

视频生成：它根据相关信息，生成了一段30秒演示视频，展示了平台的核心能力，转场丝滑，而且用来做概念演示完全够用了。

如果对初始生成的PPT风格不满意，还可以让它调整，我让它优化成了包豪斯风格，指令遵循也很强，只是换了风格，里面的内容没有变。

以前这些事儿，我肯定得折腾老半天。

现在，我口喷需求，Skywork 就帮我把 0 到 1 的工作全干了，我只需要在它的基础上做做微调就行。这就是真正的生产力~「最后」

体验下来，Skywork 桌面版给我的感觉是比较稳。

它没有那种为了炫技而加的花哨功能，每一个 Skill 都是奔着解决实际痛点去的。

特别是对于 Windows 用户来说，这简直就是及时雨。

要知道，Claude Cowork 目前只支持 Mac，这让广大 Windows 党（包括很多企业用户）只能干瞪眼。

Skywork 优先支持 Windows ，填补了这个巨大的空白。

虽然目前使用还需要“魔法上网”，但我觉得这并不妨碍它成为目前 Windows 平台上最值得尝试的桌面 AI Agent 之一。

特别是它还支持了 Gemini 和 Claude 这种世界顶级大脑，让它们接管你电脑会更放心一些，而且目前应该没有比这更强的组合了。

或许，要不了多久，各种办公软件的入口会变成一个统一的对话框，我们说，AI做。

作者：袋鼠帝AI客栈

来源：袋鼠帝AI客栈

实测Claude4.5+Gemini3版Cowork的正确玩法

青瓜传媒 — Fri, 06 Feb 2026 01:10:28 +0000

我最担心的事情还是发生了。

试玩AI已经跟不上开发AI的速度了，最近一个月我是Claude Code Skills，Claude Cowork，Clawdbot还没玩够又到下一个，我刚熟悉用Skills把文章发到X上，下周clawdbot就把这事包了。

为了省token，我的主力还是Claude code和Cowork，Cowork拿来处理本地文件就是无敌的，这两天我拿到了天工Skywork桌面版的内测，它在Cowork的基础上做出了点不一样。

skywork.ai/desktop 上线就全量

首先它原生支持Wins，因为我用Mac当主力机已经有五六年了，Wins的快捷键早就忘了，所以它天然就可以帮我完成文件整理的工作，比方说我直接告诉它：

这是一个包含许多来自不同地方的旅游景点图片的文件夹。将它们整理到不同类型的子文件夹中，每个文件夹的名称代表图片所在国家或地区。如果图片无法分类，请将它们放入名为“未分类”的文件夹中。

这个任务的难度因为是相机拍的图片，文件名一点用都没有，需要模型理解每张图片的内容。

埃菲尔铁塔，富士山，金字塔，它能通过图像识别，准确判断出这些照片的地理归属，然后自动执行创建文件夹和移动文件的操作。我跳过了上传下载新建文件夹，直接拿到的就是一个结构清晰系统。

Skywork Cowork接入了多模态版本之子Gemini 3.0 Pro，我就用这个模型来把长视频转图文笔记。而且Banana2也封装成了Skills，整理文件夹里的零散笔记的时候顺手就把信息图做了，

我盘了一下，光是文档处理就有pptx/docx/pdf/xlsx四件套，联网搜索也带上了Reddit/ArXiv(论文)/X/Youtube的，70个Skills相当够用。许愿后续版本可以自己开发Skills或者录入Github项目当Skills。

所以这一次，我跟我的肝一拍即可，决定用Skywork Cowork解决这两周Claude Code Skills，Claude Cowork，Clawdbot的高光案例。

Here we go！

能自动整理文件还不是Cowork的极限，我直接让它二次利用整理好的图片文件：

做一个PPT，这里每个子文件夹包含不同旅游景点的图片。选择所有景点并为每个景点创建一个单独的幻灯片，介绍其名称和基本信息。

然后它就kukuku开始干活了，

做成版PPT最耗时的部分，就是寻找素材，排版，填写文字。有些素材我还不能用AI生成的。

所以这时候Cowork可以通过Skills自动调用PPT，批量插入图片，通过图片信息，联网搜索相关的基础介绍，自动填充到幻灯片里。

于是我设计了第三个，也是最复杂的一个案例：

视频下载+视频多模态分析+自动截视频名_时间戳_主题.png 并写入要点说明，最后用 Summarize 产出 1页总览+章节目录+每章知识卡片+截图索引表，并用 docx 生成一份可直接分享的 Word 文档保存

这个case我本来是拿来测上限，我真没想到能给我做出来。这个场景的痛点，是因为我每天有看不完的文章，刷不完的视频。

如何在一个全新的领域里快速入门？

比如我最近想了解某个知识，在B站上找到了一个非常好的系列视频。传统的方式是，打开视频，准备好笔记本，一边看一边暂停，手动记录要点。

一个小时的视频，可能要花两三个小时才能完成笔记。这个过程非常反人性，特别是那种对着黑板讲的视频，一个分神ppt就切走了，我就算用其他AI把字幕下载下来总结，就会丢掉一部分ppt的信息。

Cowork把所有的脏活累活都干了，

我只需要去吸收最精华的知识本身，而且我是接受AI带来的信息损耗的，因为仔细想想就是我去听一张图一张图做笔记，偶尔也要翻看原视频。

后面两个case是上一次我测试Cowork的时候，发生评论区很多人提到的，

Excel类数据处理。几百几百条不够挑战性，我直接上一千，

用xlsx生成1000条模拟员工数据与工资明细并计算税前税后与汇总统计，再用Invoice Generator生成每人一页工资条文件，随后用Outlook按 [收件人邮箱清单Excel路径] 批量发送并在邮件中写入个性化字段与注意事项，最后输出一份发送日志与统计报表到xlsx

这个流程极易出错，要是放在公司里没有系统辅助，我纯人工一天做50条估计就要休息下班了。

但对于Cowork来说，这是一个纯粹的逻辑执行任务，中间的一些列还直接按工种的不同，生成不同的内容。

昨天公众号发了25年年度创作回顾，我一年活跃了364天，写也写了254篇内容了，所以我就想把更详细的数据导出来让Cowrok分析一下，做个北极星指标出来。

用 xlsx 读取公众号数据]并自动识别字段含义与口径，按天周月生成核心漏斗与北极星指标表，输出包含指标定义计算公式异常值提示结论建议的分析报告到 docx，同时生成一份新 xlsx 含透视表与趋势图

PS，这里是模拟数据

用了一段时间后，这就成了很符合直觉的操作，我电脑还装着ppt/word/excel这些软件就是给AI用的，我不需要去记在哪里选中什么数据能做什么样的折线图。

要是Claude Code Skills，Claude Cowork，Clawdbot三个形态融合之后的Agent会什么样呢？

我是希望就直接连主动提问都不需要了，全天候录屏语音输入，把tokens价格打到地心，提示语也没有复杂结构了，纯语音。Agent会成为我所看所想的延伸，

所以，我一直鼓励身边的所有人，遇到问题，不管有多复杂，先试着用AI解决。这样你会发现很多意想不到的好用法。比起去看十大用法和精选案例，自己去探索，碰壁，反而能找到最适合你自己的工作心流。

不需要给AI设限，也不用怕它运行失败，对于一个可以无限次执行的Agent来说，重复就是我们最大的底气。

作者：卡尔的AI沃茨

来源：卡尔的AI沃茨

Gemini3+飞书多维表格，批量扒抖音爆款！

青瓜传媒 — Tue, 02 Dec 2025 06:35:34 +0000

我最近几乎天天都在用飞书多维表格，使用频率贼高，这玩意儿用起来是真滴爽。

我用它打造了一个一键批量获取抖音爆款视频所有数据（包含文案）的多维表格，还可以配合最近新出的Gemini3进行二创。

飞书多维表格天然就是存储数据的，结合各种处理数据的节点（包含AI节点，API节点等等..）数据存储+处理一体之后，那个感觉太妙了

飞书多维表格还有仪表盘，视图等功能，方便可视化的向我展示抖音在AI领域的热点趋势，以及分析哪些防线的内容是大众喜欢的、更容易爆。

对于我来说，主要是方便帮我找选题，和增加创作灵感。

事情是这样的，上周群里小伙伴看完教程之后，给了我一个选题：用飞书多维表格获取抖音和小红书的内容。

哈哈，感觉大家对这块还挺感兴趣，或者说有强烈需求。

正好，我最近也想把短视频再捡起来做一做，搭一套工作流也可以帮我自己提效，于是花了不少时间和精力：

摸索出了这套可以根据关键词，一键获取N（自定义）条相关爆款视频，并通过Gemini3进行二创的多维表格（我称之为批量工作流）。

在这篇文章里，把过程和方法全部免费分享给大家，当然，过程中用到的工具也都是免费的。

PS：授人以渔，大家可以根据这篇内容，结合自己的需求或者场景，扩展更多的使用方式。还有大家多次提到使用飞书多维表格要花钱，我只能说，我从用飞书开始就没花过钱.. 飞书赚的是企业的钱，对于个人来说，免费版够用了

篇幅原因，先教大家获取抖音的内容

再立个flag：如果这篇阅读量破万，我把小红书的也补上（大家多多三连啊）

好了，话不多说，我们直接开始喂饭！

一键批量获取抖音爆款视频数据（通过关键词）

飞书多维表格里面有一款插件「抖音数据小助手」，非常好用，还免费。

直接点击飞书多维表格右上角，插件图标->探索插件市场

搜抖音数据小助手，就能找到了

看下图，这个插件可以获取18个维度的视频数据！

关键词我填AI（因为我要抓AI领域的爆款视频），一次采集50条（可自定义），需要一个Cookie（抖音的登录凭证）。

这个cookie有两种方式获取

一个是它本身提供了一个教程，通过安装一个插件来获取

但我觉得太麻烦，我就直接使用了原始方式：浏览器里面获取

先在浏览器登录自己的抖音账号

按F12打开开发者工具，在network（网络）选中Fetch/XHR，搜索框搜索”list/?”。

这时候需要再刷新一次页面，下图展示的四个请求都可以找到cookie，随便选一个，在Headers往下滑，把cookie的内容全部复制

cookie粘过去之后，点击插件的数据获取按钮。

等个1分多钟，50条AI领域的爆款视频数据就躺在多维表格里面啦～

抓下来的视频，都是点赞量比较高的爆款，也都是AI领域的内容，第一步完成的相当nice。

获取抖音视频文案，并用AI分类

「抖音数据小助手」插件并不能一键获取到视频对应的文案，但能获取到视频的原始链接（可以下载原视频）

我们可以用飞书多维表格的字段捷径来获取视频的文案。

新建一个字段「提取文案」，在编辑里面设置字段类型为文本，在字段捷径中心找到一个叫「音视频转文字」的工具添加为字段捷径。

「音视频转文字」这个工具需要配置一个阿里百炼平台的apikey，它自带获取教程，这里就不重复赘述了。

每月有36000秒（600分钟），即10小时的免费额度。

在阿里百炼的【模型广场】，搜「Paraformer语音识别-v2」，点击查看详情，就能看到（已经使用了多少，也可在这里查看）：

600分钟的免费额度，如果一个短视频按2分钟算，那么一个月也够分析300个短视频，对于个人来说够够的了。

配置好之后，这个自动更新可以勾选上，后续检测到「下载链接」字段有新增，或者更新，都会自动提取文案，非常方便。

有了短视频文案后，我们还可以根据文案内容，让AI给视频分类（打标签）。

新增一个「内容分类」字段，字段类型我选择单选，字段捷径选择「分类」。

我们需要先添加好类别，可以手动添加，也可以让AI帮我们生成类别（如下图）。

我是先让AI帮我生成分类选项，然后我在手动调整。

配置根据「提取文案」字段，进行分类

这玩意儿原理是这样的：

我们预设了所有的分类，并设置根据「提取文案」分类，「分类」这个字段捷径，就会获取文案，用AI来判断当前文案属于哪个分类。接入Gemini3 将内容二次创作

进行二创只是其中一个使用方式，对我来说，可以提供一些创作思路。

至于为什么选择Gemini3，因为它牛

大家可能听得最多的还是Gemini3的前端代码能力超强，但是Gemini3的写作能力也是一流的，所以用它来二创。

要接入Gemini3到飞书多维表格，需要借助一个叫「API接口请求器」的字段捷径

而飞书多维表格是没办法直接调用国外Gemini3官方API的。

这里推荐一个全球化的API中转站叫APIMart

优点是国内可用，比官方便宜，具体信息见下图

当然，大家也可以选择KG中转站，同样有Gemini3和NanoBananaPro

PS：上面两个API中转站都兼容OpenAI API接口

我这次以APIMark为例，给大家演示接入

先创建一个apikey

在APIMark首页往下拉，搜Gemini就能找到，gemini-3-pro-preview就是Gemini3，gemini-3-pro-perview就是NanoBanana Pro

接下来给字段的「API接口请求器」配置Gemini3的API请求

大模型API三件套：API地址，apikey，模型Id

模型Id：gemini-3-pro-preview

按照下图的顺序配置

请求体填json格式：

注意：要把提取的文案嵌入请求内容里面

{

“model”: “gemini-3-pro-preview”,

“messages”: [

{

“role”: “user”,

“content”: ”

角色：你是抖音科技区金牌编导。

任务：深入分析输入文案【】，从以下4个二创方向中智能筛选出最合适的几个方向：

1.小白逆袭流（侧重简单、省时、搞钱）；

2.硬核避坑流（侧重专业、批判、深度）；

3.场景故事流（侧重职场、生活、代入感）；

4.趋势观点流（侧重宏观、行业变革、未来）。

规则：

1.绝对不要使用不恰当的比喻，如需解释，只能用类比，且类比对象必须来自日常生活，禁止抽象或情感化比喻，否则扣分。

2.不需要输出思考过程或分析步骤，直接输出最终短视频脚本。

3.文案必须口语化，包含黄金3秒开头，字数200-300字。

4.严格按照下方示例格式输出。

输出格式示例：

[方向名称] 文案：这里是你的脚本内容… 画面：这里是画面建议…

—

[下一个方向名称] 文案：这里是你的脚本内容… 画面：这里是画面建议…

}

]

}

ok，最后效果就是下面这样，看着多维表格全自动处理数据，把数据拼图一块一块填满，莫名有种爽感～

这套批量工作流识别出来的短视频文案还是会有某些关键词错误的情况，不过整体的准确度还是挺高的。Gemini3二创出来的文案也很棒，口语化，长度适中，也比较符合爆款视频的文案逻辑。

同时，我也想过搞定时监控抖音博主的工作流，但是吧，监控到又如何呢，也不清楚会不会成为爆款内容，还得做后续的爆款分析，有点麻烦。

还不如直接抓最近的相关爆款，只是需要手动点击一下才能执行，插件貌似不能定时自动执行，但不确定，这块还得研究一下。

作者：袋鼠帝AI客栈