Greasy Fork

Greasy Fork is available in English.

网页内容智能采集器 - Markdown记录

悬浮图标采集网页元素,支持批量翻页采集(忽略禁用状态,支持动态加载内容),自定义快捷键等。

您需要先安装一款用户脚本管理器扩展,例如 Tampermonkey 篡改猴Greasemonkey 油猴子Violentmonkey 暴力猴,才能安装此脚本。

您需要先安装一款用户脚本管理器扩展,例如 Tampermonkey 篡改猴,才能安装此脚本。

您需要先安装一款用户脚本管理器扩展,例如 Tampermonkey 篡改猴Violentmonkey 暴力猴,才能安装此脚本。

您需要先安装一款用户脚本管理器扩展,例如 Tampermonkey 篡改猴Userscripts ,才能安装此脚本。

您需要先安装一款用户脚本管理器扩展,例如 Tampermonkey 篡改猴,才能安装此脚本。

您需要先安装一款用户脚本管理器扩展后才能安装此脚本。

(我已经安装了用户脚本管理器,让我安装!)

您需要先安装一款用户样式管理器扩展,比如 Stylus,才能安装此样式。

您需要先安装一款用户样式管理器扩展,比如 Stylus,才能安装此样式。

您需要先安装一款用户样式管理器扩展,比如 Stylus,才能安装此样式。

您需要先安装一款用户样式管理器扩展后才能安装此样式。

您需要先安装一款用户样式管理器扩展后才能安装此样式。

您需要先安装一款用户样式管理器扩展后才能安装此样式。

(我已经安装了用户样式管理器,让我安装!)

作者
yichenstone
日安装量
0
总安装量
9
评分
0 0 0
版本
1.9.0
创建于
2026-04-21
更新于
2026-04-21
大小
49.1 KB
许可证
MIT
适用于
所有网站

网页内容智能采集器 - 油猴脚本
一键采集网页任意内容,自动转换为 Markdown,支持跨页面智能识别、批量翻页采集、自定义快捷键与导出配置。

✨ 功能特性
悬浮图标,即点即采
页面左上角(可配置右下角)常驻「内容采集」按钮,点击即可采集预先选中的元素,或启动可视化选择模式。

可视化元素选择
点击按钮后进入选择模式,鼠标悬停高亮目标,单击选中(支持多选),自动排除按钮、输入框等交互元素。完成后自动生成 Markdown 并保存记录。

跨页面自动采集
在不同网页中,如果存在相同的 CSS 选择器结构,可直接点击按钮一键采集当前页面内容,无需重复选择。

批量翻页采集 🚀
右键菜单选择「批量采集」→ 点击页面上的“下一页”按钮(支持动态加载、灰色按钮),脚本会自动翻页并采集每一页的内容,直到按钮消失或按 ESC 停止。
完美兼容传统分页、无限滚动、AJAX 局部刷新等场景。

记录管理 & 合并导出
所有采集记录按时间排列,支持多选、全选、删除单条/全部。导出时可根据需要自由配置是否包含统计头、网页标题、来源 URL、采集时间,导出为 .md 文件。

快捷键支持
默认 Ctrl+Shift+E 触发采集(与点击悬浮按钮行为一致),可在右键菜单中自定义任意组合键。

轻量高效
自动过滤页面中的按钮、交互控件,确保采集内容纯净;内置 Turndown 转换引擎,精准保留文字、图片、链接等格式。

🎯 适用场景
知识管理:采集博客、文档、教程等网页内容,存入笔记软件(Obsidian、Notion 等)。

数据整理:从分页列表中批量抓取商品、文章、用户评论等信息。

考试刷题:采集题目和答案,制作个人题库。

任何需要将网页内容转存为 Markdown 的场景。

📦 安装方法
安装浏览器插件 Tampermonkey。

安装脚本:安装智能内容采集器

或手动新建脚本,将完整代码粘贴保存。

🚀 快速上手
首次使用
点击悬浮按钮「📥 内容采集」→ 选择「重新选择采集元素」。

鼠标在页面上移动,高亮框会跟随。单击要采集的区块(支持多选,再次单击取消)。

点击左上角工具栏的「✅ 完成采集」,脚本会记住这些元素的选择器,并将当前页面内容转为 Markdown 保存。

日常采集
在相同结构的网页(如不同文章、不同题目页),直接点击悬浮按钮即可快速采集并自动追加记录。

批量翻页
右键悬浮按钮 → 选择「批量采集 (选择下一页按钮)」。

点击页面上的“下一页”或“加载更多”按钮。

脚本自动开始采集当前页 → 点击下一页 → 等待内容加载 → 重复,直到按钮消失或按 ESC 停止。

管理记录
右键悬浮按钮 →「管理记录/合并导出」。

勾选需要的记录,点击「合并导出选中项」即可生成 .md 文件。

可通过「导出设置」自定义导出内容。

⚙️ 配置选项
功能 位置 说明
快捷键 右键菜单 → 快捷键配置 自定义触发采集的组合键
导出设置 记录管理弹窗 → 导出设置 控制是否包含统计头、标题、URL、时间
按钮位置 脚本开头 BUTTON_POSITION 变量 'top-left' 或 'bottom-right'
🧠 注意事项
脚本不会采集按钮、输入框等交互元素,确保内容纯净。

批量采集时,请确保页面内容加载完成后元素选择器仍能匹配。脚本会智能等待最多 30 秒。

若页面采用完全刷新(跳转 URL),脚本会自动恢复批量采集状态,无需额外操作。

所有记录保存在浏览器的 GM_setValue 中,不会丢失(除非手动清空或卸载脚本)。

📄 输出示例
markdown
# 合并导出 - 内容采集记录

生成时间: 2025/1/15 14:30:22
共 3 条记录

---

## 记录 1: 什么是反向代理?

- **来源URL**: https://example.com/article/123
- **采集时间**: 2025/1/15 14:28:10

反向代理(Reverse Proxy)方式是指以代理服务器来接受 Internet 上的连接请求,然后将请求转发给内部网络上的服务器...

---
🛠️ 开发与许可
基于 Turndown 实现 HTML → Markdown 转换。

采用 MIT 许可证,欢迎二次开发。

如有问题或建议,欢迎在 GreasyFork 评论区留言。

立即安装,开启高效采集之旅! 🎉