网页区域文本提取导出工具 (一键导出)
📝 脚本描述
抓取指定元素文字,过滤特定内容并导出为TXT - 支持内置预设导出。纯前端运行,无网络请求,配置本地存储,保护隐私安全
✨ 核心功能
- 🎯 双选择器支持:独立配置「统计元素」与「抓取元素」CSS选择器,灵活适配不同页面结构
- 🚫 三级过滤体系:
- 🔸 精准过滤:完全匹配关键词时排除
- 🔸 包含过滤:内容含关键词时排除
- 🔸 包含匹配:仅抓取含关键词的内容(白名单模式)
- 🔄 智能去重:自动识别并过滤重复文本内容
- 💾 预设管理:
- 源码内置
SITE_PRESETS 快速配置常用站点
- 支持单站加载/保存/导出预设(含选择器+过滤规则)
- 配置自动合并,本地存储不覆盖手动修改
- 🖱️ 可视化选择器:点击🎯按钮进入元素拾取模式,自动生成CSS选择器路径
- 📥 一键导出:结果实时预览,支持导出为UTF-8编码TXT文件
- 🔐 隐私安全:无外部请求、无追踪代码、无云端同步,所有配置仅存本地
🚀 如何使用
- 安装脚本后,在您想提取数据的网页右侧,点击页面右侧 🔍 浮动按钮唤醒面板。
- 在输入框中,拾取/填入您要提取内容区域的CSS选择器。 (不满意?: 可以使用uBlock Origin广告拦截器等工具查看和复制元素的CSS选择器)。
- (可选)点击 🚫 名单 配置过滤关键词(支持当前站/全局)
- (可选)点击 🌐 站点预设 管理多站点配置模板
- 点击【📊抓取】预览结果,点击【📥导出】导出TXT。
🎯 适用场景
- 批量提取商品标题/价格/评论数
- 从新闻列表、博客文章列表抓取标题和摘要。
- 从论坛帖子中收集用户名和发言内容。
- 清洗网页表格数据导出为结构化文本
- 任何需要从结构化网页中批量获取文本信息的重复性工作。
⚠️ 注意事项
- 本脚本为个人使用,如需更强大的功能推荐 web scraper
- 过滤关键词支持中英文,区分大小写
- 导出文件默认名为 scraped_data.txt,可在代码中修改
🔍 关键词
网页内容提取, 文本抓取, 数据导出, txt导出, CSS选择器, 油猴脚本, Tampermonkey, 用户脚本, 网页爬虫辅助, 自动化工具, 文本提取, 列表提取, 数据采集, 网页数据抓取, 屏幕抓取, Web Scraper
💬 反馈与建议
如果您在使用过程中遇到任何问题,或有功能建议,在本脚本的GreasyFork页面反馈区留言也不一定更改。