核心概念
理解这些核心概念将帮助您充分利用 CoreClaw。
爬虫 (Worker)
Section titled “爬虫 (Worker)”爬虫是从网站提取数据的程序。在 CoreClaw 中:
- 爬虫已预构建,可直接使用
- 您也可以创建自己的爬虫
- 爬虫在云端运行
| 类型 | 描述 | 使用场景 |
|---|---|---|
| 静态 | 抓取静态 HTML 页面 | 简单网站、博客 |
| 动态 | 处理 JavaScript 渲染内容 | SPA、现代网站 |
| API | 直接调用网站 API | 有公开 API 的网站 |
任务 (Task)
Section titled “任务 (Task)”任务是运行爬虫的保存配置:
- 预配置的输入参数
- 可调度自动运行
- 可重复用于持续数据收集
- 自动化:按特定间隔调度运行
- 一致性:每次使用相同参数
- 监控:跟踪任务性能
运行 (Run)
Section titled “运行 (Run)”运行是爬虫的单次执行:
- 每次运行有唯一 ID
- 包含日志和结果
- 可实时监控
| 状态 | 描述 |
|---|---|
| READY | 运行已排队等待 |
| RUNNING | 运行正在执行 |
| SUCCEEDED | 运行成功完成 |
| FAILED | 运行遇到错误 |
| ABORTED | 运行被手动停止 |
网页解锁器 (Web Unlocker)
Section titled “网页解锁器 (Web Unlocker)”网页解锁器是 CoreClaw 的反检测技术:
- 自动绕过验证码
- 轮换代理避免 IP 封锁
- 处理浏览器指纹
- 管理 Cookie 和会话
何时使用网页解锁器
Section titled “何时使用网页解锁器”- 目标网站有反爬保护
- 遇到验证码
- IP 封锁问题
- 地理限制
CoreClaw 提供多种存储选项:
| 存储类型 | 描述 | 最佳用途 |
|---|---|---|
| 数据集 | 表格格式的结构化数据 | 表格数据、CSV 导出 |
| 键值存储 | 文件和任意数据 | 图片、PDF、JSON |
| 请求队列 | 待抓取的 URL | 多页面爬取 |
CoreClaw 采用基于使用量的定价模型:
- 按爬虫运行收费
- 基于执行时间和资源
- 不同爬虫有不同成本
- 按 GB 数据传输收费
- 包括输入和输出数据
- 按 GB/月收费
- 用于存储数据集和结果
┌─────────────┐ ┌─────────────┐ ┌─────────────┐│ 输入 │────▶│ 爬虫 │────▶│ 输出 ││ 参数 │ │ 运行时 │ │ 数据 │└─────────────┘ └─────────────┘ └─────────────┘ │ ▼ ┌─────────────┐ │ 任务 │ │ 调度器 │ └─────────────┘