跳转到内容

核心概念

理解这些核心概念将帮助您充分利用 CoreClaw。

爬虫是从网站提取数据的程序。在 CoreClaw 中:

  • 爬虫已预构建,可直接使用
  • 您也可以创建自己的爬虫
  • 爬虫在云端运行
类型描述使用场景
静态抓取静态 HTML 页面简单网站、博客
动态处理 JavaScript 渲染内容SPA、现代网站
API直接调用网站 API有公开 API 的网站

任务是运行爬虫的保存配置:

  • 预配置的输入参数
  • 可调度自动运行
  • 可重复用于持续数据收集
  • 自动化:按特定间隔调度运行
  • 一致性:每次使用相同参数
  • 监控:跟踪任务性能

运行是爬虫的单次执行:

  • 每次运行有唯一 ID
  • 包含日志和结果
  • 可实时监控
状态描述
READY运行已排队等待
RUNNING运行正在执行
SUCCEEDED运行成功完成
FAILED运行遇到错误
ABORTED运行被手动停止

网页解锁器是 CoreClaw 的反检测技术:

  • 自动绕过验证码
  • 轮换代理避免 IP 封锁
  • 处理浏览器指纹
  • 管理 Cookie 和会话
  • 目标网站有反爬保护
  • 遇到验证码
  • IP 封锁问题
  • 地理限制

CoreClaw 提供多种存储选项:

存储类型描述最佳用途
数据集表格格式的结构化数据表格数据、CSV 导出
键值存储文件和任意数据图片、PDF、JSON
请求队列待抓取的 URL多页面爬取

CoreClaw 采用基于使用量的定价模型:

  • 按爬虫运行收费
  • 基于执行时间和资源
  • 不同爬虫有不同成本
  • 按 GB 数据传输收费
  • 包括输入和输出数据
  • 按 GB/月收费
  • 用于存储数据集和结果
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ 输入 │────▶│ 爬虫 │────▶│ 输出 │
│ 参数 │ │ 运行时 │ │ 数据 │
└─────────────┘ └─────────────┘ └─────────────┘
┌─────────────┐
│ 任务 │
│ 调度器 │
└─────────────┘