核心概念

理解这些核心概念将帮助您充分利用 CoreClaw。

爬虫 (Worker)

爬虫是从网站提取数据的程序。在 CoreClaw 中：

爬虫已预构建，可直接使用
您也可以创建自己的爬虫
爬虫在云端运行

爬虫类型

类型	描述	使用场景
静态	抓取静态 HTML 页面	简单网站、博客
动态	处理 JavaScript 渲染内容	SPA、现代网站
API	直接调用网站 API	有公开 API 的网站

任务 (Task)

任务是运行爬虫的保存配置：

预配置的输入参数
可调度自动运行
可重复用于持续数据收集

任务优势

自动化：按特定间隔调度运行
一致性：每次使用相同参数
监控：跟踪任务性能

运行 (Run)

运行是爬虫的单次执行：

每次运行有唯一 ID
包含日志和结果
可实时监控

运行状态

状态	描述
READY	运行已排队等待
RUNNING	运行正在执行
SUCCEEDED	运行成功完成
FAILED	运行遇到错误
ABORTED	运行被手动停止

网页解锁器 (Web Unlocker)

网页解锁器是 CoreClaw 的反检测技术：

自动绕过验证码
轮换代理避免 IP 封锁
处理浏览器指纹
管理 Cookie 和会话

何时使用网页解锁器

目标网站有反爬保护
遇到验证码
IP 封锁问题
地理限制

数据存储

CoreClaw 提供多种存储选项：

存储类型	描述	最佳用途
数据集	表格格式的结构化数据	表格数据、CSV 导出
键值存储	文件和任意数据	图片、PDF、JSON
请求队列	待抓取的 URL	多页面爬取

定价模型

CoreClaw 采用基于使用量的定价模型：

计算单元

按爬虫运行收费
基于执行时间和资源
不同爬虫有不同成本

数据传输

按 GB 数据传输收费
包括输入和输出数据

存储

按 GB/月收费
用于存储数据集和结果

架构概览

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│   输入      │────▶│   爬虫      │────▶│   输出      │
│   参数      │     │   运行时    │     │   数据      │
└─────────────┘     └─────────────┘     └─────────────┘
                           │
                           ▼
                    ┌─────────────┐
                    │    任务     │
                    │   调度器    │
                    └─────────────┘

下一步

用户指南 - 学习如何使用这些概念
API 文档 - 集成到您的应用程序
开发者指南 - 构建自己的爬虫