跳转到内容

Worker 目录结构

📁 必需文件清单(项目根目录下)

Section titled “📁 必需文件清单(项目根目录下)”
以Python项目根目录为例:
├── main.py # 主入口文件
├── requirements.txt # Python依赖包列表
├── README.md # 项目说明文档
├── input_schema.json # UI模板配置文件
├── sdk.py # sdk文件
├── sdk_pb2.py
├── sdk_pb2_grpc.py
以Node.js项目根目录为例:
├── main.js # 主入口文件
├── package.json # Node.js依赖包列表
├── README.md # 项目说明文档
├── input_schema.json # UI模板配置文件
├── sdk.js # sdk文件
├── sdk_pb.js
├── sdk_grpc_pb.js
以Go项目根目录为例:
├── main.go # 主入口文件
├── go.mod # Go模块文件
├── go.sum # Go依赖校验
├── README.md # 项目说明文档
├── input_schema.json # UI模板配置文件
├── GoSdk/ # sdk目录
│ ├── sdk.go
│ ├── sdk.pb.go
│ └── sdk_grpc.pb.go
  • main.py / main.js / main(根据项目类型选择,目前支持python,go,node.js)
    • 爬虫脚本的主入口文件
    • 命名必须为 main(扩展名根据语言确定)
  • package.json(Node.js 项目)
  • requirements.txt(Python 项目)
  • go.mod(Go 项目)
  • 用于声明项目运行所需的所有依赖包
  • UI 模板配置文件
  • 定义Worker在平台上的输入表单界面
  • Worker 功能说明文档
  • 包含使用方法和注意事项
  • 获取容器启动时传入的运行参数
  • 访问爬虫任务配置、认证信息等
  • 设置数据表结构(表头)
  • 存储爬取结果数据
  • 支持分批保存和续传
  • 标准化的日志记录接口
  • 支持不同级别(INFO、WARN、ERROR等)
  • 日志自动收集和展示