章一锋 · 663851d5
Hide whitespace changes
Inline Side-by-side

Showing with 266 additions and 0 deletions

data_stream/P12315.md data_stream/P12315.md +266 -0

No files found.
--- a/data_stream/P12315.md
+++ b/data_stream/P12315.md
+# **基本信息**
+
+## 数据名称（中文）
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+```buildoutcfg
+12315 的行业分类
+```
+
+  ## 数据英文名称
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+```buildoutcfg
+12315
+```
+
+  ## 采集网站（采集入口）
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+```buildoutcfg
+https://www.12315.cn/cuser/portal/tscase/corperation
+```
+
+  ## 采集频率及采集策略
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+
+
+  ### 存量更新策略
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+```buildoutcfg
+轮更，尚未知一轮要多久
+```
+
+  ### 增量采集策略
+<!--新增数据怎么来？无需单独采集新增数据？-->
+```buildoutcfg
+每次从头到尾运行一遍，去重得到增量数据
+```
+---
+
+# **爬虫**
+
+  ## 责任人
+  ```buildoutcfg
+  章一锋
+  ```
+  ## 爬虫名称
+  <!--spider_name-->
+  ```buildoutcfg
+  P12315
+  ```
+  ## 代码地址
+  <!--爬虫的具体代码地址，不是代码所在的项目，要具体到模块或脚本文件-->
+  ```buildoutcfg
+http://tech.pingansec.com/granite/project-gravel/-/blob/develop_12315/scrapy_spiders/gravel_spiders/spiders/12315.py
+  ```
+  ## 队列名称及队列地址
+  <!--redis host port db key 优先级说明-->
+  ```buildoutcfg
+  * redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+  * redis port: 6379
+  * redis db: 7
+  * redis key: P12315
+  ```
+  ### 优先级队列说明
+
+
+  ## 任务来源
+  <!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+
+  ```buildoutcfg
+  任务数据：非在营、在营企业
+  导入任务配置文件路径：http://tech.pingansec.com/granite/project-gravel/-/blob/develop_12315/app_12315/data_dump/P12315.yml  
+
+```
+
+  ## 任务输入参数（样例）
+
+  ### 任务样例
+  <!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+  ```json
+{
+    "credit_no": "91110108MA01F9QE45",
+    "company_name": "北京智源视界科技有限公司"
+}
+  ```
+  ### 任务参数说明
+  <!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+
+
+  ## data_type说明
+  <!--可能产生的data_type说明-->
+  ```buildoutcfg
+    detail: 表示详情数据
+  ```
+
+  ## 爬虫结果的超级数据
+  <!--包含所有字段的json数据，每个value都要有样例值-->
+
+  ```json
+{
+	"task_result": 1000,
+	"error_msg": "",
+	"spider_end_time": "2021-11-04 20:05:52",
+	"spider_ip": "10.8.6.30",
+	"@version": "1",
+	"@timestamp": "2021-11-04T12:06:05.467Z",
+	"type": "P12315",
+	"spider_name": "P12315",
+	"data_type": "detail",
+	"http_code": 200,
+	"task_params": {
+		"company_name": "张天雨",
+		"credit_no": "92321002MA1PBECC42"
+	},
+	"data": {
+		"code": 1,
+		"msg": "",
+		"data": {
+			"ODRBRAND": null,
+			"ANADDR": null,
+			"REGNO": "321002600777708",
+			"UNITNAME": null,
+			"stQyname": "",
+			"JYFW": "普通货物道路运输。（依法须经批准的项目，经相关部门批准后方可开展经营活动）",
+			"REGUNITNAME": "扬州市广陵区市场监督管理局",
+			"QYBM": null,
+			"XZQHBM": null,
+			"UBINDTYPENAME": "道路运输业",
+			"HIGHLIGHTTITLE": "****",
+			"S_EXT_NODENUM": "320000",
+			"INDUCOMMBUREID": null,
+			"ADDR": "广陵区湾头镇万福玉器创意园413号",
+			"UNITCODE": null,
+			"NBXH": "92321002MA1PBECC42",
+			"REGSTATE_CN": "存续（在营、开业、在册）",
+			"UBINDTYPE": "54",
+			"SQ": null,
+			"REGUNIT": "321002",
+			"PRIPID": "f8c48efc055ed3028cfef6d790f4d7fd",
+			"INDUCOMMBURENAME": null,
+			"ODRID": null,
+			"INVOPT": "****",
+			"ENTTYPE": "9500",
+			"TEL": "",
+			"ODR": null,
+			"QYWZ": null,
+			"ENTTYPENAME": "个体工商户",
+			"REGSTATECODE": "1"
+		},
+		"redirectUrl": ""
+	},
+	"spider_start_time": "2021-11-04 20:05:46.424",
+	"metadata": {},
+	"path": "/data/gravel_spiders/P12315/bdp-c-118_10.8.6.30/30217.json",
+	"host": "bdp-ls-002"
+}
+  ```
+
+  ## 实际爬虫结果的数据结构
+  <!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+
+
+  ## 爬虫运行环境
+  <!--udm模块？scrapy？或其他-->
+  ```buildoutcfg
+  scrapy
+  ```
+
+  ## 爬虫部署信息
+  <!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+  ```buildoutcfg
+  爬虫运行机器：10.8.6.30
+  进程数：25
+  项目名称：P12315
+  任务提交机器：10.8.6.63
+  任务提交方式：crontab
+  ```
+
+  ## Taskhub地址
+  ```buildoutcfg
+http://tech.pingansec.com/granite/project-taskhub/-/blob/master/taskhub/config/gravel/config.d/P12315.yml
+  ```
+
+  ## Taskhub调度规则说明
+  ```buildoutcfg
+  task_result为以下值时被过滤：
+    - 1000
+    - 1101
+    - 1102
+    - 2001
+    - 7000
+    - 9300
+  其他值的任务都会被放入队列
+  ```
+
+  ## 爬虫监控指标设计
+  <!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+
+  ## 爬虫待采集结果目录
+
+---
+  ```buildoutcfg
+  /data/gravel_spiders/P12315
+  ```
+# **数据归集**
+## 责任人
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [ x ] 爬虫写文件logstash采集
+
+
+  ## 归集后存放目录
+
+
+  ## logstash配置文件名称
+
+
+  ## logstash文件采集type
+
+
+  ## 数据归集的topic
+    ```buildoutcfg
+    general-taxpayer
+    ```
+
+  ## ES日志索引及筛选条件
+    ```buildoutcfg
+    gravel-spider-data*  spider_name is P12315
+    ```
+
+
+## 监控指标看板
+
+
+## 数据保留策略
+
+
+---
+
+# **数据清洗**
+
+## 责任人
+
+
+## 代码地址
+
+
+## 部署地址
+  <!--机器及线上代码地址-->
+
+
+  ## 部署方法及说明
+  <!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+- [ ] crontab + data_pump
+- [ ] supervisor + data_pump
+- [ ] supervisor + consumer
+
+  ## 数据接收来源
+    <!--来源于kafka还是归集的文件、topic的group？-->
+
+
+  ## 数据存储表地址
+
+    * 数据库地址：
+    * 表名：
\ No newline at end of file