... | ... | @@ -455,6 +455,7 @@ public-company-spider-data-* |
|
|
http://192.168.109.110/granite/project-collie-app/-/tree/master/app_judicial_sale
|
|
|
```
|
|
|
## 清洗流程
|
|
|
```plantuml
|
|
|
@startuml
|
|
|
left to right direction
|
|
|
|
... | ... | @@ -472,6 +473,7 @@ tb_format_1 --> tb_format_2:解析每条标题中的公司,每条数据代表 |
|
|
tb_format_1 --> tb_format_3:将每条数据对应的每个公司都解析后写入,每条数据代表一条拍卖信息涉及的一家公司
|
|
|
|
|
|
@enduml
|
|
|
```
|
|
|
```angular2html
|
|
|
1.发布任务分为两种数据:pub_id和tb_max_ggid
|
|
|
a.pub_id:通过任务提交的pub_id,爬取对应网页"https://www.rmfysszc.gov.cn/statichtml/rm_xmdetail/pub_id",获取标题和详情,但返回的结果不能得到准确的法院名称和拍卖时间
|
... | ... | |