Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
  • innocom

Last edited by 章一锋 Feb 23, 2023
Page history
This is an old version of this page. You can view the most recent version or browse the history.

innocom

基本信息

数据名称(中文)

高新技术企业

数据英文名称

innocom

采集网站(采集入口)

http://www.innocom.gov.cn/web-comment/extend/comment/queryNew

采集频率及采集策略

存量更新策略

每次重新刷一边

增量采集策略

新增数据来源于收集

爬虫

责任人

章一锋

爬虫名称

innocom

代码地址

http://tech.pingansec.com/granite/project-gravel/-/blob/develop_innocom/scrapy_spiders/gravel_spiders/spiders/inno_com.py

队列名称及队列地址

* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
* redis port: 6379
* redis db: 7
* redis key: innocom

优先级队列说明

任务来源

任务数据:http://tech.pingansec.com/granite/project-gravel/-/blob/develop_innocom/app_innocom/data_dump/company_list.txt
导入任务配置文件路径:http://tech.pingansec.com/granite/project-gravel/-/blob/develop_innocom/app_innocom/data_dump/innocom.yml

任务输入参数(样例)

任务样例

{
  "company_name": "拔萃视觉服务旗舰店",             #公司名称
  "platform_shop_id": "91110109MA00G83K9Y",     #统一信用代码
}

任务参数说明

data_type说明

  detail: 详情

爬虫结果的超级数据

  {
    "data": [
      {
        "cognizanceOrgan": "北京市认定机构办公室",
        "effeTimeEnd": "2021年11月30日",
        "entName": "北京立言科技有限公司",
        "effeTimeBegin": "2018年11月30日",
        "corCode": "91110108MA004FNG7Q",
        "state": "有效",
        "certificateNum": "GR201811008154"
      }
    ],
    "http_code": 200,
    "error_msg": "",
    "task_result": 1000,
    "data_type": "detail",
    "spider_start_time": "2021-10-20 14:23:35.792",
    "spider_end_time": "2021-10-20 14:23:38",
    "task_params": {
      "company_name": "北京立言科技有限公司",
      "credit_no": "91110108MA004FNG7Q"
    },
    "metadata": {},
    "spider_name": "innocom",
    "spider_ip": "10.8.6.51"
  }

实际爬虫结果的数据结构

爬虫运行环境

scrapy

爬虫部署信息

爬虫运行机器:10.8.6.51
进程数:30
项目名称:innocom
任务提交机器:10.8.6.63
任务提交方式:crontab

Taskhub地址

http://tech.pingansec.com/granite/project-taskhub/-/blob/master/taskhub/config/gravel/config.d/innocom.yaml

Taskhub调度规则说明

task_result为以下值时被过滤:
  - 1000
  - 1101
  - 1102
  - 2001
  - 7000
  - 9300
其他值的任务都会被放入队列

爬虫监控指标设计

爬虫待采集结果目录


/data/gravel_spiders/innocom

数据归集

责任人

数据归集方式

  • 爬虫直接写kafka

  • [ x ] 爬虫写文件logstash采集

    归集后存放目录

    logstash配置文件名称

    logstash文件采集type

    数据归集的topic

    general-taxpayer

    ES日志索引及筛选条件

    gravel-spider-data*  spider_name is innocom

监控指标看板

数据保留策略


数据清洗

责任人

代码地址

部署地址

部署方法及说明

  • crontab + data_pump

  • supervisor + data_pump

  • supervisor + consumer

    数据接收来源

    数据存储表地址

    • 数据库地址:
    • 表名:
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages