研究所爬虫项目服务器信息

0 阅读
0 评论

研究所爬虫项目服务器信息

1.数据库服务器信息

数据库服务器IP:219.153.98.130

数据库服务器端口:13306

数据库连接用户名:xueyuan

数据库连接密码: c67aK65O^6zXY#@gY#xueyuan

>

1.1 mysql网页端UI

URL: https://mysql.gandalf.fun/

2.部署服务器信息(centos7.9)

IP: 10.8.15.157

loginUser: bigdata

LoginPassword: 2cNU^jNWVSq2d@mCeHjzDr3GgaU7I*fk

2.1 部署服务器2

>ip 10.8.15.176:22

>用户:bigdata

>密码: Suyyas7-o992121hh%sa

容器化部署

>参考:http://121.40.254.222:10086/modify_doc/3/

crawlab

>测试部署服务器crawlab url:http://10.8.15.157:8080/#/home

用户名/密码:bigdata/SFz5DuppGzZCQafpMfzC

>

protainer

http://10.8.15.157:9000/#!/2/docker/containers(废弃)

用户名/密码:bigdata/JN6yMUtDUA3WFRB2vYFD

http://10.8.15.176:9000/#!/2/docker/containers
https://bigdata.gandalf.fun/
账密是admin/123456789abcd

1panel 面板

>https://1panel.gandalf.fun/20d3122c7d

bigdata/a2d50767ee

3.MinIO服务器的配置信息(附仵上传)

MINIO ENDPOINT ="10.8.15.161:9002'

MINIO ACCESS KEY="t9zAJorLjgbG15MJ9ZPy'

MINIO SECRET KEY ="XCWSxINFx9NFKVyPECnUlfRvGpo9pstEphdGMWxM

MINIO SECURE = False # 使用http而不是https

MINIO BUCKET NAME="xueyuan-spider-file"

>

3.1 MiniO WebUI 登录

url: http://10.8.15.161:9001/browser
用户名/密码:college-admin/qU9zM9kaQBkjTBsJnNF3

4. Git 服务器信息(需要VPN)

VPN账号申请联系张芮(QQ:946186017)

【腾讯文档】VPN和gitlab申请信息

https://docs.qq.com/sheet/DQm5as1hvYnhQsG1v?tab=000001

提供以下信息!

姓名 姓名全拼(小写) 电话 邮箱 部门

VPN连接

安装运行vpn客户端(qq群文档下载)

vpn用户名:姓名全拼

密码:1q@W3e$R

需配置HOSTS(C:\Windows\System32\drivers\etc\HOSTS),增加如下:

10.255.88.204 git.zdhrsoft.com

GitLab项目地址:

http://git.zdhrsoft.com/open-data-team/thematic_data_crawl

GitLab 操作手册:

https://docs.qq.com/doc/DQk9kcFJoWkFnY2dI?u=be3a6a10b50f4192a0d294ffa088d919

5. 项目其他文档

>【腾讯文档】专题数据采集全流程管理:

https://docs.qq.com/sheet/DQlZFY2N3eFhIbkhW?tab=000003

【腾讯文档】采集需求详情:

https://docs.qq.com/sheet/DQmpYSERpZmh2Z29V?tab=vyvrci

6.爬虫通用函数

爬虫通用函数

>

7.IP代理池

7.1 研究所提供的代理


def get_proxy():
    proxy_ports=[38268, 38299, 38277, 38271, 38298, 38282, 38242, 38290, 38283, 38289, 38291, 38255, 38288, 38296, 38256]
    proxy_host=f"http://admin:m8cZfDwGw1EcQoa@219.152.200.124:{random.choices(proxy_ports)[0]}"
    print(f"代理:{proxy_host}")
    return proxy_host

7.2 公共代理(仅供测试)

http://10.8.15.157:5010/get/
https代理: http://10.8.15.157:5010/get/?type=https
爬虫代码中加入以下代码


def get_proxy():
    return requests.get("http://10.8.15.157:5010/get/?type=https").json().get("proxy")

requests.get(url, headers=headers,proxies={"https": "https://{}".format(proxy)})

评论 (0)

暂无评论,快来抢沙发吧!