研究所爬虫项目服务器信息
研究所爬虫项目服务器信息
1.数据库服务器信息
数据库服务器IP:219.153.98.130
数据库服务器端口:13306
数据库连接用户名:xueyuan
数据库连接密码: c67aK65O^6zXY#@gY#xueyuan
>


1.1 mysql网页端UI
URL: https://mysql.gandalf.fun/
2.部署服务器信息(centos7.9)
IP: 10.8.15.157
loginUser: bigdata
LoginPassword: 2cNU^jNWVSq2d@mCeHjzDr3GgaU7I*fk

2.1 部署服务器2
>ip 10.8.15.176:22
>用户:bigdata
>密码: Suyyas7-o992121hh%sa
容器化部署
>参考:http://121.40.254.222:10086/modify_doc/3/
crawlab
>测试部署服务器crawlab url:http://10.8.15.157:8080/#/home
用户名/密码:bigdata/SFz5DuppGzZCQafpMfzC
>
protainer
http://10.8.15.157:9000/#!/2/docker/containers(废弃)
用户名/密码:bigdata/JN6yMUtDUA3WFRB2vYFD
http://10.8.15.176:9000/#!/2/docker/containers
https://bigdata.gandalf.fun/
账密是admin/123456789abcd
1panel 面板
>https://1panel.gandalf.fun/20d3122c7d
bigdata/a2d50767ee
3.MinIO服务器的配置信息(附仵上传)
MINIO ENDPOINT ="10.8.15.161:9002'
MINIO ACCESS KEY="t9zAJorLjgbG15MJ9ZPy'
MINIO SECRET KEY ="XCWSxINFx9NFKVyPECnUlfRvGpo9pstEphdGMWxM
MINIO SECURE = False # 使用http而不是https
MINIO BUCKET NAME="xueyuan-spider-file"
>
3.1 MiniO WebUI 登录
url: http://10.8.15.161:9001/browser
用户名/密码:college-admin/qU9zM9kaQBkjTBsJnNF3
4. Git 服务器信息(需要VPN)
VPN账号申请联系张芮(QQ:946186017)
【腾讯文档】VPN和gitlab申请信息
https://docs.qq.com/sheet/DQm5as1hvYnhQsG1v?tab=000001
提供以下信息!
姓名 姓名全拼(小写) 电话 邮箱 部门
VPN连接
安装运行vpn客户端(qq群文档下载)
vpn用户名:姓名全拼
密码:1q@W3e$R
需配置HOSTS(C:\Windows\System32\drivers\etc\HOSTS),增加如下:
10.255.88.204 git.zdhrsoft.com
GitLab项目地址:
http://git.zdhrsoft.com/open-data-team/thematic_data_crawl
GitLab 操作手册:
https://docs.qq.com/doc/DQk9kcFJoWkFnY2dI?u=be3a6a10b50f4192a0d294ffa088d919
5. 项目其他文档
>【腾讯文档】专题数据采集全流程管理:
https://docs.qq.com/sheet/DQlZFY2N3eFhIbkhW?tab=000003
【腾讯文档】采集需求详情:
https://docs.qq.com/sheet/DQmpYSERpZmh2Z29V?tab=vyvrci
6.爬虫通用函数
>
7.IP代理池
7.1 研究所提供的代理
def get_proxy():
proxy_ports=[38268, 38299, 38277, 38271, 38298, 38282, 38242, 38290, 38283, 38289, 38291, 38255, 38288, 38296, 38256]
proxy_host=f"http://admin:m8cZfDwGw1EcQoa@219.152.200.124:{random.choices(proxy_ports)[0]}"
print(f"代理:{proxy_host}")
return proxy_host
7.2 公共代理(仅供测试)
http://10.8.15.157:5010/get/
https代理: http://10.8.15.157:5010/get/?type=https
爬虫代码中加入以下代码
def get_proxy():
return requests.get("http://10.8.15.157:5010/get/?type=https").json().get("proxy")
requests.get(url, headers=headers,proxies={"https": "https://{}".format(proxy)})