|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 cyy6666 于 2021-2-16 03:17 编辑
- import urllib.request
- import urllib.parse
- import urllib.error
- import json
- import time
- import random
- import os
- import re
- import gzip
- '''html中以"b’\x1f\x8b\x08"开头的 ,说明它是gzip压缩过的数据'''
- '''不是所有网页都用utf-8'''
- def url_open(url,data=None):
- head={}
- head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75'
- req=urllib.request.Request(url,data,head)
- response=urllib.request.urlopen(req)
- html=response.read()
- '''html=gzip.decompress(html)'''
- return html
- '''收集ip'''
- def get_ip():
- url=''
- html=url_open(url).decode('utf-8')
- p=r'(?:(?:25[0-5]|2[0-4]\d|[01]{0,1}\d{0,1}\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]{0,1}\d{0,1}\d):[^@]{1,}'
- iplist=re.findall(p,html)
- return iplist
- '''代理'''
- def proxy_url_open(url,data=None):
- ip=get_ip()
- while True:
- try:
- proxy_support=urllib.request.ProxyHandler({'http':random.choice(ip)})
- '''创建opener'''
- opener=urllib.request.build_opener(proxy_support)
- '''隐藏'''
- opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75')]
- '''安装opener'''
- response=opener.open(url,data)
- except:
- pass
- else:
- break
- html=response.read()
- '''html=gzip.decompress(html)'''
- return html
- '''打印网页'''
- def print_(url,proxy=0):
- if proxy==0:
- html=url_open(url).decode('utf-8')
- else:
- html=proxy_url_open(url).decode('utf-8')
- print(html)
- if __name__=='__main__':
- while True:
- url=input('请输入网站(按0退出):')
- if url=='0':
- break
- proxy=input('是否使用代理(0不使用,1使用):')
- proxy=int(proxy)
- print_(url,proxy)
复制代码
出现错误,可能是html文件需要解压,也可能是编码格式错误
新人,请大佬指教 |
|