鱼C论坛

 找回密码
 立即注册
查看: 1747|回复: 0

[作品展示] 打印html

[复制链接]
发表于 2021-2-12 22:36:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 cyy6666 于 2021-2-16 03:17 编辑
import urllib.request
import urllib.parse
import urllib.error
import json
import time
import random
import os
import re
import gzip
'''html中以"b’\x1f\x8b\x08"开头的 ,说明它是gzip压缩过的数据'''
'''不是所有网页都用utf-8'''

def url_open(url,data=None):
    head={}
    head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75'
    req=urllib.request.Request(url,data,head)
    response=urllib.request.urlopen(req)
    html=response.read()
    '''html=gzip.decompress(html)'''
    return html

'''收集ip'''
def get_ip():
    url=''
    html=url_open(url).decode('utf-8')
    p=r'(?:(?:25[0-5]|2[0-4]\d|[01]{0,1}\d{0,1}\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]{0,1}\d{0,1}\d):[^@]{1,}'
    iplist=re.findall(p,html)
    return iplist

'''代理'''
def proxy_url_open(url,data=None):
    ip=get_ip()
    while True:
        try:
            proxy_support=urllib.request.ProxyHandler({'http':random.choice(ip)})
            '''创建opener'''
            opener=urllib.request.build_opener(proxy_support)
            '''隐藏'''
            opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75')]
            '''安装opener'''
            response=opener.open(url,data)
        except:
            pass
        else:
            break
    html=response.read()
    '''html=gzip.decompress(html)'''
    return html

'''打印网页'''
def print_(url,proxy=0):
    if proxy==0:
        html=url_open(url).decode('utf-8')
    else:
        html=proxy_url_open(url).decode('utf-8')
    print(html)

if __name__=='__main__':
    while True:
        url=input('请输入网站(按0退出):')
        if url=='0':
            break
        proxy=input('是否使用代理(0不使用,1使用):')
        proxy=int(proxy)
        print_(url,proxy)

出现错误,可能是html文件需要解压,也可能是编码格式错误
新人,请大佬指教
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-16 16:06

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表