鱼C论坛

 找回密码
 立即注册
查看: 2913|回复: 0

[作品展示] 打印html

[复制链接]
发表于 2021-2-12 22:36:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 cyy6666 于 2021-2-16 03:17 编辑
  1. import urllib.request
  2. import urllib.parse
  3. import urllib.error
  4. import json
  5. import time
  6. import random
  7. import os
  8. import re
  9. import gzip
  10. '''html中以"b’\x1f\x8b\x08"开头的 ,说明它是gzip压缩过的数据'''
  11. '''不是所有网页都用utf-8'''

  12. def url_open(url,data=None):
  13.     head={}
  14.     head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75'
  15.     req=urllib.request.Request(url,data,head)
  16.     response=urllib.request.urlopen(req)
  17.     html=response.read()
  18.     '''html=gzip.decompress(html)'''
  19.     return html

  20. '''收集ip'''
  21. def get_ip():
  22.     url=''
  23.     html=url_open(url).decode('utf-8')
  24.     p=r'(?:(?:25[0-5]|2[0-4]\d|[01]{0,1}\d{0,1}\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]{0,1}\d{0,1}\d):[^@]{1,}'
  25.     iplist=re.findall(p,html)
  26.     return iplist

  27. '''代理'''
  28. def proxy_url_open(url,data=None):
  29.     ip=get_ip()
  30.     while True:
  31.         try:
  32.             proxy_support=urllib.request.ProxyHandler({'http':random.choice(ip)})
  33.             '''创建opener'''
  34.             opener=urllib.request.build_opener(proxy_support)
  35.             '''隐藏'''
  36.             opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75')]
  37.             '''安装opener'''
  38.             response=opener.open(url,data)
  39.         except:
  40.             pass
  41.         else:
  42.             break
  43.     html=response.read()
  44.     '''html=gzip.decompress(html)'''
  45.     return html

  46. '''打印网页'''
  47. def print_(url,proxy=0):
  48.     if proxy==0:
  49.         html=url_open(url).decode('utf-8')
  50.     else:
  51.         html=proxy_url_open(url).decode('utf-8')
  52.     print(html)

  53. if __name__=='__main__':
  54.     while True:
  55.         url=input('请输入网站(按0退出):')
  56.         if url=='0':
  57.             break
  58.         proxy=input('是否使用代理(0不使用,1使用):')
  59.         proxy=int(proxy)
  60.         print_(url,proxy)
复制代码


出现错误,可能是html文件需要解压,也可能是编码格式错误
新人,请大佬指教
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-28 00:09

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表