【爬虫】遇到了些问题
网页源码连接如下view-source:http://www.xbiquge.la/1/1508/1158793.html网页url如下:http://www.xbiquge.la/1/1508/1158793.html
代码如下:
from urllib.request import Request,urlopen
from fake_useragent import UserAgent
url = "http://www.xbiquge.la/1/1508/1158793.html"
headers={
"User-Agent":UserAgent().chrome
}
request =Request(url,headers=headers)
response = urlopen(request)
print(response.read())
但奇怪的是,响应内容居然是一堆:
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xed|iOcY\x9a\xe6\xf7\x92\xf2?\xb8\x90\xa6+B\xca\xc0A,\x95\x19\x19\xcbH\x95U\xd2\x8c\xd4S]j\xe5h\xba\xd5j\x85\x1c\xe0\x0c\xc8 \x80\x04\x93\x91\xd9\xad\x96l\x8cW\xf0\xc2\xbe\xd8\xec\x06\x82\xd5\x06\x0cx\xf7\x7f\xa9\xf4\xb9\xcb\xa7\xf8\x0b\xf3\xbc\xe7\xbd\xbe\xbe\x06\x13e\xd7|\x9d\xd4\r\xa7\xf1=\xe7=\xef\xbe\x9ds\xef\x8b\xdf\xfe\xf1\x9f\xbe\xfd\xee_\xff\xf2\'[\xbf\xeb\xfd\xa0\xed/\xff\xfb\x0f\xff\xf8?\xbf\xb5u=\xb0\xdb\xff\xcf\xe3o\xed\xf6?~\xf7G\xdb\xbf\xfc\x8f\xef\xfe\xd7?\xdaz\xba\x1f\xda\xbe\x1bu\x0c\x8d\r\xb8\x06\x86\x87\x1c\x83v\xfb\x9f\xfe\xdce\xeb\xeaw\xb9F\xbe\xb1\xdb?|\xf8\xd0\xfd\xe1q\xf7\xf0\xe8[\xfbw\xffl\xff\x99`\xf5\xd0d\xe3\xeb\x03\x97efw\x9f\xab\xaf\xeb\xd5\x17\xbfy!W\xfc\xf9\xfd\xe0\xd0\xd8\xcb\x16pz\x9e={\xc6\xd3y\xb0\xd3\xd1G\xff\x7
read之后,无法decode,(我试了一大堆编码方式,全不行)
麻烦各位帮忙看一下
爬虫这方面确实没啥经验{:10_266:} import requests
from lxml import html
url = "http://www.xbiquge.la/1/1508/1158793.html"
headers={
'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
request = requests.get(url,headers=headers)
request = request.content.decode("utf-8")
selector = html.fromstring(request)
txt_list = selector.xpath('//div[@id = "content"]/text()')
txt = ''
for i in txt_list:
i = repr(i).replace(r'\r','').replace(r'\xa0','').replace("'",'')
txt +=i
print(txt)
逃兵 发表于 2021-3-26 17:49
谢谢兄弟了,好多表达都没见过
我回去再研究研究,最佳回去后就设置哈 昨非 发表于 2021-3-26 17:52
谢谢兄弟了,好多表达都没见过
我回去再研究研究,最佳回去后就设置哈
爬虫也是我的弱项,这我抄的 逃兵 发表于 2021-3-26 20:55
爬虫也是我的弱项,这我抄的
嗯,我就是最近赶鸭子上架,直接课设上手
问题挺多的{:10_266:} url = "http://www.xbiquge.la/1/1508/1158793.html"
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
def way_1():
import requests
html = requests.get(url, headers=headers)
html.encoding = 'utf-8'
return html.text
def way_2():
from urllib.request import Request, urlopen
import gzip
request = Request(url, headers=headers)
response = urlopen(request)
return gzip.decompress(response.read()).decode("utf-8")
print(way_1())
print(way_2())
上面提供了两种方法
第一个是我自己的,第二个是在你的基础上改良的
百度是个好东西,虽然没谷歌好{:10_256:}
https://blog.csdn.net/DylanYuan/article/details/81533105 Daniel_Zhang 发表于 2021-3-27 00:43
上面提供了两种方法
第一个是我自己的,第二个是在你的基础上改良的
确实,
但现在百度体验越来越差了
净是些个广告 昨非 发表于 2021-3-27 01:12
确实,
但现在百度体验越来越差了
净是些个广告
还不睡?{:10_257:}
你想想哈,百度的对手是谁啊?没有吧应该?没个对手怎么竞争
要不是yahoo和谷歌退出中国市场,百度早就{:10_297:}
百度用户,满打满算 14亿,谷歌 70 亿{:10_250:}
页:
[1]