获取网页源代码出错
import requestsimport re
link='http://maoyan.com/board/4'
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
}
response=requests.get(url=link,headers=headers)
print(response.text)
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
item=re.findall(pattern,response.text)
print(item)
获取源代码后总是出现乱码,出现类似于background:url('data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAKQAAABsCAYAAADkDhmYAAAAGXRFWHRTb2Z0d2FyZQBBZG9iZSBJbWFnZVJlYWR5ccllPAAAAyNpVFh0WE1MOmNvbS5hZG9iZS54bXAAAAAAADw/eHBhY2tldCBiZWdpbj0i77u/IiBpZD0iVzVNME1wQ2……
这种很长的字符串,请问这个字符串是什么意思,另外想问下headers是什么,headers={……}括号内的内容是怎么写出来的 headers就是请求头。。。。。。。
你这个概念也没掌握,是刚学爬虫啊。。。。。就选有验证码的网站。。。。。。
先从简单的静态网页开始练习吧,比如小说网站。。。。。。。 疾风怪盗 发表于 2020-10-13 17:19
headers就是请求头。。。。。。。
你这个概念也没掌握,是刚学爬虫啊。。。。。就选有验证码的网站。。 ...
哈哈哈哈,好的,我现在刚接触,没想那么多,谢谢 这个 这种很长的字符串是图片的base64,可以直接作为url打开 background:url('data:image/png;base64,iVBORw0KGgoAAAANS。。。
background是css的背景图 url('data:image/png;base64,) url解析base64为png
png有RGBA4个通道,每个通道范围分别是00到ff.最终base64解析为uint8ClampedArray。
图片的每个像素点的rgba都有 就是图像了{:10_258:}
kogawananari 发表于 2020-10-13 23:19
background:url('data:image/png;base64,iVBORw0KGgoAAAANS。。。
background是css的背景图 url('data:ima ...
对图像这一块,一窍不通
页:
[1]