|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
新学pyhton小菜鸟,在爬站的时候遇到了个问题,还请大家指点。
- import urllib.request
- import requests
- import re
- import os
- #####get_pagelist、get_postlist、get_imglist######
- def get_html(url):
- res = requests.get(url)
- return res.text
- def down(url):
- url = pagelist[0]
- posttemp = re.compile(r'<a href="(/meituisiwatupian/\d+/\d+\.html)" t')
- html = get_html(url)
- postlistx = re.findall(posttemp,html)
- print(postlistx)
-
-
- #postlist内为无域名列表
-
- if __name__=='__main__':
- page = 1
- pagelist = []
- while True:
- if page > 5:
- break
- url = "http://www.tu11.com/meituisiwatupian/list_2_" + str(page) + ".html"
- pagelist.append(url)
- page += 1
- down(url)
复制代码
当前写到这里写不下去了,这个破站的postlist前面没有域名,本想写个循环,把列表内所有元素历遍出来加上域名再存个新的列表,又觉得不符合我们大python的简洁,所以一定有更好的办法。
求各位大神指点! |
|