[已解决]第一次自主写的一个小爬虫，大家帮我看一下这个怎么治能下载几张图片就不动啦！

a243900879 · 发表于 2017-10-14 22:54:47

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 a243900879 于 2017-10-14 22:56 编辑

from bs4 import BeautifulSoup
import requests
import urllib.request
from lxml import etree

url = 'http://jandan.net/ooxx'

content = urllib.request.urlopen(url)
html = content.read()#取出源码二进制格式

'''xpath格式化'''
soup = etree.HTML(html)

'''获取最大分页数xpath'''
int_link = soup.xpath("//*[@id='comments']/div[2]/div/span/text()")
a = int(int_link[0][1:4])

url_link =[]
while a > 0:
url2 = "http://jandan.net/ooxx/page-"+ str(a)+"#comments"
url_link.append(url2)
a = a - 1

for i in url_link:
content2 = urllib.request.urlopen(i)
html2 = content2.read()
soup2 = etree.HTML(html2)
      #  '''获取图片文件名列表'''
url_link2 = soup2.xpath("//*[@id='comments']/ol/li/div/div/div[2]/p[2]/a/@href")

for i in url_link2:

            #'''获取图片'''

      name = i.split('/')[-1]
      url3 ='http:/'+ i[1:len(i)]

#'''下载图片'''

      img = urllib.request.urlopen(url3).read()

      with open(name,'wb') as f:
         f.write(img)
         print(url3)

''' //*[@id="comments"]/ol '''

最佳答案

月排行榜 / 总排行榜

Teagle

2017-10-14 23:09:10

你需要设置http头

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36'}

复制代码

服务器通过header信息判断是机器访问还是浏览器访问
如果是机器的话，访问次数过多就会拒绝访问
还有requests模板涵盖了urllib.request模块的功能，只需要使用requests模块即可

response = requests.get(url,headers=headers)

复制代码

跳转到最佳答案楼层

Teagle · 发表于 2017-10-14 23:09:10

这个最佳答案由 Teagle 给出，感谢 Teagle 的回答。

单击隐藏图章

你需要设置http头

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36'}

复制代码

服务器通过header信息判断是机器访问还是浏览器访问
如果是机器的话，访问次数过多就会拒绝访问
还有requests模板涵盖了urllib.request模块的功能，只需要使用requests模块即可

response = requests.get(url,headers=headers)

复制代码

a243900879 · 发表于 2017-10-15 23:21:19

Teagle 发表于 2017-10-14 23:09
你需要设置http头

服务器通过header信息判断是机器访问还是浏览器访问

我试试这个能行不

账号		自动登录	找回密码
密码			立即注册

[已解决]第一次自主写的一个小爬虫，大家帮我看一下这个怎么治能下载几张图片就不动啦！

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +7 鱼币

浏览过的版块