为什么我的爬虫都被禁，怎么解决呢？

FavouritePython · 发表于 2015-7-16 22:48:07

urllib.error.HTTPError: HTTP Error 403: Forbidden
百度贴吧啊，煎蛋啊之类的。每次一用爬虫就报错。
尤其是煎蛋，我用甲鱼哥的代码也搞不定啊。。。有谁知道该怎么修改后能用吗？
代码就是小甲鱼视频课件的代码
一直搞不定。爬虫已经不知道怎么学了。。。。求大牛。。。

～风介～ · 发表于 2015-7-16 23:47:32

这个我也搞不定

试试scrapy框架？

qianczar · 发表于 2015-7-18 00:10:20

本帖最后由 qianczar 于 2015-7-18 00:20 编辑

试试requests？
这个是简单的翻译，都是几个最常用的功能，加入headers等是官方文档中没讲的http://www.zhidaow.com/post/python-requests-install-and-brief-introduction

这个是官方文档：http://cn.python-requests.org/zh_CN/latest/

它比urllib的方法方便很多。

你被禁，估计也就是要加代理IP，或者要加cookies等，加代理里面有介绍，加cookies也就是加个headers，也有介绍。

如果你爬煎蛋，而且用urllib，你可以学习下这个帖子http://bbs.fishc.com/thread-61650-1-1.html，他解决了更换IP的问题。

默.默 · 发表于 2015-7-19 13:45:07

回复有鱼币？鱼币不够用怎么办？

qianczar · 发表于 2015-7-19 18:12:40

默.默发表于 2015-7-19 13:45
回复有鱼币？鱼币不够用怎么办？

来我这个提问下回复，因为问题我已经自己解决了，鱼币送你。
http://bbs.fishc.com/thread-61496-1-1.html

昨、夜星辰 · 发表于 2015-7-20 09:46:49

用requests应该可以爬取煎蛋的内容，撸主需要爬哪些内容？我可以试着啪啪……

FavouritePython · 发表于 2015-7-20 11:36:17

昨、夜星辰发表于 2015-7-20 09:46
用requests应该可以爬取煎蛋的内容，撸主需要爬哪些内容？我可以试着啪啪……

有用过，小甲鱼视频里不是有用request来修改user-agent嘛。还有代理IP，都用过啊，没用啊。。。。

昨、夜星辰 · 发表于 2015-7-20 12:11:50

FavouritePython 发表于 2015-7-20 11:36
有用过，小甲鱼视频里不是有用request来修改user-agent嘛。还有代理IP，都用过啊，没用啊。。。。

# -*- coding: utf-8 -*-
import requests
from lxml import etree
url = 'http://jandan.net/'
s = requests.session()
s.headers.update({'User-Agent': 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36'})
html = s.get(url).content
selector = etree.HTML(html)
titles = selector.xpath('//*[@id="content"]/div/div[2]/h2/a/text()')
for title in titles:
print title

复制代码

这是我刚写的代码，简单地抓取每个标题。

249018563 · 发表于 2015-8-26 15:56:22

import urllib.request
import os
import random

def url_open(url):
data=None
#'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'#
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'}
req = urllib.request.Request(url,data,headers)
#proxies = ['117.177.243.43:8086']
#proxy = random.choice(proxies)
#'124.93.222.95:8080'
#proxy_support = urllib.request.ProxyHandler({"http":proxy})
#opener = urllib.request.build_opener(proxy_support)
#urllib.request.install_opener(opener)
response = urllib.request.urlopen(req)
html = response.read()

return html


def get_page(url):
html = url_open(url).decode('utf-8')

a = html.find('current-comment-page') + 23
b = html.find(']',a)

return html[a:b]

def find_imgs(url):
html = url_open(url).decode('utf-8')
img_addrs = []
a = html.find('img src=')
while a != -1:
      b = html.find('.jpg',a,a+255)
      if b != -1:
         img_addrs.append(html[a+9:b+4])
      else:
         b = a+9
      a = html.find('img src',b)
return img_addrs



def save_imgs(folder,img_addrs):
for each in img_addrs:
      filename = each.split('/')[-1]
      with open(filename,'wb') as f:
         img =url_open(each)
         f.write(img)

def download_mm(floder='煎蛋网爬虫',pages=10):
os.mkdir(floder)
os.chdir(floder)

url ="http://jandan.net/ooxx/"
page_num = int(get_page(url))

for i in range(pages):
      page_num -= i
      page_url = url + 'page-' + str(page_num) +'#comments'
      img_addrs = find_imgs(page_url)
      save_imgs(floder,img_addrs)

if __name__ == '__main__':
download_mm()

249018563 · 发表于 2015-8-26 15:57:02

刚刚侧试过没问题~

249018563 · 发表于 2015-8-26 16:00:34

def url_open(url):
data=None
#'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'#
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'}
req = urllib.request.Request(url,data,headers)
#proxies = ['117.177.243.43:8086']
#proxy = random.choice(proxies)
#'124.93.222.95:8080'
#proxy_support = urllib.request.ProxyHandler({"http":proxy})
#opener = urllib.request.build_opener(proxy_support)
#urllib.request.install_opener(opener)
response = urllib.request.urlopen(req)
html = response.read()

return html
这是重点的修改部分 req = urllib.request.Request(url,data,headers)括号里这个三个参数都要有data=NONE可以没有，如果不写这些参数，让PYTHON默认的话，网站会查出来是你用PYTHON在爬虫，就禁止你爬了

Gordonzf · 发表于 2015-9-10 14:37:35

学习

xuff · 发表于 2015-9-23 16:27:51

回复赚鱼币，抱歉，为了作业~

旋转风 · 发表于 2015-11-26 10:03:07

我是来学习的，看看大牛的精彩解答

dps521 · 发表于 2015-11-28 11:55:21

:smile:smile:smile:smile:smile

账号		自动登录	找回密码
密码			立即注册

为什么我的爬虫都被禁，怎么解决呢？

浏览过的版块