爬虫问题

伏惜寒 · 发表于 2020-8-8 17:40:02

爬虫爬取结果：您的浏览器Javascript被禁用，需开启后体验完整功能
我的浏览器开启了Javascript，且爬取其他网址没有任何问题
cookies是用google的开发者工具当场抓取的放在test.txt里面的

import requests
import os, sys, stat
from lxml import etree
import time
#获取cookies
f=open(r'test.txt','r')
cookies={}
for line in f.read().split(';'):
name,value=line.strip().split('=',1)
cookies[name]=value
#换ip
proxies = {"HTTP":"163.204.240.202:9999",
"HTTPS":"110.243.13.45:9999"}
#主函数
def start_1():
url_1 = "https://wenku.baidu.com/view/1b4035173a3567ec102de2bd960590c69ec3d807.html"
response = requests.get(url_1,headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3"},\
cookies=cookies,proxies=proxies).content.decode('utf-8')
html = etree.HTML(response)
links = html.xpath("//div")
for index in range(len(links)):
# links[index]返回的是一个字典
#返回网站信息
if (index % 2) == 0:
print(links[index].tag)
print(links[index].attrib)
print(links[index].text)
start_1()

复制代码

爬虫访问百度文库被阻止，想知道是什么原因，ip，headers，cookies都加了为什么还是被拒绝了，
希望能给出问题解决方案（有解决代码就更好了）

陈尚涵 · 发表于 2020-8-9 08:48:22

看来这个网站反爬很厉害

bangbang-ande · 发表于 2020-8-9 09:30:35

本帖最后由 bangbang-ande 于 2020-8-9 09:51 编辑

百度一般不让别人去爬，爬了有可能会被封ip
以后要爬可以加robots.txt看可不可以爬而已
这是加了robots.txt后的信息（网址：点这个）
user-agent是用户（*是所有除了单列的所有爬虫）
Disallow是禁止爬https://wenku.baidu.com（网址主站（不包含/）后的位置）
例如：
内部有个这样的：

user-agent: *
disallow:/

复制代码

那么意思就是所有用户（除搜索引擎外）都不能访问https://wenku.baidu.com/后的所有网址
如果听不懂的话可已看看一个讲解视频（我也是从这里才知道的。。。）讲解视频

User-agent: 百度爬虫
Disallow: /w?
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 谷歌爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: msn机器人
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 百度图片爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 有道爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 搜狗网页爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 搜狗ai爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 搜狗爬虫2
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 搜狗博客爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 搜狗新闻爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 搜狗网络在线信息检索爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 中国搜索爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 搜搜爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 神马搜索爬虫（？？）
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
Request-rate: 30/1 # load 30 page per 1 seconds
Crawl-delay: 10
User-agent: 宜搜爬虫
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
User-agent: 头条爬虫
Disallow: /
User-agent: 其他用户
Disallow: /

复制代码

伏惜寒 · 发表于 2020-8-9 09:30:37

陈尚涵发表于 2020-8-9 08:48
看来这个网站反爬很厉害

爬的网址是百度文库的

aaron.yang · 发表于 2020-8-9 09:35:52

被反爬了？建议不要爬百度

伏惜寒 · 发表于 2020-8-9 09:47:38

aaron.yang 发表于 2020-8-9 09:35
被反爬了？建议不要爬百度

啊，这，不是吧，那么厉害的吗

伏惜寒 · 发表于 2020-8-9 09:48:15

bangbang-ande 发表于 2020-8-9 09:30
百度一般不让别人去爬，爬了有可能会被封ip
以后要爬可以加robots.txt

怎么查robots.txt，今天才第二次玩爬虫不懂这些

bangbang-ande · 发表于 2020-8-9 09:52:25

伏惜寒发表于 2020-8-9 09:48
怎么查robots.txt，今天才第二次玩爬虫不懂这些

这个等审核完就知道了。。。

bangbang-ande · 发表于 2020-8-9 09:53:59

伏惜寒发表于 2020-8-9 09:48
怎么查robots.txt，今天才第二次玩爬虫不懂这些

百度一般不能爬，可以爬的就可能只有百度指数一个了。。。

bangbang-ande · 发表于 2020-8-9 09:57:05

伏惜寒发表于 2020-8-9 09:48
怎么查robots.txt，今天才第二次玩爬虫不懂这些

先给个链接：https://www.bilibili.com/video/BV1o7411q7za?p=4，你看看，比较可靠

伏惜寒 · 发表于 2020-8-9 10:04:41

bangbang-ande 发表于 2020-8-9 09:53
百度一般不能爬，可以爬的就可能只有百度指数一个了。。。

我是看别人爬到了，我才来试一试的

xhs.get · 发表于 2020-8-9 22:18:03

robots协议只是提倡。如果你没有高频的请求看上去像是攻击一样就没事的对个人而言。我觉得你的这个问题应该就是直接浏览器的问题。我用selenium库爬百度文库没问题的。
还有啊百度文库你这样爬的话应该的爬不到你想要的内容的有个异步加载。

账号		自动登录	找回密码
密码			立即注册