[已解决]爬虫求助

天圆突破 · 发表于 2018-11-5 17:09:27

写爬虫第一次遇到这种情况

class DIN:
def __init__(self):
self.url = 'https://www.din.de/en'
self.session = requests.Session()
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6756.400 QQBrowser/10.3.2473.400',
'Host': 'www.din.de',
}
self.get_url()
def get_url(self):
with self.session.get(url=self.url, headers=self.headers) as response:
soup = BeautifulSoup(response.text, 'lxml')
print(soup)
if __name__ == '__main__':
DIN()

复制代码

body是空的，head里面出现【<noscript>Please enable JavaScript to view the page content.<br/>Your support ID is: 9356778754779032908.</noscript>】
但是我抓包并没有发现重定向，并且response是一次返回。难不成整个页面都是用js渲染出来的么？
想了解一下原理，求爬虫大佬帮忙指点一下

最佳答案

月排行榜 / 总排行榜

wongyusing

2018-11-5 17:09:28

本帖最后由 wongyusing 于 2018-11-5 23:56 编辑

怎么说好呢？？
首先，你并没有获取到真正的网页源代码的原因是。
当你请求这个网页的时候，它会向你发送一个曲奇（英文，直接发英文会被审核）
然后再把你重定向到真正的网页。
注意，这个网页的曲奇是会你的操作变化而变化的
会不断地ajxa后端来更换曲奇。
可以说，反爬措施很强
建议直接用seleium吧
用requests也可以，但是很麻烦。要不断的请求ajxa请求后端来获取曲奇

总的来说，你请求的header不完整

至于你为什么抓包的时候没有发现重定向是因为你的浏览器含有这个网站的曲奇，导致你看不到重定向。

你可以新建一个隐身窗口，按下F12，然后打开这个网页就可以发现重定向了（网速要慢一点，恰好我在下载东西。才发现的）

跳转到最佳答案楼层

wongyusing · 发表于 2018-11-5 17:09:28

这个最佳答案由 wongyusing 给出，感谢 wongyusing 的回答。

单击隐藏图章

本帖最后由 wongyusing 于 2018-11-5 23:56 编辑

怎么说好呢？？
首先，你并没有获取到真正的网页源代码的原因是。
当你请求这个网页的时候，它会向你发送一个曲奇（英文，直接发英文会被审核）
然后再把你重定向到真正的网页。
注意，这个网页的曲奇是会你的操作变化而变化的
会不断地ajxa后端来更换曲奇。
可以说，反爬措施很强
建议直接用seleium吧
用requests也可以，但是很麻烦。要不断的请求ajxa请求后端来获取曲奇

总的来说，你请求的header不完整

至于你为什么抓包的时候没有发现重定向是因为你的浏览器含有这个网站的曲奇，导致你看不到重定向。

你可以新建一个隐身窗口，按下F12，然后打开这个网页就可以发现重定向了（网速要慢一点，恰好我在下载东西。才发现的）

塔利班 · 发表于 2018-11-5 17:16:06

感觉是，等大佬解答

天圆突破 · 发表于 2018-11-5 17:42:20

本帖最后由天圆突破于 2018-11-5 17:43 编辑

from selenium import webdriver
import time
class DIN:
def __init__(self):
driver = webdriver.Chrome()
driver.get('https://www.din.de/en')
elem = driver.page_source
time.sleep(20)
print(elem)
if __name__ == '__main__':
DIN()

复制代码

好吧，看来确实是JS渲染的整个页面……感觉好可怜，这个网站估计被爬虫整疯了，这么低的渲染效率，看来是完全不在乎用户体验了。
但是这个网站的JS代码完全看不懂啊，而且selenium效率低到令人发指
有什么办法能提高selenium的效率吗？

塔利班 · 发表于 2018-11-5 17:43:55

无头禁图片

幽梦三影 · 发表于 2018-11-5 20:15:51

天圆突破发表于 2018-11-5 17:42
好吧，看来确实是JS渲染的整个页面……感觉好可怜，这个网站估计被爬虫整疯了，这么低的渲染效率，看来 ...

scrapy-splash了解一下

考拉熊 · 发表于 2018-11-6 09:16:22

过来顶一下

第五 · 发表于 2018-11-6 10:37:14

路过

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫求助

最佳答案

浏览过的版块