关于selenuim的问题求助

海风zZ · 发表于 2019-1-8 12:52:58

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
from selenium import webdriver
from bs4 import BeautifulSoup
url = r'http://xueqiu.com/#/cn'
headers = {'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0',
}
response = requests.get(url,headers = headers)
req_1 = response.content
req_2 = response.text
soup = BeautifulSoup(req_1,'lxml')
article_divs_1 = soup.findAll('div', {'class': 'home__timeline__item'})
print(len(article_divs_1))
driver = webdriver.Chrome()
driver.get(url)
print(len(driver.page_source))
soup = BeautifulSoup(driver.page_source,'lxml')
article_divs_2 = soup.findAll('div', {'class': 'home__timeline__item'})
print(len(article_divs_2))
driver.close()

复制代码

问题如下：
1、requests返回的content和text有什么区别啊？
2、driver.page_source返回的数据和content和text都不一样啊？能返回查看网页源码看不到的数据。
3、对于那种网页审查元素可以看到源代码而查看网页源码却看不见全部代码的网站怎么爬取啊，抓包还是用selenuim呢？

那皇沫路python · 发表于 2019-1-8 18:13:48

content返回的是二进制数据，而text返会的是文本数据，实际上也就是content的进一步转化为子符串，在网页传输中，传的就是二进制数据，所以假如你想下载一张图片保存，返回的也就要是content二进制数据，然后打开文件写，就可以得到那张图片，如果是文本数据，则使用text转化，这根据需求而定，对于driver.page_source，这个返回的也是文本数据，而你想的对于不全的页面想去全部显示，那么你就要用到selenuim，这个模块，封装了许多模拟点击的事件，实际也就是模拟浏览器的行为，模拟向下滑动事件就可以显示全部网页源代码

账号		自动登录	找回密码
密码			立即注册

关于selenuim的问题求助

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块