关于Python爬取网页的问题

诸葛·孔明 · 发表于 2018-7-28 21:14:48

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

我之前做了一个爬取煎蛋网的爬虫（小甲鱼教程那个），但是一直不能爬取成功，我一行一行的代码测试，终于找到原因，我爬取下来的源代码与审核元素（或者是检查）的代码不一样，简单来说，我用的QQ浏览器，右键单击有个“检查”选项，我在里面找到了我想要的图片地址，而右键单击有个“检查源代码”选项，然后我发现我在源代码里面找不到那个图片的地址了（我直接爬取首页网址，爬取下来后不仅用find查找了，我还一行一行的查找，结果还是找不到），这两种代码不一样。。。。。这种情况下我要怎么爬取图片呢，源代码里根本就没有

诸葛·孔明 · 发表于 2018-7-28 21:17:01

实际上我用小甲鱼的代码也爬取失败（当然，我把代理的一部分代码给删了，没有代理）

农企崛起 · 发表于 2018-7-28 21:30:43

考虑js加载。先抓包看图片地址生成规律。实在不行就解析js吧

故梦L · 发表于 2018-7-28 21:33:15

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.common.exceptions import TimeoutException
import time
import requests
import os
'''屏蔽掉浏览器界面'''
URL = 'http://jandan.net/ooxx'
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(chrome_options = chrome_options)
wait = WebDriverWait(browser, 10)
browser.get(URL)
def next_page(): # 点击下一页
button = wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'previous-comment-page')))
return button
def cur_page(): # 获取当前页数
page = wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'current-comment-page')))
return page.text
def parse_html(lyst):
"""
:param img:单个图片链接
:param lyst:存储图片链接
"""
imgs_info = browser.find_elements_by_xpath('//*[@id="comments"]/ol/li//p/img')
for img in imgs_info:
img = img.get_attribute('src')
if img[len(img) - 3:] == 'jpg': # 剔除广告的'.gif'图片
lyst.append(img)
def dowmloader(url):
'''图片下载'''
try:
response = requests.get(url)
if response.status_code == 200:
return response.content
return None
except Exception:
pass
def save_img(img_content, num):
'''
:param img_content:二进制数据
:param num:图片保存的次序
'''
with open(str(num) + '.jpg', 'wb') as f:
f.write(img_content)
def jandan_crawlers(lyst):
'''
:param FLAG:抓取网页页数
'''
try:
current_page = cur_page()
FLAG = int(current_page[1:len(current_page) - 1])
while FLAG:
print('正在抓取煎蛋网第%d页图片' % FLAG)
parse_html(lyst)
time.sleep(3)
button = next_page()
button.click()
FLAG -= 1
if FLAG == 1:
jandan_crawlers(lyst)
FLAG = False
return lyst
except TimeoutException:
pass
if __name__ == '__main__':
input = input('请输入保存路径:')
os.mkdir(input)
os.chdir(input) # 切换图片的保存路径
lyst = []
num = 1
url_info = jandan_crawlers(lyst)
for url in url_info:
img_content = dowmloader(url)
#print('正在保存图片：' + str(num) + '.jpg')
save_img(img_content, num)
num += 1
print('煎蛋网图片抓取完成')
browser.close()

复制代码

账号		自动登录	找回密码
密码			立即注册