小小小小的鱼丶 发表于 2018-7-23 14:22:08

selenium写的爬煎蛋网妹子图,当做一个补充练习吧,确实学到了很多东西

from bs4 import BeautifulSoup
from urllib.request import urlretrieve
import os
from selenium import webdriver
list_src = []
count = 10
url = 'https://jandan.net/ooxx/page-46#comments'
while count > 0 :
    options = webdriver.ChromeOptions()
    options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"')

    #下面两行为使用chrome的headless模式,即不用每次都打开浏览器的窗口
    options.add_argument('--headless')
    options.add_argument('--disable-gpu')
               
    driver=webdriver.Chrome(chrome_options=options)
    """打开网页"""
    driver.get(url)
    #selenium的page_source方法可以获取到页面源码
    """获取打开的网页源码"""
    html = driver.page_source
    driver.close()


    #用BeautifulSoup解析网页源码
    bf = BeautifulSoup(html,'lxml')
    #print(bf.prettify())
    #我们通过分析网页源码得知,图片是保存在div class='content'里面
    #用BeautifulSoup获取所有class属性content的div标签,再把每个标签的href存入list
    """
    CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,
    使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,
    可以通过 class_ 参数搜索有指定CSS类名的tag
    """
    target_urls = bf.find_all(name='div',class_='row')
    #print(target_urls)
    for each in target_urls:
      #图片网址存入列表
      list_src.append(each.img.get('src'))
    #print(list_src)
    #改变网址
    url = 'https://jandan.net/ooxx/page-%d#comments'% (count - 1)
    count -= 1

#存储图片
os.mkdir('mm')
os.chdir('mm')
for i in list_src:
    filename = os.getcwd()+'\mm'+i.split('/')[-1]
    #filename='存储路径'+'存储文件名'
    urlretrieve(i,filename)
    print('下载完成')


   

小鱼乙 发表于 2018-7-23 19:55:28

用不了啊,老哥

小小小小的鱼丶 发表于 2018-7-23 21:12:44

小鱼乙 发表于 2018-7-23 19:55
用不了啊,老哥

哪里用不了?

smoggy 发表于 2018-8-12 07:35:06

geckodriver 在Linux下怎么设置?放哪里?

随风潜航 发表于 2018-8-17 13:40:16

Traceback (most recent call last):
File "C:/Users/Administrator.20160219-151011/AppData/Local/Programs/Python/Python37-32/pc1.py", line 1, in <module>
    from bs4 import BeautifulSoup
ModuleNotFoundError: No module named 'bs4'

小小小小的鱼丶 发表于 2018-8-21 21:43:06

随风潜航 发表于 2018-8-17 13:40
Traceback (most recent call last):
File "C:/Users/Administrator.20160219-151011/AppData/Local/Pro ...

你没安bs4的库。。。

niuzi 发表于 2018-9-28 22:50:25

感谢老哥!!!!{:10_254:}{:10_254:}{:10_254:}

小小小小的鱼丶 发表于 2018-10-16 21:05:59

niuzi 发表于 2018-9-28 22:50
感谢老哥!!!!

晚上注意省体

ghoob321 发表于 2019-12-2 11:18:25

Traceback (most recent call last):
File "C:/Users/Administrator.20160219-151011/AppData/Local/Programs/Python/Python37-32/pc1.py", line 1, in <module>
    from bs4 import BeautifulSoup
ModuleNotFoundError: No module named 'bs4'

要安BS4的库

小小小小的鱼丶 发表于 2019-12-19 10:43:37

ghoob321 发表于 2019-12-2 11:18
Traceback (most recent call last):
File "C:/Users/Administrator.20160219-151011/AppData/Local/Pro ...

那就安装呀~~~
页: [1]
查看完整版本: selenium写的爬煎蛋网妹子图,当做一个补充练习吧,确实学到了很多东西