鱼C论坛

 找回密码
 立即注册
查看: 1813|回复: 9

[原创] selenium写的爬煎蛋网妹子图,当做一个补充练习吧,确实学到了很多东西

[复制链接]
发表于 2018-7-23 14:22:08 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. from bs4 import BeautifulSoup
  2. from urllib.request import urlretrieve
  3. import os
  4. from selenium import webdriver
  5. list_src = []
  6. count = 10
  7. url = 'https://jandan.net/ooxx/page-46#comments'
  8. while count > 0 :
  9.     options = webdriver.ChromeOptions()
  10.     options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"')

  11.     #下面两行为使用chrome的headless模式,即不用每次都打开浏览器的窗口
  12.     options.add_argument('--headless')
  13.     options.add_argument('--disable-gpu')
  14.                
  15.     driver=webdriver.Chrome(chrome_options=options)
  16.     """打开网页"""
  17.     driver.get(url)
  18.     #selenium的page_source方法可以获取到页面源码
  19.     """获取打开的网页源码"""
  20.     html = driver.page_source
  21.     driver.close()


  22.     #用BeautifulSoup解析网页源码
  23.     bf = BeautifulSoup(html,'lxml')
  24.     #print(bf.prettify())
  25.     #我们通过分析网页源码得知,图片是保存在div class='content'里面
  26.     #用BeautifulSoup获取所有class属性content的div标签,再把每个标签的href存入list
  27.     """
  28.     CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,
  29.     使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,
  30.     可以通过 class_ 参数搜索有指定CSS类名的tag
  31.     """
  32.     target_urls = bf.find_all(name='div',class_='row')
  33.     #print(target_urls)
  34.     for each in target_urls:
  35.         #图片网址存入列表
  36.         list_src.append(each.img.get('src'))
  37.     #print(list_src)
  38.     #改变网址
  39.     url = 'https://jandan.net/ooxx/page-%d#comments'% (count - 1)
  40.     count -= 1

  41. #存储图片
  42. os.mkdir('mm')
  43. os.chdir('mm')
  44. for i in list_src:
  45.     filename = os.getcwd()+'\mm'+i.split('/')[-1]
  46.     #filename='存储路径'+'存储文件名'
  47.     urlretrieve(i,filename)
  48.     print('下载完成')


  49.    
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-7-23 19:55:28 | 显示全部楼层
用不了啊,老哥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-7-23 21:12:44 | 显示全部楼层

哪里用不了?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-12 07:35:06 | 显示全部楼层
geckodriver 在Linux下怎么设置?放哪里?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-17 13:40:16 | 显示全部楼层
Traceback (most recent call last):
  File "C:/Users/Administrator.20160219-151011/AppData/Local/Programs/Python/Python37-32/pc1.py", line 1, in <module>
    from bs4 import BeautifulSoup
ModuleNotFoundError: No module named 'bs4'
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-21 21:43:06 | 显示全部楼层
随风潜航 发表于 2018-8-17 13:40
Traceback (most recent call last):
  File "C:/Users/Administrator.20160219-151011/AppData/Local/Pro ...

你没安bs4的库。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-28 22:50:25 | 显示全部楼层
感谢老哥!!!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-10-16 21:05:59 | 显示全部楼层
niuzi 发表于 2018-9-28 22:50
感谢老哥!!!!

晚上注意省体
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-2 11:18:25 | 显示全部楼层
Traceback (most recent call last):
  File "C:/Users/Administrator.20160219-151011/AppData/Local/Programs/Python/Python37-32/pc1.py", line 1, in <module>
    from bs4 import BeautifulSoup
ModuleNotFoundError: No module named 'bs4'

要安BS4的库
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-12-19 10:43:37 | 显示全部楼层
ghoob321 发表于 2019-12-2 11:18
Traceback (most recent call last):
  File "C:/Users/Administrator.20160219-151011/AppData/Local/Pro ...

那就安装呀~~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 01:50

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表