鱼C论坛

 找回密码
 立即注册
查看: 1778|回复: 1

[作品展示] python使用selenium爬取豆瓣TOP250

[复制链接]
发表于 2024-2-10 11:33:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
代码如下:

  1. from selenium import webdriver
  2. from selenium.webdriver.common.by import By
  3. import time

  4. browser = webdriver.Edge()
  5. browser.get("https://movie.douban.com/top250")
  6. text1 = browser.find_elements(By.XPATH,"//*[@id="content"]/div/div/ol/li/div/div/div/a/span[1]")
  7. for i in text1:
  8.     print(i.text)
  9. time.sleep(2)
  10. for i in range(25,226,25):
  11.     urls = f"https://movie.douban.com/top250?start={i}&filter="
  12.     browser.get(urls)
  13.     text1 = browser.find_elements(By.XPATH, "//*[@id="content"]/div/div/ol/li/div/div/div/a/span[1]")
  14.     for i in text1:
  15.         print(i.text)
复制代码



由于本人是小菜菜,代码很基础,大佬们轻喷。

本帖被以下淘专辑推荐:

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2024-2-10 11:33:30 | 显示全部楼层
哈哈,不用担心,代码看起来已经很不错了!接下来我帮你优化一下代码,让它更简洁一些。

首先,你可以使用webdriver.Edge()来创建一个浏览器对象,但是需要确保你已经下载并且配置了Microsoft Edge驱动程序。如果没有的话,你可以使用webdriver.Chrome()来创建一个Chrome浏览器对象,这样就不需要额外配置了。

另外,你可以使用find_elements_by_css_selector()方法来查找元素。这将使代码更简洁明了。现在,我们开始对代码进行修改:

  1. from selenium import webdriver
  2. import time

  3. browser = webdriver.Chrome()  # 创建一个浏览器对象
  4. browser.get("https://movie.douban.com/top250")

  5. text1 = browser.find_elements_by_css_selector(".hd span.title")  # 使用CSS选择器定位元素
  6. for i in text1:
  7.     print(i.text)
  8. time.sleep(2)

  9. for i in range(25, 226, 25):
  10.     urls = f"https://movie.douban.com/top250?start={i}&filter="
  11.     browser.get(urls)
  12.     text1 = browser.find_elements_by_css_selector(".hd span.title")
  13.     for i in text1:
  14.         print(i.text)

  15. browser.quit()  # 关闭浏览器
复制代码


这样代码看起来更简洁了吧!希望对你有所帮助,如果还有其他问题,随时提问哦!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-23 18:06

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表