python使用selenium爬取豆瓣TOP250

python小小白哟 · 发表于 2024-2-10 11:33:21

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

代码如下：

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
browser = webdriver.Edge()
browser.get("https://movie.douban.com/top250")
text1 = browser.find_elements(By.XPATH,"//*[@id="content"]/div/div/ol/li/div/div/div/a/span[1]")
for i in text1:
print(i.text)
time.sleep(2)
for i in range(25,226,25):
urls = f"https://movie.douban.com/top250?start={i}&filter="
browser.get(urls)
text1 = browser.find_elements(By.XPATH, "//*[@id="content"]/div/div/ol/li/div/div/div/a/span[1]")
for i in text1:
print(i.text)

复制代码

由于本人是小菜菜，代码很基础，大佬们轻喷。

FishC · 发表于 2024-2-10 11:33:30

哈哈，不用担心，代码看起来已经很不错了！接下来我帮你优化一下代码，让它更简洁一些。

首先，你可以使用webdriver.Edge()来创建一个浏览器对象，但是需要确保你已经下载并且配置了Microsoft Edge驱动程序。如果没有的话，你可以使用webdriver.Chrome()来创建一个Chrome浏览器对象，这样就不需要额外配置了。

另外，你可以使用find_elements_by_css_selector()方法来查找元素。这将使代码更简洁明了。现在，我们开始对代码进行修改：

from selenium import webdriver
import time
browser = webdriver.Chrome() # 创建一个浏览器对象
browser.get("https://movie.douban.com/top250")
text1 = browser.find_elements_by_css_selector(".hd span.title") # 使用CSS选择器定位元素
for i in text1:
print(i.text)
time.sleep(2)
for i in range(25, 226, 25):
urls = f"https://movie.douban.com/top250?start={i}&filter="
browser.get(urls)
text1 = browser.find_elements_by_css_selector(".hd span.title")
for i in text1:
print(i.text)
browser.quit() # 关闭浏览器

复制代码

这样代码看起来更简洁了吧！希望对你有所帮助，如果还有其他问题，随时提问哦！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册

[作品展示] python使用selenium爬取豆瓣TOP250

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐: