[已解决]关于小甲鱼爬虫课有点没看懂......

2271040868 · 发表于 2023-5-2 16:30:09

下面是小甲鱼爬豆瓣top250的代码，有两个个地方没看懂......求大佬解答
1.关于找出多少个页面那，没看懂depth会得到什么为什么要int
2.re模块是什么，速查手册里没有，下面好像也没看到使用
3.评分那怎么append（' 评分：%s '），不应该只要（"评分："）吗
4.资料那个的分切没看懂怎么切的  网页源码在下面的图片里

问题有点多，大佬们挑不麻烦的回复一下吧

import requests
import bs4
import re

def open_url(url):
# 使用代理
# proxies = {"http": "127.0.0.1:1080", "https": "127.0.0.1:1080"}
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}

# res = requests.get(url, headers=headers, proxies=proxies)
res = requests.get(url, headers=headers)

return res

def find_movies(res):
soup = bs4.BeautifulSoup(res.text, 'html.parser')

# 电影名
movies = []
targets = soup.find_all("div", class_="hd")
for each in targets:
      movies.append(each.a.span.text)

# 评分
ranks = []
targets = soup.find_all("span", class_="rating_num")
for each in targets:
      ranks.append(' 评分：%s ' % each.text)

# 资料
messages = []
targets = soup.find_all("div", class_="bd")
for each in targets:
      try:
         messages.append(each.p.text.split('\n')[1].strip() + each.p.text.split('\n')[2].strip())
      except:
         continue

result = []
length = len(movies)
for i in range(length):
      result.append(movies[i] + ranks[i] + messages + '\n')

return result

# 找出一共有多少个页面
def find_depth(res):
soup = bs4.BeautifulSoup(res.text, 'html.parser')
depth = soup.find('span', class_='next').previous_sibling.previous_sibling.text

return int(depth)

def main():
host = "https://movie.douban.com/top250"
res = open_url(host)
depth = find_depth(res)

result = []
for i in range(depth):
      url = host + '/?start=' + str(25 * i)
      res = open_url(url)
      result.extend(find_movies(res))

with open("豆瓣TOP250电影.txt", "w", encoding="utf-8") as f:
      for each in result:
         f.write(each)

if __name__ == "__main__":
main()
[/i][/i]

最佳答案

月排行榜 / 总排行榜

isdkz

2023-5-2 16:30:10

本帖最后由 isdkz 于 2023-5-2 16:34 编辑

1. 关于找出多少个页面的问题：在这个代码中，页面是通过在url中传入参数start来控制的，每页默认显示25条数据。在函数find_depth中，使用BeautifulSoup解析res.text得到soup对象，再通过soup.find()方法找到class为"next"的span标签，然后通过previous_sibling.previous_sibling属性找到该标签前面的兄弟标签，即包含总页数的标签，使用.text属性获得该标签中的文本内容，也就是总页数。但是，soup.find()方法返回的是一个Tag对象，而该对象的previous_sibling.previous_sibling属性返回的是一个NavigableString对象，该对象的text属性返回的才是包含总页数的文本内容。由于该文本内容是数字字符串，需要使用int()函数将其转换为整数类型，作为返回值。

2. 关于re模块的问题：re模块是Python中用于进行正则表达式操作的模块。在这个代码中没有直接使用到re模块，但是在其他程序中可能会用到。例如，当需要从一段文本中提取出满足特定格式要求的字符串时，可以使用re模块的正则表达式匹配功能进行提取。

3. 关于评分那里的问题：这里的代码使用了字符串的格式化功能，将每个电影的评分信息格式化为字符串后，使用append()方法添加到ranks列表中。'%s'是格式化字符串的占位符，表示在该位置处填入一个字符串，使用%运算符将要填入的字符串传入即可。在这个代码中，ranks列表中的每个元素是一个字符串，格式为"评分：x.x"。

4. 关于资料那里的问题：在这里，使用了字符串的split()方法对每个电影的资料进行分割。对于每个包含电影资料的标签，其p标签中的文本内容都是按照一定的格式排列的，其中第2行和第3行分别包含了电影的年份和导演信息。使用split('\n')方法将文本内容按行分割成一个列表，然后使用[1]和[2]索引提取出第2行和第3行，使用strip()方法去除空白字符后，使用"+"号将两个字符串拼接成一个字符串，作为该电影的资料信息。

跳转到最佳答案楼层

isdkz · 发表于 2023-5-2 16:30:10

本帖最后由 isdkz 于 2023-5-2 16:34 编辑

1. 关于找出多少个页面的问题：在这个代码中，页面是通过在url中传入参数start来控制的，每页默认显示25条数据。在函数find_depth中，使用BeautifulSoup解析res.text得到soup对象，再通过soup.find()方法找到class为"next"的span标签，然后通过previous_sibling.previous_sibling属性找到该标签前面的兄弟标签，即包含总页数的标签，使用.text属性获得该标签中的文本内容，也就是总页数。但是，soup.find()方法返回的是一个Tag对象，而该对象的previous_sibling.previous_sibling属性返回的是一个NavigableString对象，该对象的text属性返回的才是包含总页数的文本内容。由于该文本内容是数字字符串，需要使用int()函数将其转换为整数类型，作为返回值。

2. 关于re模块的问题：re模块是Python中用于进行正则表达式操作的模块。在这个代码中没有直接使用到re模块，但是在其他程序中可能会用到。例如，当需要从一段文本中提取出满足特定格式要求的字符串时，可以使用re模块的正则表达式匹配功能进行提取。

3. 关于评分那里的问题：这里的代码使用了字符串的格式化功能，将每个电影的评分信息格式化为字符串后，使用append()方法添加到ranks列表中。'%s'是格式化字符串的占位符，表示在该位置处填入一个字符串，使用%运算符将要填入的字符串传入即可。在这个代码中，ranks列表中的每个元素是一个字符串，格式为"评分：x.x"。

4. 关于资料那里的问题：在这里，使用了字符串的split()方法对每个电影的资料进行分割。对于每个包含电影资料的标签，其p标签中的文本内容都是按照一定的格式排列的，其中第2行和第3行分别包含了电影的年份和导演信息。使用split('\n')方法将文本内容按行分割成一个列表，然后使用[1]和[2]索引提取出第2行和第3行，使用strip()方法去除空白字符后，使用"+"号将两个字符串拼接成一个字符串，作为该电影的资料信息。

陶远航 · 发表于 2023-5-2 16:31:17

本帖最后由陶远航于 2023-5-2 16:49 编辑

在这个代码中，depth 表示总共有多少个页面需要爬取。在函数 find_depth 中，通过 BeautifulSoup 库找到 "下一页" 的前一个兄弟节点，这个节点的文本内容就是当前页面的页码。因为这个文本内容是字符串类型的，需要用 int() 函数将其转换为整数类型，才能进行计算。

re 模块是 Python 的正则表达式库，它提供了强大的字符串匹配和处理功能。在这个代码中，re 模块没有被直接调用，但是通过使用 bs4 库的 find_all 方法的 class_ 参数来定位 HTML 元素时，可以用到正则表达式的语法。

代码中使用了字符串格式化的方式来将电影评分添加到 result 列表中。' 评分：%s ' 表示输出字符串中有一个占位符 %s，用来接收后面传递过来的评分值。后面的 % each.text 则表示将 each.text 填充到这个占位符中。

在函数 find_movies 中，资料部分的分割是通过 split('\n') 方法来实现的。'\n' 是换行符的意思，通过这个方法可以将文本按照换行符分割成多个部分，并将它们存储到一个列表中。在这个代码中，调用 split('\n') 方法后，提取出列表中的第二个和第三个元素（也就是下标为 1 和 2 的元素），再通过 strip() 方法去掉这些文本中的空格和换行符，最后将它们拼接成一个字符串，作为电影的资料信息。

sfqxx · 发表于 2023-5-2 16:36:24

1. 在 `find_depth` 函数中，使用 `soup.find('span', class_='next').previous_sibling.previous_sibling.text` 来找到当前页面展示的最大页数。因为在豆瓣电影 top250 的页面中，下一页是通过一个链接表示的，并没有显示全部页数的按钮，所以需要通过此方法来获取最大的页数。而 `int` 是将结果从字符串转换为一个整数类型。
2. `re` 模块是 python 中用于正则表达式操作的库。在此代码中并没有直接使用此模块，但是通过 `import re` 导入了它，就可以在后续代码中使用正则表达式来进行一些特定的字符串处理。
3. `append(' 评分：%s ')` 表示将评分数据加入列表，且用 "评分：" 字符串连接到评分数据前。这样做是为了便于美观输出。（**注：该处可能只需要 `"评分：" + each.text` 即可，但没看到使用上下文环境，无法确认。如果不行建议运行该代码试一下。**）
4. `each.p.text.split('\n')` 将 `each` 包含的文本按照换行符 `\n` 进行切分成一个列表，然后取其中第二个和第三个元素，即 `'\xa0/\xa0中国大陆'` 和 `' / 犯罪剧情'`，用 `strip()` 方法去除两边的空格，然后通过字符串加法连接起来，按照电影顺序组成列表 `messages`。
有用请设置最佳答案

vicoray · 发表于 2023-5-3 10:04:37

去微软推哦老怕时代法国红酒看来自行车v

账号		自动登录	找回密码
密码			立即注册

[已解决]关于小甲鱼爬虫课有点没看懂......

最佳答案

浏览过的版块