鱼C论坛

 找回密码
 立即注册
查看: 1227|回复: 4

[已解决]关于小甲鱼爬虫课有点没看懂......

[复制链接]
发表于 2023-5-2 16:30:09 | 显示全部楼层 |阅读模式
10鱼币
下面是小甲鱼爬豆瓣top250的代码,有两个个地方没看懂......求大佬解答
1.关于找出多少个页面那,没看懂depth会得到什么为什么要int
2.re模块是什么,速查手册里没有,下面好像也没看到使用
3.评分那怎么append(' 评分:%s '),不应该只要("评分:")吗
4.资料那个的分切没看懂怎么切的  网页源码在下面的图片里

问题有点多,大佬们挑不麻烦的回复一下吧


import requests
import bs4
import re

def open_url(url):
    # 使用代理
    # proxies = {"http": "127.0.0.1:1080", "https": "127.0.0.1:1080"}
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}

    # res = requests.get(url, headers=headers, proxies=proxies)
    res = requests.get(url, headers=headers)

    return res

def find_movies(res):
    soup = bs4.BeautifulSoup(res.text, 'html.parser')

    # 电影名
    movies = []
    targets = soup.find_all("div", class_="hd")
    for each in targets:
        movies.append(each.a.span.text)

    # 评分
    ranks = []
    targets = soup.find_all("span", class_="rating_num")
    for each in targets:
        ranks.append(' 评分:%s ' % each.text)

    # 资料
    messages = []
    targets = soup.find_all("div", class_="bd")
    for each in targets:
        try:
            messages.append(each.p.text.split('\n')[1].strip() + each.p.text.split('\n')[2].strip())
        except:
            continue

    result = []
    length = len(movies)
    for i in range(length):
        result.append(movies[i] + ranks[i] + messages + '\n')

    return result

# 找出一共有多少个页面
def find_depth(res):
    soup = bs4.BeautifulSoup(res.text, 'html.parser')
    depth = soup.find('span', class_='next').previous_sibling.previous_sibling.text

    return int(depth)

def main():
    host = "https://movie.douban.com/top250"
    res = open_url(host)
    depth = find_depth(res)

    result = []
    for i in range(depth):
        url = host + '/?start=' + str(25 * i)
        res = open_url(url)
        result.extend(find_movies(res))

    with open("豆瓣TOP250电影.txt", "w", encoding="utf-8") as f:
        for each in result:
            f.write(each)
   
if __name__ == "__main__":
    main()
[/i][/i]
最佳答案
2023-5-2 16:30:10
本帖最后由 isdkz 于 2023-5-2 16:34 编辑

1. 关于找出多少个页面的问题:在这个代码中,页面是通过在url中传入参数start来控制的,每页默认显示25条数据。在函数find_depth中,使用BeautifulSoup解析res.text得到soup对象,再通过soup.find()方法找到class为"next"的span标签,然后通过previous_sibling.previous_sibling属性找到该标签前面的兄弟标签,即包含总页数的标签,使用.text属性获得该标签中的文本内容,也就是总页数。但是,soup.find()方法返回的是一个Tag对象,而该对象的previous_sibling.previous_sibling属性返回的是一个NavigableString对象,该对象的text属性返回的才是包含总页数的文本内容。由于该文本内容是数字字符串,需要使用int()函数将其转换为整数类型,作为返回值。

2. 关于re模块的问题:re模块是Python中用于进行正则表达式操作的模块。在这个代码中没有直接使用到re模块,但是在其他程序中可能会用到。例如,当需要从一段文本中提取出满足特定格式要求的字符串时,可以使用re模块的正则表达式匹配功能进行提取。

3. 关于评分那里的问题:这里的代码使用了字符串的格式化功能,将每个电影的评分信息格式化为字符串后,使用append()方法添加到ranks列表中。'%s'是格式化字符串的占位符,表示在该位置处填入一个字符串,使用%运算符将要填入的字符串传入即可。在这个代码中,ranks列表中的每个元素是一个字符串,格式为"评分:x.x"。

4. 关于资料那里的问题:在这里,使用了字符串的split()方法对每个电影的资料进行分割。对于每个包含电影资料的标签,其p标签中的文本内容都是按照一定的格式排列的,其中第2行和第3行分别包含了电影的年份和导演信息。使用split('\n')方法将文本内容按行分割成一个列表,然后使用[1]和[2]索引提取出第2行和第3行,使用strip()方法去除空白字符后,使用"+"号将两个字符串拼接成一个字符串,作为该电影的资料信息。
[EHCHGGSLSUCJ93T9SN$%9W.png

最佳答案

查看完整内容

1. 关于找出多少个页面的问题:在这个代码中,页面是通过在url中传入参数start来控制的,每页默认显示25条数据。在函数find_depth中,使用BeautifulSoup解析res.text得到soup对象,再通过soup.find()方法找到class为"next"的span标签,然后通过previous_sibling.previous_sibling属性找到该标签前面的兄弟标签,即包含总页数的标签,使用.text属性获得该标签中的文本内容,也就是总页数。但是,soup.find()方法返回的是一个Tag对象 ...
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-5-2 16:30:10 | 显示全部楼层    本楼为最佳答案   
本帖最后由 isdkz 于 2023-5-2 16:34 编辑

1. 关于找出多少个页面的问题:在这个代码中,页面是通过在url中传入参数start来控制的,每页默认显示25条数据。在函数find_depth中,使用BeautifulSoup解析res.text得到soup对象,再通过soup.find()方法找到class为"next"的span标签,然后通过previous_sibling.previous_sibling属性找到该标签前面的兄弟标签,即包含总页数的标签,使用.text属性获得该标签中的文本内容,也就是总页数。但是,soup.find()方法返回的是一个Tag对象,而该对象的previous_sibling.previous_sibling属性返回的是一个NavigableString对象,该对象的text属性返回的才是包含总页数的文本内容。由于该文本内容是数字字符串,需要使用int()函数将其转换为整数类型,作为返回值。

2. 关于re模块的问题:re模块是Python中用于进行正则表达式操作的模块。在这个代码中没有直接使用到re模块,但是在其他程序中可能会用到。例如,当需要从一段文本中提取出满足特定格式要求的字符串时,可以使用re模块的正则表达式匹配功能进行提取。

3. 关于评分那里的问题:这里的代码使用了字符串的格式化功能,将每个电影的评分信息格式化为字符串后,使用append()方法添加到ranks列表中。'%s'是格式化字符串的占位符,表示在该位置处填入一个字符串,使用%运算符将要填入的字符串传入即可。在这个代码中,ranks列表中的每个元素是一个字符串,格式为"评分:x.x"。

4. 关于资料那里的问题:在这里,使用了字符串的split()方法对每个电影的资料进行分割。对于每个包含电影资料的标签,其p标签中的文本内容都是按照一定的格式排列的,其中第2行和第3行分别包含了电影的年份和导演信息。使用split('\n')方法将文本内容按行分割成一个列表,然后使用[1]和[2]索引提取出第2行和第3行,使用strip()方法去除空白字符后,使用"+"号将两个字符串拼接成一个字符串,作为该电影的资料信息。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-5-2 16:31:17 | 显示全部楼层
本帖最后由 陶远航 于 2023-5-2 16:49 编辑

在这个代码中,depth 表示总共有多少个页面需要爬取。在函数 find_depth 中,通过 BeautifulSoup 库找到 "下一页" 的前一个兄弟节点,这个节点的文本内容就是当前页面的页码。因为这个文本内容是字符串类型的,需要用 int() 函数将其转换为整数类型,才能进行计算。

re 模块是 Python 的正则表达式库,它提供了强大的字符串匹配和处理功能。在这个代码中,re 模块没有被直接调用,但是通过使用 bs4 库的 find_all 方法的 class_ 参数来定位 HTML 元素时,可以用到正则表达式的语法。

代码中使用了字符串格式化的方式来将电影评分添加到 result 列表中。' 评分:%s ' 表示输出字符串中有一个占位符 %s,用来接收后面传递过来的评分值。后面的 % each.text 则表示将 each.text 填充到这个占位符中。

在函数 find_movies 中,资料部分的分割是通过 split('\n') 方法来实现的。'\n' 是换行符的意思,通过这个方法可以将文本按照换行符分割成多个部分,并将它们存储到一个列表中。在这个代码中,调用 split('\n') 方法后,提取出列表中的第二个和第三个元素(也就是下标为 1 和 2 的元素),再通过 strip() 方法去掉这些文本中的空格和换行符,最后将它们拼接成一个字符串,作为电影的资料信息。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-5-2 16:36:24 | 显示全部楼层
1. 在 `find_depth` 函数中,使用 `soup.find('span', class_='next').previous_sibling.previous_sibling.text` 来找到当前页面展示的最大页数。因为在豆瓣电影 top250 的页面中,下一页是通过一个链接表示的,并没有显示全部页数的按钮,所以需要通过此方法来获取最大的页数。而 `int` 是将结果从字符串转换为一个整数类型。
2. `re` 模块是 python 中用于正则表达式操作的库。在此代码中并没有直接使用此模块,但是通过 `import re` 导入了它,就可以在后续代码中使用正则表达式来进行一些特定的字符串处理。
3. `append(' 评分:%s ')` 表示将评分数据加入列表,且用 "评分:" 字符串连接到评分数据前。这样做是为了便于美观输出。(**注:该处可能只需要 `"评分:" + each.text` 即可,但没看到使用上下文环境,无法确认。如果不行建议运行该代码试一下。**)
4. `each.p.text.split('\n')` 将 `each` 包含的文本按照换行符 `\n` 进行切分成一个列表,然后取其中第二个和第三个元素,即 `'\xa0/\xa0中国大陆'` 和 `' / 犯罪 剧情'`,用 `strip()` 方法去除两边的空格,然后通过字符串加法连接起来,按照电影顺序组成列表 `messages`。
有用请设置最佳答案
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-5-3 10:04:37 | 显示全部楼层
去微软推哦老怕时代法国红酒看来自行车v
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-23 11:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表