[已解决]爬虫问题求助

学习编程中的Ben · 发表于 2023-7-17 12:10:30

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由学习编程中的Ben 于 2023-7-17 12:12 编辑

最近在学习爬虫，没什么好爬，于是乎我就拿了鱼C论坛来开刀

打算爬取鱼C论坛的帖子(当然只包括帖子内的文字内容)，但发现……太难了呜呜呜
用正则完全不知道该咋匹配。
看看有没有人(机器人)能在10秒中内回复，有的我给最佳

最佳答案

月排行榜 / 总排行榜

歌者文明清理员

2023-7-17 12:19:58

学习编程中的Ben 发表于 2023-7-17 12:16
事实证明，连输出都没有

from requests import get
from bs4 import BeautifulSoup
soup2 = BeautifulSoup(get(url).text, "lxml")
content = soup2.find("td", class_="t_f").text
plate, title = map(lambda x: x.text, soup2.select("#pt .z a")[-2:])
ans = f"{title} {plate}\n{content}"
print(ans)

复制代码

跳转到最佳答案楼层

liuhongrun2022 · 发表于 2023-7-17 12:10:40

我来啦

isdkz · 发表于 2023-7-17 12:10:56

标题：使用BeautifulSoup进行网页爬取

内容：

这个问题实际上更适合使用BeautifulSoup库，而不是正则表达式来解决。BeautifulSoup库可以帮助你解析HTML或XML文件，寻找你需要的数据。

以下是一个基本的例子，用来获取鱼C论坛的帖子的文字内容：

import requests
from bs4 import BeautifulSoup
# 这是你要爬取的鱼C论坛的网页的URL
url = "http://bbs.fishc.com/forum.php"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
# 爬取帖子的标题
for title in soup.find_all('a', class_='s xst'):
print(title.text)
# 爬取帖子的内容
for content in soup.find_all('td', class_='t_f'):
print(content.text)
复制代码

在上述代码中，我们首先导入requests和BeautifulSoup库，然后定义要爬取的网页URL。然后，我们用requests.get()获取网页内容，用BeautifulSoup()解析网页内容。然后，我们通过find_all()函数找出我们需要的数据。在本例中，我们需要帖子的标题和内容，所以我们搜索了帖子标题和内容的HTML标签和类名。

请注意，这个代码片段是一个简化的例子，可能无法直接应用于鱼C论坛的所有页面，因为不同的页面可能有不同的HTML结构。实际上，你可能需要在具体的项目中根据你需要爬取的页面的HTML结构进行一些调整。在写爬虫的时候，一个重要的步骤是理解你要爬取的网页的HTML结构。

希望这个例子可以帮助你理解如何使用BeautifulSoup库进行网页爬取。如果你还有其他问题，欢迎继续提问。

学习编程中的Ben · 发表于 2023-7-17 12:12:24

isdkz 发表于 2023-7-17 12:10
标题：使用BeautifulSoup进行网页爬取

内容：

一看就不能用啊，机器人不行啊

学习编程中的Ben · 发表于 2023-7-17 12:16:07

isdkz 发表于 2023-7-17 12:10
标题：使用BeautifulSoup进行网页爬取

内容：

事实证明，连输出都没有

isdkz · 发表于 2023-7-17 12:17:00

学习编程中的Ben 发表于 2023-7-17 12:12
一看就不能用啊，机器人不行啊

还真不是机器人不行，但凡了解大模型的原理就不会这么说了

isdkz · 发表于 2023-7-17 12:17:44

学习编程中的Ben 发表于 2023-7-17 12:16
事实证明，连输出都没有

因为在他的训练数据里面只有之前那个老版本的论坛，之前是 bbs.fishc.com 的，现在没有了

学习编程中的Ben · 发表于 2023-7-17 12:18:11

isdkz 发表于 2023-7-17 12:17
还真不是机器人不行，但凡了解大模型的原理就不会这么说了

但是我不了解

我只想要一个正确的结果

歌者文明清理员 · 发表于 2023-7-17 12:19:58

学习编程中的Ben 发表于 2023-7-17 12:16
事实证明，连输出都没有

from requests import get
from bs4 import BeautifulSoup
soup2 = BeautifulSoup(get(url).text, "lxml")
content = soup2.find("td", class_="t_f").text
plate, title = map(lambda x: x.text, soup2.select("#pt .z a")[-2:])
ans = f"{title} {plate}\n{content}"
print(ans)

复制代码

isdkz · 发表于 2023-7-17 12:24:30

本帖最后由 isdkz 于 2023-7-17 12:25 编辑

学习编程中的Ben 发表于 2023-7-17 12:18
但是我不了解我只想要一个正确的结果

爬虫问题直接问chatgpt基本是不可能直接得到正确结果的

我在忙别的事情懒得写，等大佬来给你解决了

我帮你@一个： @陶远航

歌者文明清理员 · 发表于 2023-7-17 12:25:17

isdkz 发表于 2023-7-17 12:24
爬虫问题直接问chatgpt基本是不可能直接得到结果的

我在忙别的事情懒得写，等大佬来给你解决了

你可以复制你的脚本获取求助帖内容的代码

我就这么干了

isdkz · 发表于 2023-7-17 12:26:56

歌者文明清理员发表于 2023-7-17 12:25
你可以复制你的脚本获取求助帖内容的代码我就这么干了

算了，他的需求不够清晰，论坛那么多帖子，都不知道他要爬哪些帖子

liuhongrun2022 · 发表于 2023-7-17 13:02:14

isdkz 发表于 2023-7-17 12:26
算了，他的需求不够清晰，论坛那么多帖子，都不知道他要爬哪些帖子

我知道，他要爬求助帖，想想都知道干什么

爬虫121 · 发表于 2023-7-17 13:55:52

isdkz 发表于 2023-7-17 12:10
标题：使用BeautifulSoup进行网页爬取

内容：

赞赞赞，流程上明白了，细节处理上，作为菜鸟的我，还需要再琢磨琢磨

歌者文明清理员 · 发表于 2023-7-17 13:59:26

liuhongrun2022 发表于 2023-7-17 13:02
我知道，他要爬求助帖，想想都知道干什么

草草草草草草草草草我就不应该告诉他

sfqxx · 发表于 2023-7-17 14:11:11

歌者文明清理员发表于 2023-7-17 13:59
草草草草草草草草草我就不应该告诉他

不过脚本容易出bug，比如换个地址栏

陶远航 · 发表于 2023-7-17 14:22:58

isdkz 发表于 2023-7-17 12:24
爬虫问题直接问chatgpt基本是不可能直接得到正确结果的

我在忙别的事情懒得写，等大佬来给你解决了
...

昨天他跟我说要我给他代码，我给了他他就跑了

今天才知道他要做脚本，预谋已久。我是不会给滴，不想多个对手。

@sfqxx @liuhongrun2022 @歌者文明清理员不要说，千万别说

sfqxx · 发表于 2023-7-17 14:23:48

陶远航发表于 2023-7-17 14:22
昨天他跟我说要我给他代码，我给了他他就跑了

今天才知道他要做脚本，预谋已久。我是不会给滴，不想多 ...

？什么意思？

歌者文明清理员 · 发表于 2023-7-17 14:23:48

陶远航发表于 2023-7-17 14:22
昨天他跟我说要我给他代码，我给了他他就跑了

今天才知道他要做脚本，预谋已久。我是不会给滴，不想多 ...

昨天估计就是他用了你的脚本导致你的ip进小黑屋的

歌者文明清理员 · 发表于 2023-7-17 14:24:03

sfqxx 发表于 2023-7-17 14:23
？什么意思？

《同时发布》

账号		自动登录	找回密码
密码			立即注册