[已解决]零基础学python爬虫隐藏作业

人生苦短用派森 · 发表于 2020-5-25 11:44:38

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
from bs4 import BeautifulSoup

def main():
url = "http://baike.baidu.com/view/284853.htm"
response = urllib.request.urlopen(url)
html = response.read()
soup = BeautifulSoup(html, "html.parser") # 使用 Python 默认的解析器

for each in soup.find_all(href=re.compile("view")):
print(each.text, "->", ''.join(["http://baike.baidu.com", each["href"]]))
# 上边用 join() 不用 + 直接拼接，是因为 join() 被证明执行效率要高很多

if __name__ == "__main__":
main()

这里面没讲bs4用法啊直接就用了。。。而且代码出的结果不对，百度百科现在没有view了啊，应该怎么办呢包括后面的作业，猪八戒那里也一样出错

最佳答案

月排行榜 / 总排行榜

Twilight6

2020-5-25 11:51:17

人生苦短用派森发表于 2020-5-25 11:49
我之前试了，但是出来一大堆没用的东西

<font color="red">[已解决]</font>055课爬百度百科“网络爬虫”的词条问题
https://fishc.com.cn/thread-169631-1-1.html
(出处: 鱼C论坛)
你直接看下我回复的这个帖子，我懒得在重新打一遍字了

跳转到最佳答案楼层

Twilight6 · 发表于 2020-5-25 11:47:50

小甲鱼的词条：

登录/注册后可看大图

现在的词条：

登录/注册后可看大图

现在输入 'item' 替换 view即可

人生苦短用派森 · 发表于 2020-5-25 11:49:09

Twilight6 发表于 2020-5-25 11:47
小甲鱼的词条：

现在的词条：

我之前试了，但是出来一大堆没用的东西

人生苦短用派森 · 发表于 2020-5-25 11:50:58

Twilight6 发表于 2020-5-25 11:47
小甲鱼的词条：

现在的词条：

Twilight6 · 发表于 2020-5-25 11:51:17

这个最佳答案由 Twilight6 给出，感谢 Twilight6 的回答。

单击隐藏图章

人生苦短用派森发表于 2020-5-25 11:49
我之前试了，但是出来一大堆没用的东西

<font color="red">[已解决]</font>055课爬百度百科“网络爬虫”的词条问题
https://fishc.com.cn/thread-169631-1-1.html
(出处: 鱼C论坛)
你直接看下我回复的这个帖子，我懒得在重新打一遍字了

人生苦短用派森 · 发表于 2020-5-25 11:51:57

Twilight6 发表于 2020-5-25 11:51
[已解决]055课爬百度百科“网络爬虫”的词条问题
https://fishc.com.cn/thread-169631-1-1.html
(出 ...

好东西！多谢啦

Twilight6 · 发表于 2020-5-25 11:52:08

人生苦短用派森发表于 2020-5-25 11:50
秒懂本尊答 -> http://baike.baidu.com/item/秒懂本尊答
秒懂大师说 -> http://baike.baidu.com/item/秒 ...

通过观察发现前7个无用和最后一个无用所以切片啊 [7:-1]

Twilight6 · 发表于 2020-5-25 11:52:52

人生苦短用派森发表于 2020-5-25 11:51
好东西！多谢啦

没事~能帮助到你就好~

人生苦短用派森 · 发表于 2020-5-25 11:53:38

Twilight6 发表于 2020-5-25 11:52
通过观察发现前7个无用和最后一个无用所以切片啊 [7:-1]

哈哈，好的好的，我知道了，我以为换成item不对应该换别的，所以有一堆没用的呢。这个作业过了太多年，爬虫的词条下面的链接早都变了很多

Twilight6 · 发表于 2020-5-25 11:53:57

人生苦短用派森发表于 2020-5-25 11:53
哈哈，好的好的，我知道了，我以为换成item不对应该换别的，所以有一堆没用的呢。这个作业过了太多年，爬 ...

对的~

人生苦短用派森 · 发表于 2020-5-26 16:45:55

Twilight6 发表于 2020-5-25 11:53
对的~

还有个问题这句soup = BeautifulSoup(html,'html.parser') 这里面html.parser是什么啊没查到这么用的

Twilight6 · 发表于 2020-5-26 16:47:24

人生苦短用派森发表于 2020-5-26 16:45
还有个问题这句soup = BeautifulSoup(html,'html.parser') 这里面html.parser是什么啊没查到这么用的

BeautifulSoup 的第二个参数填解析器的 html.parser是解析器的一种

人生苦短用派森 · 发表于 2020-5-26 23:22:51

Twilight6 发表于 2020-5-26 16:47
BeautifulSoup 的第二个参数填解析器的 html.parser是解析器的一种

thx

Twilight6 · 发表于 2020-5-26 23:24:16

人生苦短用派森发表于 2020-5-26 23:22
thx

没事~~~

账号		自动登录	找回密码
密码			立即注册

[已解决]零基础学python爬虫隐藏作业

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块