鱼C论坛

 找回密码
 立即注册
查看: 1085|回复: 13

[已解决]零基础学python爬虫隐藏作业

[复制链接]
发表于 2020-5-25 11:44:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import urllib.request
import re
from bs4 import BeautifulSoup

def main():
    url = "http://baike.baidu.com/view/284853.htm"
    response = urllib.request.urlopen(url)
    html = response.read()
    soup = BeautifulSoup(html, "html.parser") # 使用 Python 默认的解析器
   
    for each in soup.find_all(href=re.compile("view")):
        print(each.text, "->", ''.join(["http://baike.baidu.com", each["href"]]))
        # 上边用 join() 不用 + 直接拼接,是因为 join() 被证明执行效率要高很多

if __name__ == "__main__":
    main()

这里面没讲bs4用法啊 直接就用了。。。而且代码出的结果不对,百度百科现在没有view了啊,应该怎么办呢 包括后面的作业,猪八戒那里也一样出错
最佳答案
2020-5-25 11:51:17
人生苦短用派森 发表于 2020-5-25 11:49
我之前试了,但是出来一大堆没用的东西

<font color="red">[已解决]</font>055课 爬百度百科“网络爬虫”的词条 问题
https://fishc.com.cn/thread-169631-1-1.html
(出处: 鱼C论坛)
你直接看下我回复的这个帖子,我懒得在重新打一遍字了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-25 11:47:50 | 显示全部楼层
小甲鱼的词条:

                               
登录/注册后可看大图

现在的词条:

                               
登录/注册后可看大图

现在输入 'item' 替换 view即可
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-25 11:49:09 | 显示全部楼层
Twilight6 发表于 2020-5-25 11:47
小甲鱼的词条:

现在的词条:

我之前试了,但是出来一大堆没用的东西
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-25 11:50:58 | 显示全部楼层
Twilight6 发表于 2020-5-25 11:47
小甲鱼的词条:

现在的词条:

秒懂本尊答 -> http://baike.baidu.com/item/秒懂本尊答
秒懂大师说 -> http://baike.baidu.com/item/秒懂大师说
秒懂看瓦特 -> http://baike.baidu.com/item/秒懂看瓦特
秒懂五千年 -> http://baike.baidu.com/item/秒懂五千年
秒懂全视界 -> http://baike.baidu.com/item/秒懂全视界
燃梦计划 -> http://baike.baidu.com/item/百度百科:燃梦计划
分类达人 -> http://baike.baidu.com/item/百科分类达人团
蜘蛛 -> http://baike.baidu.com/item/%E8%9C%98%E8%9B%9B/8135707
FOAF -> http://baike.baidu.com/item/FOAF
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91/215515
蚂蚁 -> http://baike.baidu.com/item/%E8%9A%82%E8%9A%81/9770178
蠕虫 -> http://baike.baidu.com/item/%E8%A0%95%E8%99%AB/4454380
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91
网络拓扑 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%8B%93%E6%89%91
网络 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
通用搜索引擎 -> http://baike.baidu.com/item/%E9% ... 2%E5%BC%95%E6%93%8E
网络数据 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%95%B0%E6%8D%AE
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91
网络技术 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%8A%80%E6%9C%AF
通用搜索引擎 -> http://baike.baidu.com/item/%E9% ... 2%E5%BC%95%E6%93%8E
关键字 -> http://baike.baidu.com/item/%E5%85%B3%E9%94%AE%E5%AD%97
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
搜索策略 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E7%AD%96%E7%95%A5
排序算法 -> http://baike.baidu.com/item/%E6%8E%92%E5%BA%8F%E7%AE%97%E6%B3%95
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
网页抓取 -> http://baike.baidu.com/item/%E7%BD%91%E9%A1%B5%E6%8A%93%E5%8F%96
爬虫 -> http://baike.baidu.com/item/%E7%88%AC%E8%99%AB
广度优先搜索 -> http://baike.baidu.com/item/%E5% ... 8%E6%90%9C%E7%B4%A2
广度优先策略 -> http://baike.baidu.com/item/%E5% ... 8%E7%AD%96%E7%95%A5
搜索算法 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E7%AE%97%E6%B3%95
深度优先策略 -> http://baike.baidu.com/item/%E6% ... 8%E7%AD%96%E7%95%A5
PageRank -> http://baike.baidu.com/item/PageRank
网络拓扑 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%8B%93%E6%89%91
HITS算法 -> http://baike.baidu.com/item/HITS%E7%AE%97%E6%B3%95
递归 -> http://baike.baidu.com/item/%E9%80%92%E5%BD%92
主机 -> http://baike.baidu.com/item/%E4%B8%BB%E6%9C%BA
锚文本 -> http://baike.baidu.com/item/%E9%94%9A%E6%96%87%E6%9C%AC
矩阵 -> http://baike.baidu.com/item/%E7%9F%A9%E9%98%B5
超文本 -> http://baike.baidu.com/item/%E8%B6%85%E6%96%87%E6%9C%AC
动态页面 -> http://baike.baidu.com/item/%E5%8A%A8%E6%80%81%E9%A1%B5%E9%9D%A2
文本检索 -> http://baike.baidu.com/item/%E6%96%87%E6%9C%AC%E6%A3%80%E7%B4%A2
数据抽取 -> http://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%8A%BD%E5%8F%96
数据挖掘 -> http://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
超链接 -> http://baike.baidu.com/item/%E8%B6%85%E9%93%BE%E6%8E%A5
数据源 -> http://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90
文本检索 -> http://baike.baidu.com/item/%E6%96%87%E6%9C%AC%E6%A3%80%E7%B4%A2
文本分析 -> http://baike.baidu.com/item/%E6%96%87%E6%9C%AC%E5%88%86%E6%9E%90
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
垃圾邮件 -> http://baike.baidu.com/item/%E5%9E%83%E5%9C%BE%E9%82%AE%E4%BB%B6
超链接 -> http://baike.baidu.com/item/%E8%B6%85%E9%93%BE%E6%8E%A5
动态页面 -> http://baike.baidu.com/item/%E5%8A%A8%E6%80%81%E9%A1%B5%E9%9D%A2
脚本语言 -> http://baike.baidu.com/item/%E8%84%9A%E6%9C%AC%E8%AF%AD%E8%A8%80
爱德华 -> http://baike.baidu.com/item/%E7%88%B1%E5%BE%B7%E5%8D%8E
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
劳伦斯 -> http://baike.baidu.com/item/%E5%8A%B3%E4%BC%A6%E6%96%AF
斯坦福大学 -> http://baike.baidu.com/item/%E6% ... F%E5%A4%A7%E5%AD%A6
主机 -> http://baike.baidu.com/item/%E4%B8%BB%E6%9C%BA
广度优先策略 -> http://baike.baidu.com/item/%E5% ... 8%E7%AD%96%E7%95%A5
迭代 -> http://baike.baidu.com/item/%E8%BF%AD%E4%BB%A3
随机种子 -> http://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E7%A7%8D%E5%AD%90
锚点 -> http://baike.baidu.com/item/%E9%94%9A%E7%82%B9
超文本 -> http://baike.baidu.com/item/%E8%B6%85%E6%96%87%E6%9C%AC
语义网络 -> http://baike.baidu.com/item/%E8%AF%AD%E4%B9%89%E7%BD%91%E7%BB%9C
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
路由器 -> http://baike.baidu.com/item/%E8%B7%AF%E7%94%B1%E5%99%A8
robots.txt -> http://baike.baidu.com/item/robots.txt
网络服务器 -> http://baike.baidu.com/item/%E7% ... D%E5%8A%A1%E5%99%A8
网络服务器 -> http://baike.baidu.com/item/%E7% ... D%E5%8A%A1%E5%99%A8
系统设计 -> http://baike.baidu.com/item/%E7%B3%BB%E7%BB%9F%E8%AE%BE%E8%AE%A1
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
排序算法 -> http://baike.baidu.com/item/%E6%8E%92%E5%BA%8F%E7%AE%97%E6%B3%95
垃圾邮件 -> http://baike.baidu.com/item/%E5%9E%83%E5%9C%BE%E9%82%AE%E4%BB%B6
用户代理 -> http://baike.baidu.com/item/%E7%94%A8%E6%88%B7%E4%BB%A3%E7%90%86
网络服务器 -> http://baike.baidu.com/item/%E7% ... D%E5%8A%A1%E5%99%A8
网络管理员 -> http://baike.baidu.com/item/%E7% ... 1%E7%90%86%E5%91%98
网络管理员 -> http://baike.baidu.com/item/%E7% ... 1%E7%90%86%E5%91%98
用户标识 -> http://baike.baidu.com/item/%E7%94%A8%E6%88%B7%E6%A0%87%E8%AF%86
全文索引 -> http://baike.baidu.com/item/%E5%85%A8%E6%96%87%E7%B4%A2%E5%BC%95
爬虫程序 -> http://baike.baidu.com/item/%E7%88%AC%E8%99%AB%E7%A8%8B%E5%BA%8F
深度优先策略 -> http://baike.baidu.com/item/%E6% ... 8%E7%AD%96%E7%95%A5
网络数据 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%95%B0%E6%8D%AE
下载者 -> http://baike.baidu.com/item/%E4%B8%8B%E8%BD%BD%E8%80%85
批处理 -> http://baike.baidu.com/item/%E6%89%B9%E5%A4%84%E7%90%86
网络服务器 -> http://baike.baidu.com/item/%E7% ... D%E5%8A%A1%E5%99%A8
代理服务器 -> http://baike.baidu.com/item/%E4% ... D%E5%8A%A1%E5%99%A8
主机 -> http://baike.baidu.com/item/%E4%B8%BB%E6%9C%BA
网页抓取 -> http://baike.baidu.com/item/%E7%BD%91%E9%A1%B5%E6%8A%93%E5%8F%96
c语言 -> http://baike.baidu.com/item/c%E8%AF%AD%E8%A8%80
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
网络服务器 -> http://baike.baidu.com/item/%E7% ... D%E5%8A%A1%E5%99%A8
镜像 -> http://baike.baidu.com/item/%E9%95%9C%E5%83%8F
Heritrix -> http://baike.baidu.com/item/Heritrix
互联网档案馆 -> http://baike.baidu.com/item/%E4% ... 3%E6%A1%88%E9%A6%86
网络站点 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%AB%99%E7%82%B9
离线观看 -> http://baike.baidu.com/item/%E7%A6%BB%E7%BA%BF%E8%A7%82%E7%9C%8B
镜像 -> http://baike.baidu.com/item/%E9%95%9C%E5%83%8F
正则表达式 -> http://baike.baidu.com/item/%E6% ... 8%E8%BE%BE%E5%BC%8F
斯坦福 -> http://baike.baidu.com/item/%E6%96%AF%E5%9D%A6%E7%A6%8F
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
图形用户界面 -> http://baike.baidu.com/item/%E5% ... 7%E7%95%8C%E9%9D%A2
开放源代码 -> http://baike.baidu.com/item/%E5% ... 0%E4%BB%A3%E7%A0%81
捷克 -> http://baike.baidu.com/item/%E6%8D%B7%E5%85%8B
YaCy -> http://baike.baidu.com/item/YaCy
分布式搜索引擎 -> http://baike.baidu.com/item/%E5% ... 2%E5%BC%95%E6%93%8E
开放源代码 -> http://baike.baidu.com/item/%E5% ... 0%E4%BB%A3%E7%A0%81
robots.txt -> http://baike.baidu.com/item/robots.txt
超链接 -> http://baike.baidu.com/item/%E8%B6%85%E9%93%BE%E6%8E%A5
Oracle数据库 -> http://baike.baidu.com/item/Oracle%E6%95%B0%E6%8D%AE%E5%BA%93
-> http://baike.baidu.comhttps://ba ... A%E7%89%88%E6%9C%AC
本人编辑 -> http://baike.baidu.com/item/%E7% ... 2459?bk_fr=pcFooter
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-25 11:51:17 | 显示全部楼层    本楼为最佳答案   
人生苦短用派森 发表于 2020-5-25 11:49
我之前试了,但是出来一大堆没用的东西

<font color="red">[已解决]</font>055课 爬百度百科“网络爬虫”的词条 问题
https://fishc.com.cn/thread-169631-1-1.html
(出处: 鱼C论坛)
你直接看下我回复的这个帖子,我懒得在重新打一遍字了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-25 11:51:57 | 显示全部楼层
Twilight6 发表于 2020-5-25 11:51
[已解决]055课 爬百度百科“网络爬虫”的词条 问题
https://fishc.com.cn/thread-169631-1-1.html
(出 ...

好东西!多谢啦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-25 11:52:08 | 显示全部楼层
人生苦短用派森 发表于 2020-5-25 11:50
秒懂本尊答 -> http://baike.baidu.com/item/秒懂本尊答
秒懂大师说 -> http://baike.baidu.com/item/秒 ...

通过观察发现前7个无用和最后一个无用   所以切片啊   [7:-1]
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-25 11:52:52 | 显示全部楼层

没事~能帮助到你就好~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-25 11:53:38 | 显示全部楼层
Twilight6 发表于 2020-5-25 11:52
通过观察发现前7个无用和最后一个无用   所以切片啊   [7:-1]

哈哈,好的好的,我知道了,我以为换成item不对应该换别的,所以有一堆没用的呢。这个作业过了太多年,爬虫的词条下面的链接早都变了很多
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-25 11:53:57 | 显示全部楼层
人生苦短用派森 发表于 2020-5-25 11:53
哈哈,好的好的,我知道了,我以为换成item不对应该换别的,所以有一堆没用的呢。这个作业过了太多年,爬 ...

对的~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-26 16:45:55 | 显示全部楼层

还有个问题 这句soup = BeautifulSoup(html,'html.parser') 这里面html.parser是什么啊 没查到这么用的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-26 16:47:24 | 显示全部楼层
人生苦短用派森 发表于 2020-5-26 16:45
还有个问题 这句soup = BeautifulSoup(html,'html.parser') 这里面html.parser是什么啊 没查到这么用的

BeautifulSoup 的第二个参数填解析器的  html.parser是解析器的一种
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-26 23:22:51 | 显示全部楼层
Twilight6 发表于 2020-5-26 16:47
BeautifulSoup 的第二个参数填解析器的  html.parser是解析器的一种

thx
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-26 23:24:16 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-21 01:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表