零基础学python爬虫隐藏作业
import urllib.requestimport re
from bs4 import BeautifulSoup
def main():
url = "http://baike.baidu.com/view/284853.htm"
response = urllib.request.urlopen(url)
html = response.read()
soup = BeautifulSoup(html, "html.parser") # 使用 Python 默认的解析器
for each in soup.find_all(href=re.compile("view")):
print(each.text, "->", ''.join(["http://baike.baidu.com", each["href"]]))
# 上边用 join() 不用 + 直接拼接,是因为 join() 被证明执行效率要高很多
if __name__ == "__main__":
main()
这里面没讲bs4用法啊 直接就用了。。。而且代码出的结果不对,百度百科现在没有view了啊,应该怎么办呢 包括后面的作业,猪八戒那里也一样出错 小甲鱼的词条:
https://xxx.ilovefishc.com/forum/201605/17/155015bkwikm9tphedz4ev.png
现在的词条:
https://xxx.ilovefishc.com/forum/202005/20/012601kxmzdn33nv48v8zn.png.thumb.jpg
现在输入 'item' 替换 view即可 Twilight6 发表于 2020-5-25 11:47
小甲鱼的词条:
现在的词条:
我之前试了,但是出来一大堆没用的东西 Twilight6 发表于 2020-5-25 11:47
小甲鱼的词条:
现在的词条:
秒懂本尊答 -> http://baike.baidu.com/item/秒懂本尊答
秒懂大师说 -> http://baike.baidu.com/item/秒懂大师说
秒懂看瓦特 -> http://baike.baidu.com/item/秒懂看瓦特
秒懂五千年 -> http://baike.baidu.com/item/秒懂五千年
秒懂全视界 -> http://baike.baidu.com/item/秒懂全视界
燃梦计划 -> http://baike.baidu.com/item/百度百科:燃梦计划
分类达人 -> http://baike.baidu.com/item/百科分类达人团
蜘蛛 -> http://baike.baidu.com/item/%E8%9C%98%E8%9B%9B/8135707
FOAF -> http://baike.baidu.com/item/FOAF
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91/215515
蚂蚁 -> http://baike.baidu.com/item/%E8%9A%82%E8%9A%81/9770178
蠕虫 -> http://baike.baidu.com/item/%E8%A0%95%E8%99%AB/4454380
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91
网络拓扑 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%8B%93%E6%89%91
网络 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
通用搜索引擎 -> http://baike.baidu.com/item/%E9%80%9A%E7%94%A8%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
网络数据 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%95%B0%E6%8D%AE
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91
网络技术 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%8A%80%E6%9C%AF
通用搜索引擎 -> http://baike.baidu.com/item/%E9%80%9A%E7%94%A8%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
关键字 -> http://baike.baidu.com/item/%E5%85%B3%E9%94%AE%E5%AD%97
万维网 -> http://baike.baidu.com/item/%E4%B8%87%E7%BB%B4%E7%BD%91
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
搜索策略 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E7%AD%96%E7%95%A5
排序算法 -> http://baike.baidu.com/item/%E6%8E%92%E5%BA%8F%E7%AE%97%E6%B3%95
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
网页抓取 -> http://baike.baidu.com/item/%E7%BD%91%E9%A1%B5%E6%8A%93%E5%8F%96
爬虫 -> http://baike.baidu.com/item/%E7%88%AC%E8%99%AB
广度优先搜索 -> http://baike.baidu.com/item/%E5%B9%BF%E5%BA%A6%E4%BC%98%E5%85%88%E6%90%9C%E7%B4%A2
广度优先策略 -> http://baike.baidu.com/item/%E5%B9%BF%E5%BA%A6%E4%BC%98%E5%85%88%E7%AD%96%E7%95%A5
搜索算法 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E7%AE%97%E6%B3%95
深度优先策略 -> http://baike.baidu.com/item/%E6%B7%B1%E5%BA%A6%E4%BC%98%E5%85%88%E7%AD%96%E7%95%A5
PageRank -> http://baike.baidu.com/item/PageRank
网络拓扑 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%8B%93%E6%89%91
HITS算法 -> http://baike.baidu.com/item/HITS%E7%AE%97%E6%B3%95
递归 -> http://baike.baidu.com/item/%E9%80%92%E5%BD%92
主机 -> http://baike.baidu.com/item/%E4%B8%BB%E6%9C%BA
锚文本 -> http://baike.baidu.com/item/%E9%94%9A%E6%96%87%E6%9C%AC
矩阵 -> http://baike.baidu.com/item/%E7%9F%A9%E9%98%B5
超文本 -> http://baike.baidu.com/item/%E8%B6%85%E6%96%87%E6%9C%AC
动态页面 -> http://baike.baidu.com/item/%E5%8A%A8%E6%80%81%E9%A1%B5%E9%9D%A2
文本检索 -> http://baike.baidu.com/item/%E6%96%87%E6%9C%AC%E6%A3%80%E7%B4%A2
数据抽取 -> http://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%8A%BD%E5%8F%96
数据挖掘 -> http://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
超链接 -> http://baike.baidu.com/item/%E8%B6%85%E9%93%BE%E6%8E%A5
数据源 -> http://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90
文本检索 -> http://baike.baidu.com/item/%E6%96%87%E6%9C%AC%E6%A3%80%E7%B4%A2
文本分析 -> http://baike.baidu.com/item/%E6%96%87%E6%9C%AC%E5%88%86%E6%9E%90
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
垃圾邮件 -> http://baike.baidu.com/item/%E5%9E%83%E5%9C%BE%E9%82%AE%E4%BB%B6
超链接 -> http://baike.baidu.com/item/%E8%B6%85%E9%93%BE%E6%8E%A5
动态页面 -> http://baike.baidu.com/item/%E5%8A%A8%E6%80%81%E9%A1%B5%E9%9D%A2
脚本语言 -> http://baike.baidu.com/item/%E8%84%9A%E6%9C%AC%E8%AF%AD%E8%A8%80
爱德华 -> http://baike.baidu.com/item/%E7%88%B1%E5%BE%B7%E5%8D%8E
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
劳伦斯 -> http://baike.baidu.com/item/%E5%8A%B3%E4%BC%A6%E6%96%AF
斯坦福大学 -> http://baike.baidu.com/item/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6
主机 -> http://baike.baidu.com/item/%E4%B8%BB%E6%9C%BA
广度优先策略 -> http://baike.baidu.com/item/%E5%B9%BF%E5%BA%A6%E4%BC%98%E5%85%88%E7%AD%96%E7%95%A5
迭代 -> http://baike.baidu.com/item/%E8%BF%AD%E4%BB%A3
随机种子 -> http://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E7%A7%8D%E5%AD%90
锚点 -> http://baike.baidu.com/item/%E9%94%9A%E7%82%B9
超文本 -> http://baike.baidu.com/item/%E8%B6%85%E6%96%87%E6%9C%AC
语义网络 -> http://baike.baidu.com/item/%E8%AF%AD%E4%B9%89%E7%BD%91%E7%BB%9C
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
路由器 -> http://baike.baidu.com/item/%E8%B7%AF%E7%94%B1%E5%99%A8
robots.txt -> http://baike.baidu.com/item/robots.txt
网络服务器 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%9C%8D%E5%8A%A1%E5%99%A8
网络服务器 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%9C%8D%E5%8A%A1%E5%99%A8
系统设计 -> http://baike.baidu.com/item/%E7%B3%BB%E7%BB%9F%E8%AE%BE%E8%AE%A1
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
排序算法 -> http://baike.baidu.com/item/%E6%8E%92%E5%BA%8F%E7%AE%97%E6%B3%95
垃圾邮件 -> http://baike.baidu.com/item/%E5%9E%83%E5%9C%BE%E9%82%AE%E4%BB%B6
用户代理 -> http://baike.baidu.com/item/%E7%94%A8%E6%88%B7%E4%BB%A3%E7%90%86
网络服务器 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%9C%8D%E5%8A%A1%E5%99%A8
网络管理员 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%AE%A1%E7%90%86%E5%91%98
网络管理员 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%AE%A1%E7%90%86%E5%91%98
用户标识 -> http://baike.baidu.com/item/%E7%94%A8%E6%88%B7%E6%A0%87%E8%AF%86
全文索引 -> http://baike.baidu.com/item/%E5%85%A8%E6%96%87%E7%B4%A2%E5%BC%95
爬虫程序 -> http://baike.baidu.com/item/%E7%88%AC%E8%99%AB%E7%A8%8B%E5%BA%8F
深度优先策略 -> http://baike.baidu.com/item/%E6%B7%B1%E5%BA%A6%E4%BC%98%E5%85%88%E7%AD%96%E7%95%A5
网络数据 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%95%B0%E6%8D%AE
下载者 -> http://baike.baidu.com/item/%E4%B8%8B%E8%BD%BD%E8%80%85
批处理 -> http://baike.baidu.com/item/%E6%89%B9%E5%A4%84%E7%90%86
网络服务器 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%9C%8D%E5%8A%A1%E5%99%A8
代理服务器 -> http://baike.baidu.com/item/%E4%BB%A3%E7%90%86%E6%9C%8D%E5%8A%A1%E5%99%A8
主机 -> http://baike.baidu.com/item/%E4%B8%BB%E6%9C%BA
网页抓取 -> http://baike.baidu.com/item/%E7%BD%91%E9%A1%B5%E6%8A%93%E5%8F%96
c语言 -> http://baike.baidu.com/item/c%E8%AF%AD%E8%A8%80
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
网络服务器 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E6%9C%8D%E5%8A%A1%E5%99%A8
镜像 -> http://baike.baidu.com/item/%E9%95%9C%E5%83%8F
Heritrix -> http://baike.baidu.com/item/Heritrix
互联网档案馆 -> http://baike.baidu.com/item/%E4%BA%92%E8%81%94%E7%BD%91%E6%A1%A3%E6%A1%88%E9%A6%86
网络站点 -> http://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%AB%99%E7%82%B9
离线观看 -> http://baike.baidu.com/item/%E7%A6%BB%E7%BA%BF%E8%A7%82%E7%9C%8B
镜像 -> http://baike.baidu.com/item/%E9%95%9C%E5%83%8F
正则表达式 -> http://baike.baidu.com/item/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F
斯坦福 -> http://baike.baidu.com/item/%E6%96%AF%E5%9D%A6%E7%A6%8F
搜索引擎 -> http://baike.baidu.com/item/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
图形用户界面 -> http://baike.baidu.com/item/%E5%9B%BE%E5%BD%A2%E7%94%A8%E6%88%B7%E7%95%8C%E9%9D%A2
开放源代码 -> http://baike.baidu.com/item/%E5%BC%80%E6%94%BE%E6%BA%90%E4%BB%A3%E7%A0%81
捷克 -> http://baike.baidu.com/item/%E6%8D%B7%E5%85%8B
YaCy -> http://baike.baidu.com/item/YaCy
分布式搜索引擎 -> http://baike.baidu.com/item/%E5%88%86%E5%B8%83%E5%BC%8F%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
开放源代码 -> http://baike.baidu.com/item/%E5%BC%80%E6%94%BE%E6%BA%90%E4%BB%A3%E7%A0%81
robots.txt -> http://baike.baidu.com/item/robots.txt
超链接 -> http://baike.baidu.com/item/%E8%B6%85%E9%93%BE%E6%8E%A5
Oracle数据库 -> http://baike.baidu.com/item/Oracle%E6%95%B0%E6%8D%AE%E5%BA%93
-> http://baike.baidu.comhttps://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E7%99%BE%E7%A7%91%EF%BC%9A%E5%88%9B%E5%BB%BA%E7%89%88%E6%9C%AC
本人编辑 -> http://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E7%99%BE%E7%A7%91%EF%BC%9A%E6%9C%AC%E4%BA%BA%E8%AF%8D%E6%9D%A1%E7%BC%96%E8%BE%91%E6%9C%8D%E5%8A%A1/22442459?bk_fr=pcFooter 人生苦短用派森 发表于 2020-5-25 11:49
我之前试了,但是出来一大堆没用的东西
<font color="red">[已解决]</font>055课 爬百度百科“网络爬虫”的词条 问题
https://fishc.com.cn/thread-169631-1-1.html
(出处: 鱼C论坛)
你直接看下我回复的这个帖子,我懒得在重新打一遍字了{:10_297:} Twilight6 发表于 2020-5-25 11:51
[已解决]055课 爬百度百科“网络爬虫”的词条 问题
https://fishc.com.cn/thread-169631-1-1.html
(出 ...
好东西!多谢啦 人生苦短用派森 发表于 2020-5-25 11:50
秒懂本尊答 -> http://baike.baidu.com/item/秒懂本尊答
秒懂大师说 -> http://baike.baidu.com/item/秒 ...
通过观察发现前7个无用和最后一个无用 所以切片啊 人生苦短用派森 发表于 2020-5-25 11:51
好东西!多谢啦
没事~能帮助到你就好~ Twilight6 发表于 2020-5-25 11:52
通过观察发现前7个无用和最后一个无用 所以切片啊
哈哈,好的好的,我知道了,我以为换成item不对应该换别的,所以有一堆没用的呢。这个作业过了太多年,爬虫的词条下面的链接早都变了很多 人生苦短用派森 发表于 2020-5-25 11:53
哈哈,好的好的,我知道了,我以为换成item不对应该换别的,所以有一堆没用的呢。这个作业过了太多年,爬 ...
对的~ Twilight6 发表于 2020-5-25 11:53
对的~
还有个问题 这句soup = BeautifulSoup(html,'html.parser') 这里面html.parser是什么啊 没查到这么用的
人生苦短用派森 发表于 2020-5-26 16:45
还有个问题 这句soup = BeautifulSoup(html,'html.parser') 这里面html.parser是什么啊 没查到这么用的
BeautifulSoup 的第二个参数填解析器的html.parser是解析器的一种 Twilight6 发表于 2020-5-26 16:47
BeautifulSoup 的第二个参数填解析器的html.parser是解析器的一种
thx{:5_110:} 人生苦短用派森 发表于 2020-5-26 23:22
thx
没事~~~
页:
[1]