鱼C论坛

 找回密码
 立即注册
查看: 915|回复: 10

关于55讲课后题出现的问题

[复制链接]
发表于 2018-8-2 22:50:11 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
代码和小甲鱼老师的完全一样,为什么输出结果就相差甚远呢?难道是因为现在浏览器改了东西了?
QQ图片20180802224740.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-8-3 09:26:44 | 显示全部楼层
求你了……把代码贴出来吧……我们都没法调试……我们怎么帮你找出问题?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-3 20:51:00 | 显示全部楼层
无符号整形 发表于 2018-8-3 09:26
求你了……把代码贴出来吧……我们都没法调试……我们怎么帮你找出问题?

不好意思

点评

……贴出来吧  发表于 2018-8-3 20:53
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-3 20:54:09 | 显示全部楼层
  1. import urllib.request
  2. import re
  3. from bs4 import BeautifulSoup

  4. def main():
  5.     url = "http://baike.baidu.com/view/284853.htm"
  6.     response = urllib.request.urlopen(url)
  7.     html = response.read()
  8.     soup = BeautifulSoup(html, "html.parser") # 使用 Python 默认的解析器
  9.    
  10.     for each in soup.find_all(href=re.compile("view")):
  11.         print(each.text, "->", ''.join(["http://baike.baidu.com", each["href"]]))
  12.         # 上边用 join() 不用 + 直接拼接,是因为 join() 被证明执行效率要高很多

  13. if __name__ == "__main__":
  14.     main()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-3 21:13:07 | 显示全部楼层
没有哇。
它这个是爬含义。
比如我爬“猪八戒”
  1. 多肉百科 -> http://baike.baidu.com/wikicategory/view?categoryName=多肉植物
  2. 恐龙百科 -> http://baike.baidu.com/wikicategory/view?categoryName=恐龙大全
  3. 《乱斗西游》人物设定 -> http://baike.baidu.com/item/%E7%8C%AA%E5%85%AB%E6%88%92/17330461#viewPageContent
  4. 动画电影《西游记之大圣归来》中的角色 -> http://baike.baidu.com/item/%E7%8C%AA%E5%85%AB%E6%88%92/18290279#viewPageContent
  5. 《西行纪》中的人物 -> http://baike.baidu.com/item/%E7%8C%AA%E5%85%AB%E6%88%92/20834493#viewPageContent
  6. 歌手张羽伟专辑 -> http://baike.baidu.com/item/%E7%8C%AA%E5%85%AB%E6%88%92/2243150#viewPageContent
  7. 日本动漫《最游记》人物 -> http://baike.baidu.com/item/%E7%8C%AA%E5%85%AB%E6%88%92/2243133#viewPageContent
  8. 《夺宝幸运星》的角色 -> http://baike.baidu.com/item/%E7%8C%AA%E5%85%AB%E6%88%92/20300854#viewPageContent
  9. 电视剧《魔幻手机》人物 -> http://baike.baidu.com/item/%E7%8C%AA%E5%85%AB%E6%88%92/19847285#viewPageContent
  10. 锁定 -> http://baike.baidu.com/view/10812319.htm
复制代码

另外那个多肉百科恐龙百科是特色百科里面的链接只不过链接特征和含义的特征很像。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-3 21:23:52 | 显示全部楼层
无符号整形 发表于 2018-8-3 21:13
没有哇。
它这个是爬含义。
比如我爬“猪八戒”

我不会写 是复制粘贴小甲鱼老师的代码的,但是打印内容和小甲鱼老师的完全不同啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-4 09:26:52 | 显示全部楼层
紫夜之恋 发表于 2018-8-3 21:23
我不会写 是复制粘贴小甲鱼老师的代码的,但是打印内容和小甲鱼老师的完全不同啊

网页代码是会变的嘛……
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-4 12:36:13 | 显示全部楼层
无符号整形 发表于 2018-8-4 09:26
网页代码是会变的嘛……

额 能不能给我个合理的解释啊 具体例子 谢谢啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-4 12:43:32 | 显示全部楼层
紫夜之恋 发表于 2018-8-4 12:36
额 能不能给我个合理的解释啊 具体例子 谢谢啊

爬出来的多余东西都在<view>里面(网页有些别的东西放在view里面),但是小甲鱼做这个的时候只有词条的多种含义包含在<view>里面。
所以多了点东西
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-4 12:48:25 | 显示全部楼层
刚才找到问题了 需要查询‘item’才能正常打印,能解释一下吗?是因为QQ浏览器(浏览器不同)还是现在的网站整改之后造成的?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-11-3 08:41

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表