鱼C论坛

 找回密码
 立即注册
查看: 1583|回复: 2

[已解决]写了个爬虫报错了改正

[复制链接]
发表于 2020-7-30 12:31:56 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. #爬取知乎上的一些问题和答案
  2. import re
  3. from pyquery import PyQuery as pq
  4. import requests
  5. from bs4 import BeautifulSoup
  6. import time

  7. url='https://www.zhihu.com/explore'
  8. headers={
  9. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
  10.               '(KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
  11. }
  12. html=requests.get(url,headers=headers).text
  13. soup=BeautifulSoup(html,'lxml')
  14. doc=pq(html)
  15. items=doc('.ExploreCollectionCard-contentList').items()
  16. items1=doc('.ExploreSpecialCard-contentItem').items()
  17. #其中一个分类的标题和回答
  18. for item in items:
  19.     print(item('.ExploreCollectionCard-contentTitle').text())
  20.     print(item('.ExploreCollectionCard-contentExcerpt').text())
  21.     print('---------------------------------手动分割线-------------------------')
  22. #另一个分类问题的标题和回答
  23. for item in items1:
  24.     print(item('.ExploreSpecialCard-contentItem').text())
  25.     #答案不在源码里,故通过给的链接再去爬答案
  26.     link='https://www.zhihu.com'+item('.ExploreSpecialCard-contentTitle').attr('href')
  27.     html1=requests.get(url=link,headers=headers).text
  28.     doc=pq(html1)
  29.     items2=doc('#js-initialData').items()
  30.     for item3 in items2:
  31.         print(re.findall(r'"content":"(.*?)"', item3.text()))
  32.         print('---------------------------------手动分割线-------------------------')
复制代码
最佳答案
2020-7-30 14:43:17
我看了一下报错的那个网址和不报错的网址规律不一样
你是按一种规律来解析的


                               
登录/注册后可看大图


报错的网址

2020-7-30 14-40-31.png
不报错的网址
2020-7-30 14-41-8.png



                               
登录/注册后可看大图

网址解析出错,所以报错
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-7-30 13:45:11 | 显示全部楼层
有什么问题?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-7-30 14:43:17 | 显示全部楼层    本楼为最佳答案   
我看了一下报错的那个网址和不报错的网址规律不一样
你是按一种规律来解析的


                               
登录/注册后可看大图


报错的网址

2020-7-30 14-40-31.png
不报错的网址
2020-7-30 14-41-8.png



                               
登录/注册后可看大图

网址解析出错,所以报错
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-24 16:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表