鱼C论坛

 找回密码
 立即注册
查看: 2868|回复: 4

[学习笔记] 求教

[复制链接]
发表于 2019-6-29 22:12:28 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
要求:爬取简书网“推荐作者”信息
http://www.jianshu.com/recommendations/users
爬取信息包括:作者URL、作者ID、最近更新文章、作者类型以及“关注、粉丝、文章、字数和收获喜欢”,并最终保存到一个文件夹中。这个爬虫怎么写啊。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-6-30 00:08:08 | 显示全部楼层
不自己先试试?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-30 11:53:59 | 显示全部楼层
回答预定,
给点时间
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-7-1 20:10:06 | 显示全部楼层
  1. from bs4 import BeautifulSoup as bs
  2. import requests
  3. import lxml
  4. import re


  5. writer = []
  6. own_page = []
  7. recent = []
  8. prize = []
  9. headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}
  10. url = 'https://www.jianshu.com/recommendations/users'
  11. #见了个鬼,有的用户数字后面带w
  12. pat = re.compile('<p>(\d+(?:\.\dw)?)</p>')

  13. page = requests.get(url, headers=headers).content
  14. soup = bs(page, 'lxml')
  15. names = soup.find_all('h4', class_='name')
  16. titles = soup.find_all('div', class_='recent-update')
  17. # 作者名
  18. for name in names:
  19.     writer.append(name.get_text())
  20. # 最近更新
  21. for title in titles:
  22.     recent.append([title.a.get_text()])
  23. # 个人主页
  24. for name in names:
  25.     own_page.append('https://www.jianshu.com'+name.parent.attrs['href'])
  26. # 关注 粉丝 文章 字数 喜欢
  27. for each_url in own_page:
  28.     wrap = []
  29.     page = requests.get(each_url, headers=headers).content
  30.     soup = bs(page, 'lxml')
  31.     for data in soup.find_all('div', class_='meta-block'):
  32.         info = re.findall(pat, str(list(data.children)[1]))
  33.         wrap.append(info[0])
  34.     prize.append(wrap)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-7-1 20:13:18 | 显示全部楼层
至于简书的动态加载,我实在不敢恭维,
你看下f12就会发现,请求的地址是有规律的,
你要是爬取全部,就封装一下我的代码。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-24 10:04

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表