[已解决]python爬虫

1141429506 · 发表于 2017-10-23 22:09:36

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

哪位大佬可以逐行讲解一下下面的爬虫每一步都是在干嘛？只有一点python基础，没怎么学爬虫，，，学长让解决其中爬取数据会断页的问题，，脑袋要炸。。。得先看的懂下面的代码是在干嘛才行啊啊啊啊

import requests
import json
head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
url_ = 'https://maps.googleapis.com/maps/api/place/search/json?language=en&key='
result = []
#url = url_ + key + "&radius=1000&location=" +str(lat) + ',' +str(lng) + '&types=' + types
url = 'https://maps.googleapis.com/maps/api/place/search/json?language=en&key=AIzaSyDIplmP9mM7w7DVf3tHMpLngwA8uc9zl_M&radius=1000&location=1.3066,103.870339&types=accounting'
while True:
print(url)
request = requests.get(url,timeout = 3,headers=head)
request.encoding = 'utf8'
if "error_message" in request.text:
      print('error')
      break
res = json.loads(request.text)#
result.extend(res['results'])
print('处理开始')
#如果多页则处理下页
if res.get('next_page_token') != None:
      print(res.get('next_page_token'))
      url = url_ + 'AIzaSyDIplmP9mM7w7DVf3tHMpLngwA8uc9zl_M' + '&' + 'pagetoken=' + res.get('next_page_token')
else:
      break
#返回一个 list列表[latlng,result,types,number]
print(len(result))

最佳答案

月排行榜 / 总排行榜

sunnychou

2017-10-24 08:52:40

ooxx7788 发表于 2017-10-23 22:59
一条一条我做不到了，分个块吧，爬虫其实一般可以分为3部分
1、准备部分，用来包装提交请求需要的东西，例 ...

跳转到最佳答案楼层

ba21 · 发表于 2017-10-23 22:18:54

不懂就先慢慢先学着，这叫人家一条一条的解释，你也未必能懂。

ooxx7788 · 发表于 2017-10-23 22:59:10

一条一条我做不到了，分个块吧，爬虫其实一般可以分为3部分
1、准备部分，用来包装提交请求需要的东西，例如头部代码，代理，cookies之类的东西
2、获取解析部分，提交请求，解析页面。这部分一般由库requests，BeautifulSoup，re这些来完成，就是用来获取页面html的过程
3、提取保存部分。从html中抽取需要的内容，保存成文件或者导入数据库

import requests
import json
# 准备部分
head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
url_ = 'https://maps.googleapis.com/maps/api/place/search/json?language=en&key='
result = []
#url = url_ + key + "&radius=1000&location=" +str(lat) + ',' +str(lng) + '&types=' + types
url = 'https://maps.googleapis.com/maps/api/place/search/json?language=en&key=AIzaSyDIplmP9mM7w7DVf3tHMpLngwA8uc9zl_M&radius=1000&location=1.3066,103.870339&types=accounting'
# 请求获取
while True:
print(url)
request = requests.get(url,timeout = 3,headers=head)
request.encoding = 'utf8'
if "error_message" in request.text:
print('error')
break
# 提取保存
res = json.loads(request.text)#
result.extend(res['results'])
print('处理开始')
#如果多页则处理下页
if res.get('next_page_token') != None:
print(res.get('next_page_token'))
url = url_ + 'AIzaSyDIplmP9mM7w7DVf3tHMpLngwA8uc9zl_M' + '&' + 'pagetoken=' + res.get('next_page_token')
else:
break
#返回一个 list列表[latlng,result,types,number]
print(len(result))

复制代码

sunnychou · 发表于 2017-10-24 08:52:40

这个最佳答案由 sunnychou 给出，感谢 sunnychou 的回答。

单击隐藏图章

ooxx7788 发表于 2017-10-23 22:59
一条一条我做不到了，分个块吧，爬虫其实一般可以分为3部分
1、准备部分，用来包装提交请求需要的东西，例 ...

gopythoner · 发表于 2017-10-24 09:30:28

递归爬虫

账号		自动登录	找回密码
密码			立即注册

[已解决]python爬虫

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块