淘宝防爬已经升级了，我找不到数据藏在哪

幽梦三影 · 发表于 2018-8-3 18:38:02

您需要登录才可以下载或查看，没有账号？立即注册

x

这是之前写的代码，以前正常，现在反馈给我不想要的东西

import requests
import random
import re
import os
import urllib.request as u
def get_html(url):
user = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"
ips = [
'222.161.56.166',
'122.238.12.191',
'61.191.41.130'
]
ip = random.choice(ips)
p = u.ProxyHandler({'http':ip})
opener = u.build_opener(p)
u.install_opener(opener)
rep = requests.get(url,headers={'User-Agent':user})
return rep
name = input('请输入要查找的商品：')
num = int(input('请输入页数：'))
key = u.quote(name)
os.mkdir(name)
os.chdir(name)
def main():
for j in range(num):
url = 'https://s.taobao.com/search?q=' + key + '&s='+ str(j*44)
html = get_html(url).text
s = re.findall(r'"pic_url":"([^"]+?)".+?"view_price":"([^"]+?)".+?"view_sales":"([^"]+?)"',html)
os.mkdir('%s%d'%(name,j+1))
os.chdir('%s%d'%(name,j+1))
for i in s:
img = get_html(url=('http:' + i[0]))
with open('%s元_%s.jpg'%(i[1],i[2]),'wb') as f:
f.write(img.content)
os.chdir(os.pardir)
if __name__ == '__main__':
main()

复制代码

小甲鱼的二师兄 · 发表于 2018-8-3 21:12:10

数据应该是以json文件传输的

wongyusing · 发表于 2018-8-30 17:29:21

在网页源代码的第四个script语句的第一段json中，

幽梦三影 · 发表于 2018-9-2 10:42:13

那个大字典已经被改了，不信输入python看看，本来全是书籍，结果还给T恤什么的

wongyusing · 发表于 2018-9-2 17:00:45

你在后面加个书籍就行啦

import requests
import re
import json
import pandas
# 打开网页函数
def get_response(url):
headers = {
'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36"}
response = requests.get(url, headers) # 加上浏览器头，以防被禁
response.encoding = 'utf-8' # 指定编码格式
#response.encoding = 'gbk' # 指定编码格式
return response
def main():
base_url = 'https://s.taobao.com/search?q=python书籍'
response = get_response(base_url)
req = 'g_page_config = (.*?)g_srp_loadCss'
items_list = re.findall(req,response.text,re.S)[0].strip()
js = json.loads(items_list[:-1])
jd = js['mods']['itemlist']['data']['auctions'] #.keys())
df = pandas.DataFrame(jd)
# 在下面逐一输入键名进行观察需要的数据。用浏览器打开当前文件,进行筛选
df[['category','raw_title','view_price','item_loc','view_sales']].to_html('test_data.html')
if __name__ == "__main__":
main()

复制代码

幽梦三影 · 发表于 2018-9-2 18:32:46

wongyusing 发表于 2018-9-2 17:00
你在后面加个书籍就行啦

好吧，但是和实际搜到的不一样，输入电脑能把鞋子给拿出来

wongyusing · 发表于 2018-9-2 18:42:48

幽梦三影发表于 2018-9-2 18:32
好吧，但是和实际搜到的不一样，输入电脑能把鞋子给拿出来

这是淘宝的反爬机制，让你爬，但爬不到干净的数据。
数据不干净是因为你的请求头太少参数了。
你使用浏览器正常打开淘宝并搜索商品可以发现url很长。这里面有很多个参数。
填写正确就行了。
如果不填写上面的参数，可以利用json数据中的一个商品id进行筛选。
给个最佳吧

wongyusing · 发表于 2018-9-2 18:45:30

本帖最后由 wongyusing 于 2018-9-2 18:47 编辑

商品id就是我的代码中第一个json数据的键名category

账号		自动登录	找回密码
密码			立即注册