爬虫正则表达式问题

薪爨 · 发表于 2019-3-10 18:33:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

爬取淘宝页面商品信息
正则表达式好像不对，没有爬到信息

import requests
import re
def getHtmlText(url):
try :
r = request.get(url,timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def parserPage(ilt,html):
try:
plt = re.findall(r'"view_price":\d"',html)
tlt = re.findall(r'"raw_title":".*?"',html)
for i in range(len(plt)):
price = eval(pat[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price,title])
except:
return 0
def printGoodList(lit):
tplt = "{:4}\t{:8}\t{:16}"
print(tplt.format("序号","价格","商品名称"))
count = 0
for g in lit:
count = count + 1
print(tplt.format(count,g[0],g[1]))
def main():
goods = '书包'
depth = 2
start_url = "https://s.taobao.com/search?q=" + goods
infoList = []
for i in range (depth):
try :
url = start_url + '&s='+ str(44*i)
html = getHtmlText(url)
parsePage(infoList,html)
except:
continue
printGoodList(infoList)
main()

复制代码

求大佬指正

yjsx86 · 发表于 2019-3-10 22:52:32

本帖最后由 yjsx86 于 2019-3-10 22:59 编辑

先不说正则的问题
你用代码去访问https://s.taobao.com/search?q=书包 , 会被302重定向到登录界面可以开个隐身窗口去测试
你需要先解决登录淘宝的问题
爬虫不是说爬就爬的,登录淘宝后再看看请求https://s.taobao.com/search?q=书包,时需要带些什么cookie
带cookie访问网页获取html代码,看看是否有你需要的数据,没有的话数据就可能在json里或者是由js拼接的

wongyusing · 发表于 2019-3-11 09:50:18

你确定你获取到内容了？？

淘宝现在除了需要登陆的曲奇，还要一堆人类操作的触发的js生成的曲奇才能获取到正确的内容。

wiselin · 发表于 2019-3-11 16:51:45

爬虫用正则好麻烦，建议用CSS或者XPATH

账号		自动登录	找回密码
密码			立即注册