sjnn64994 发表于 2022-9-24 21:13:17

淘宝比价爬取

import re
import requests

def getHTMLText(url,header):
                try:
                              r = requests.get(url, headers=header, timeout=30)
                              r.raise_for_status()
                              r.encoding = r.apparent_encoding
                              return r.text
                except:
                              return ""

def parsePage(ilt,html):
                try:
                              plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
                              tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)
                              for i in range(len(plt)):
                                                price = eval(plt.split(':'))
                                                title = eval(tlt.split(':'))
                                                ilt.append()
                except:
                              print("...")

def printGoodsList(ilt):
                tplt = "{:4}\t{:8}\t{:16}"                  
                print(tplt.format("序号", "价格", "商品名称"))
                count = 0
                for g in ilt:
                              count = count + 1
                              print(tplt.format(count, g, g))

def main():
                goods = '零食'
                depth = 2
                start_url = 'https://s.taobao.com/search?q=' + goods
                header = {
                              "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
                              "Cookie":'miid=203625204903725999; enc=F6jHbYWC3qKagm%2BtD1rqmotjewfXBFiarb0xBkHjwY347QXUYsMnqlLLE13bwUQyYu%2Bu0unUHamdz3NJQhnz1zZ%2FeoheN21xeXQjM31onCQ%3D; t=0f2783d5c9a289e9e023609d924f655d; cna=ZtNRGiGAqEwCAXWIP2/Vo/sj; xlly_s=1; sgcookie=E100wO0MnXWkBisYgjz4%2FwE%2F79shtKoPm1nhsmYkjKtgbEI9KwvLfHCKwYocKB6LRvg1mhTmV9p6hKmreOOoUAD0WrSMjiZrcf7zPjJqJU6c9NIS8vTphgn7DZlA9P49s%2BNS; uc3=nk2=F5RFhB0%2FkyOMVBaq&id2=UUphw2eawPynlCSO1Q%3D%3D&lg2=Vq8l%2BKCLz3%2F65A%3D%3D&vt3=F8dCv4UxEWblEVwFcuU%3D; lgc=tb0439756155; uc4=id4=0%40U2grGNhj7ogXjdhiImhjbjQ%2BbXZk4pfC&nk4=0%40FY4O7bKCfmLj%2BRkOGZwTbicJ8EK25lE%3D; tracknick=tb0439756155; _cc_=V32FPkk%2Fhw%3D%3D; mt=ci=-1_0; uc1=cookie14=UoeyChIfBxGNZw%3D%3D; thw=cn; _tb_token_=35968843fe5be; _m_h5_tk=fe7cec091e84ecea1f18b7bfd877ea73_1664022261268; _m_h5_tk_enc=a3229254cec97cc1c99f91975bedd84e; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; JSESSIONID=8519BC4C36CA35D5AFE8381371B29BD3; isg=BHl5Fx64PkYQOuE6vk7UeLXwiOVThm04mhOXlZuv3aAfIpu049XlCKMwpCbUmgVw; l=eBSie1HRjfmvf4KtBO5ahurza77tPIObzsPzaNbMiInca1u5tFTDdNCEYF6BSdtjgtfbKetPkdi_7REk7izdg2HvCbKrCyClVxJ6-; tfstk=ce7NBdvoVPUai25YeeYV8naJ-2xOaW-D42Rvj8KS89I_GAbkUsAtHB2t6BR834-G.'
                              }
                infoList = []      
                for i in range(depth):
                              try:
                                                url = start_url + '&s=' + str(44*i)
                                                html = getHTMLText(url, header)
                                                parsePage(infoList, html)
                              except:
                                                continue
                printGoodsList(infoList)


if __name__ == '__main__':
                main()
页: [1]
查看完整版本: 淘宝比价爬取