鱼C论坛

 找回密码
 立即注册
查看: 583|回复: 10

[已解决]关于爬淘宝的过程中使用正则表达式

[复制链接]
发表于 2020-4-10 18:05:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
为什么我直接 re.search(target,response.text) 捕获组写的是(.*?)死活匹配不到 我查看了网页源代码 target 没有问题呀

然而我把 response.text 写入一个txt 然后在读取出来 就能匹配的到了
f.write(response.text)
_ = f.read()

这是为什么呀 大佬们
谢谢你们!!!

最佳答案
2020-4-10 18:30:31
你打印一下爬到的代码,在里面找一下有没有你需要的内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-10 18:08:21 | 显示全部楼层
链接?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-4-10 18:20:41 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-10 18:23:02 | 显示全部楼层

好像链接审核不过去 TT
就是爱淘宝搜索的商品
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-10 18:30:31 | 显示全部楼层    本楼为最佳答案   
你打印一下爬到的代码,在里面找一下有没有你需要的内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-10 18:30:57 | 显示全部楼层
我自己找到问题了 哈哈哈
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-10 18:31:25 | 显示全部楼层
解决了?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-10 18:32:53 | 显示全部楼层
1q23w31 发表于 2020-4-10 18:30
你打印一下爬到的代码,在里面找一下有没有你需要的内容

嗯嗯 就是实际上网页上有空白符 保存在txt里就 变没了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-10 19:48:50 | 显示全部楼层

大佬 其实还是没解决 TT
期中结尾是这样的
...sultCode":0};

</script>
我想匹配以;/n 结尾 但是匹配不到
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-10 20:32:29 | 显示全部楼层
把源代码发一下,说一下你要匹配的东西
我试试
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-10 20:55:13 | 显示全部楼层
1q23w31 发表于 2020-4-10 20:32
把源代码发一下,说一下你要匹配的东西
我试试
import requests
import re
import json
def url_open(key_word):
    url='https://ai.taobao.com/search/index.htm'
    headers ={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
    params={'key':key_word,'sort':'biz30day'}
    res = requests.get(url,headers=headers,params=params)
    return res

def main():
    key_word=input('请输入商品关键字:')
    res = url_open(key_word)
##    with open('0.txt','w',encoding='utf-8')as f:
##        f.write(res.text)
##    with open('0.txt','r',encoding='utf-8')as f:
##        a = f.read()
    res_js = re.search(r'var _pageResult = (.*?);\n',res.text)
##    with open('4.txt','w',encoding='utf-8')as f:
##        f.write(res_js.group(1))
    target = res_js.group(1)
    d_json =json.loads(target)
    data = d_json['result']['auction']
    for each in data:
        print(each['nick'],each['biz30Day'])

if __name__=='__main__':
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-26 05:28

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表