鱼C论坛

 找回密码
 立即注册
查看: 915|回复: 3

大佬帮忙看看第二个正则怎末匹配不上,我单独放一个Py可以,放一起就b

[复制链接]
发表于 2019-4-23 23:21:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import requests
import re

class TiebaSpider:
    def __init__(self):
        self.tiebaname = input("请输入爬取贴吧:")
        self.selfpage = int(input("请输入爬取页码:"))
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
                                      " AppleWebKit/537.36 (KHTML, like Gecko)"
                                      " Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"}
        self.img_dir = r"C:/Users/亮晶晶/Desktop" + self.tiebaname
        self.save()
        self.run()


    def run(self):
        for i in range(self.selfpage):
            page = i * 50

            tiebaurl = ("http://tieba.baidu.com/f?ie=utf-8&kw={}&fr=search".format(self.tiebaname, page))
            respond = requests.get(tiebaurl, headers=self.headers).text
            # resl = re.compile('href="/p/\d\d\d\d\d\d\d\d\d\d" title=".*?"')
            resl = re.compile('href="/p/\d\d\d\d\d\d\d\d\d\d"')
            urlname = re.findall(resl, respond)
            # urlname2 = urlname[7:-2]
            # print(urlname)
            for i in urlname:
                i = i[6:-2]
                # print(i)
                url_1 = 'https://tieba.baidu.com' + i
                # print(url_1)
                    respond = requests.get(url_1,headers=self.headers).text
                # print(respond)

                    res2 = re.findall('src="https://imgsa.baidu.com/forum(.*?)"', respond)
                    print(res2)
                    for i in res2:
                        i = 'https://imgsa.baidu.com/forum' + i
                        print(i)

    def save(self):
        pass


if __name__ == "__main__":
    TiebaSpider()
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-4-23 23:31:24 | 显示全部楼层
做的一个爬取贴吧图片的
第二个链接单独用可以匹配出来
连起来用就匹配步出来,求解
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-24 00:18:04 | 显示全部楼层
亮晶晶 发表于 2019-4-23 23:31
做的一个爬取贴吧图片的
第二个链接单独用可以匹配出来
连起来用就匹配步出来,求解

懵逼三联,不知道你指得具体哪一行匹配不出来,你用发代码得形式发出来,然后你再说下你具体哪个匹配不出来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-24 11:45:02 | 显示全部楼层
cwhsmile 发表于 2019-4-24 00:18
懵逼三联,不知道你指得具体哪一行匹配不出来,你用发代码得形式发出来,然后你再说下你具体哪个匹配不出 ...

不会那种发啊!第一次发帖
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-9-11 02:51

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表