正则表达式爬虫
本帖最后由 开心小羊 于 2021-3-17 15:10 编辑求助大神,这个前面打开网页html都是没错的,但是就是到了用正则表达式的时候老是返回空的列表,用谷歌浏览器打开的百度贴吧,正则表达式是按着写的,不知道为什么就是找不到
想问一下百度贴吧的代码是动态的吗或者是审查的时候跟源代码不太一样吗
不放代码谁能知道咋回事 代码放出来,或者一部分你爬到的网页源码和正则表达式 你是不是没加 headers 另外,放上你要爬取的网页的链接 加了headers,网页也能打开,html也能下载下来,但是就是用正则表达式的时候找不到,返回的总是空的列表,下面我贴一下网页的源代码,然后大神们帮我看看我的正则表达式是不是哪错了? 开心小羊 发表于 2021-3-17 14:15
加了headers,网页也能打开,html也能下载下来,但是就是用正则表达式的时候找不到,返回的总是空的列表, ...
你要爬的网址发出来 Daniel_Zhang 发表于 2021-3-17 15:48
你要爬的网址发出来
https://tieba.baidu.com/f?kw=steam&ie=utf-8&pn=50 开心小羊 发表于 2021-3-17 16:19
https://tieba.baidu.com/f?kw=steam&ie=utf-8&pn=50
就是爬取百度贴吧上面的图片,我最后换了一个正则表达式尝试了一下发现他在html中每一张图片的地址前面的信息和我在浏览器中审查的时候一点都不一样
这是我换了一个正则表达式找到的图片的地址,和网站本身的地址一点都不一样 开心小羊 发表于 2021-3-17 16:23
这是我换了一个正则表达式找到的图片的地址,和网站本身的地址一点都不一样
目标不就是爬出图片地址{:10_245:}
你爬完了看看有没有自己需要的不就是了
页:
[1]