鱼C论坛

 找回密码
 立即注册
查看: 3505|回复: 12

python爬虫问题

[复制链接]
发表于 2019-9-20 13:48:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import urllib.request
import re
import os
def open_url(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode('utf-8')
    return html

def get_img(html):
    reg=r'<img class="BDE_Image" pic_type="0" width="560" height="560" src="([^"]+\.jpg)"'
    imglist=re.findall(reg,html)
    print(imglist)    ////返回空列表
    '''
    print("一共有")
    print(len(imglist))
   
    for each in imglist:
        print(each)
        print("yes!")
    for each in imglist:
        filename = each.split("/")[-1]
        urllib.request.urlretrieve(each,filename,None)
    '''
if __name__=='__main__':
    url='https://tieba.baidu.com/p/6216578674'
    get_img(open_url(url))


真的不知道问题出在哪,弄了一上午快哭了!最后只返回[]这个
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-9-20 14:08:16 | 显示全部楼层
来个人帮忙解答一下吧
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-20 14:32:03 | 显示全部楼层
本帖最后由 yuweb 于 2019-9-21 08:40 编辑

findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。

语法格式为:

findall(string[, pos[, endpos]])
参数:

string : 待匹配的字符串。
pos : 可选参数,指定字符串的起始位置,默认为 0。
endpos : 可选参数,指定字符串的结束位置,默认为字符串的长度。

open_url(url)里返回的html有问题

import re
import os
import requests
import bs4

def open_url(url):
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
    html = requests.get(url,headers = headers)
    return html

def get_img(html):
    file_name = 'image2.html'
    with open(file_name,'w',encoding='utf-8') as file_obj:
        file_obj.write(html.text)

    soup = bs4.BeautifulSoup(html.text,"lxml")
    content = soup.select("img.BDE_Image")
   
    print(content)
    '''
    print("一共有")
    print(len(imglist))
   
    for each in imglist:
        print(each)
        print("yes!")
    for each in imglist:
        filename = each.split("/")[-1]
        urllib.request.urlretrieve(each,filename,None)
    '''
if __name__=='__main__':
    url='https://tieba.baidu.com/p/6216578674'
    get_img(open_url(url))
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-20 15:42:11 | 显示全部楼层
yuweb 发表于 2019-9-20 14:32
findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表 ...

def findall(pattern, string, flags=0)我知道这个,但是为什么会匹配失败啊?
原图片就是这样的<img class="BDE_Image" pic_type="0" width="560" height="560" src="https://imgsa.baidu.com/forum/w%3D580/sign=22d642fd00f41bd5da53e8fc61d881a0/4cfff203918fa0ec5732c1db289759ee3c6ddb1a.jpg">
那我这个正则表达式匹配到src应该没什么问题吧?为什么会返回[]呢?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-20 16:05:47 | 显示全部楼层
  1. import re
  2. import os
  3. import requests
  4. import bs4

  5. def open_url(url):
  6.     headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
  7.     html = requests.get(url,headers = headers)
  8.     return html

  9. def get_img(html):
  10.     file_name = 'image2.html'
  11.     with open(file_name,'w',encoding='utf-8') as file_obj:
  12.         file_obj.write(html.text)

  13.     soup = bs4.BeautifulSoup(html.text,"lxml")
  14.     content = soup.select("img.BDE_Image")
  15.    
  16.     print(content)
  17.     '''
  18.     print("一共有")
  19.     print(len(imglist))
  20.    
  21.     for each in imglist:
  22.         print(each)
  23.         print("yes!")
  24.     for each in imglist:
  25.         filename = each.split("/")[-1]
  26.         urllib.request.urlretrieve(each,filename,None)
  27.     '''
  28. if __name__=='__main__':
  29.     url='https://tieba.baidu.com/p/6216578674'
  30.     get_img(open_url(url))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-20 16:11:54 | 显示全部楼层
yuweb 发表于 2019-9-20 14:32
findall
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表 ...

刚才在我同学电脑上试了一下他的可以正常运行我的代码,但是我的就显示空列表,是什么的原因,证书的原因吗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-20 16:14:10 | 显示全部楼层
给你一个bs4做的
  1. import re
  2. import os
  3. import requests
  4. import bs4

  5. def open_url(url):
  6.     headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
  7.     html = requests.get(url,headers = headers)
  8.     return html

  9. def get_img(html):
  10.     file_name = 'image2.html'
  11.     with open(file_name,'w',encoding='utf-8') as file_obj:
  12.         file_obj.write(html.text)

  13.     soup = bs4.BeautifulSoup(html.text,"lxml")
  14.     content = soup.select("img.BDE_Image")
  15.    
  16.     print(content)
  17.     '''
  18.     print("一共有")
  19.     print(len(imglist))
  20.    
  21.     for each in imglist:
  22.         print(each)
  23.         print("yes!")
  24.     for each in imglist:
  25.         filename = each.split("/")[-1]
  26.         urllib.request.urlretrieve(each,filename,None)
  27.     '''
  28. if __name__=='__main__':
  29.     url='https://tieba.baidu.com/p/6216578674'
  30.     get_img(open_url(url))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-20 16:19:58 | 显示全部楼层
楼主你open_url(url)方法中返回的html有问题
可以保存到本地文件中,然后查看一下,跟原网页的html源代码不同的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-20 16:41:11 | 显示全部楼层
yuweb 发表于 2019-9-20 16:19
楼主你open_url(url)方法中返回的html有问题
可以保存到本地文件中,然后查看一下,跟原网页的html源代码 ...

我找到问题所在了。
我的User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Mobile Safari/537.36为这个但是我是用windows进行访问的不知道为啥会被当做linux
这个是我同学的Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36,我用他的替换一下就成功了,不知道为啥我所有的都被算作linux,不知道有什么解决办法
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-20 16:49:24 | 显示全部楼层
ljj19971222 发表于 2019-9-20 16:41
我找到问题所在了。
我的User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWe ...

我贴了个代码,还没通过审核,你等等
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-20 16:59:44 | 显示全部楼层
yuweb 发表于 2019-9-20 16:49
我贴了个代码,还没通过审核,你等等

好的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-20 18:39:46 | 显示全部楼层
yuweb 发表于 2019-9-20 16:49
我贴了个代码,还没通过审核,你等等

emmm怎么还没通过呀,是不是没提交成功
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-21 08:44:34 | 显示全部楼层
本帖最后由 yuweb 于 2019-9-21 08:46 编辑

不好意思,一直没过,我提交了好几遍,审核好慢啊,楼主看看要不要把重复的楼层删了(看6楼的就好)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-24 16:09

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表