鱼C论坛

 找回密码
 立即注册
查看: 446|回复: 2

[已解决]爬虫有关的问题

[复制链接]
发表于 2018-9-21 21:44:32 | 显示全部楼层 |阅读模式
30鱼币
一个动态网页,怎么抓取想要的字符串啊
就比如说http://www.25xz.com/player/1.shtml
这个网址
我找到了他的mp3地址为
http://bama.25xz.com/小卓玛/故乡迭部.mp3

小卓玛和故乡迭部分别是他的专辑名字和歌曲名字

但是如果用urlopen返回的html是一个静态网址,没有相应的专辑名字和歌曲名字
怎么应该获取啊
最佳答案
2018-9-21 21:44:33
本帖最后由 wongyusing 于 2018-9-22 20:18 编辑
  1. import requests     # requests是python的一个轻量级爬虫框架
  2. from bs4 import BeautifulSoup as bs  # BeautifulSoup这个名字太长了,简写成bs

  3. # 打开网页函数
  4. def get_response(url):
  5.     headers = {

  6. 'Host': 'www.25xz.com',
  7. 'Connection': 'keep-alive',
  8. 'Accept': 'application/json, text/javascript, */*; q=0.01',
  9. 'X-Requested-With': 'XMLHttpRequest',
  10. 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
  11. 'Referer': 'http://www.25xz.com/player/1.shtml',
  12. 'Accept-Encoding': 'gzip, deflate',
  13. 'Accept-Language': 'zh-CN,zh;q=0.9',
  14. 'Cookie': 'ASP.NET_SessionId=qhgwada3kxhnrckccypdxgah',
  15.         }
  16.     response = requests.get(url, headers)
  17.     response.encoding = 'utf-8'
  18.     #response.encoding = 'gbk'
  19.     return response


  20. def main():
  21.     base_url = 'http://www.25xz.com/ajax/musicList.shtml@1'
  22.     response = get_response(base_url)
  23.     print(response.text)
  24.     #soup = bs(response.text,'lxml')
  25.     #print(soup.select('.play_musicname'))

  26. if __name__ == '__main__':
  27.     main()
复制代码

还有事情忙着,有空再写注释

最佳答案

查看完整内容

还有事情忙着,有空再写注释
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-9-21 21:44:33 | 显示全部楼层    本楼为最佳答案   
本帖最后由 wongyusing 于 2018-9-22 20:18 编辑
  1. import requests     # requests是python的一个轻量级爬虫框架
  2. from bs4 import BeautifulSoup as bs  # BeautifulSoup这个名字太长了,简写成bs

  3. # 打开网页函数
  4. def get_response(url):
  5.     headers = {

  6. 'Host': 'www.25xz.com',
  7. 'Connection': 'keep-alive',
  8. 'Accept': 'application/json, text/javascript, */*; q=0.01',
  9. 'X-Requested-With': 'XMLHttpRequest',
  10. 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
  11. 'Referer': 'http://www.25xz.com/player/1.shtml',
  12. 'Accept-Encoding': 'gzip, deflate',
  13. 'Accept-Language': 'zh-CN,zh;q=0.9',
  14. 'Cookie': 'ASP.NET_SessionId=qhgwada3kxhnrckccypdxgah',
  15.         }
  16.     response = requests.get(url, headers)
  17.     response.encoding = 'utf-8'
  18.     #response.encoding = 'gbk'
  19.     return response


  20. def main():
  21.     base_url = 'http://www.25xz.com/ajax/musicList.shtml@1'
  22.     response = get_response(base_url)
  23.     print(response.text)
  24.     #soup = bs(response.text,'lxml')
  25.     #print(soup.select('.play_musicname'))

  26. if __name__ == '__main__':
  27.     main()
复制代码

还有事情忙着,有空再写注释
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-9-22 20:33:40 | 显示全部楼层
对这个URL发送请求
]2]LFS{US)R1PB]9F7)Y~71.png

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
RIXO + 5 + 5 + 3

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 16:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表