鱼C论坛

 找回密码
 立即注册
查看: 1224|回复: 16

[已解决]关于两个问题的求助

[复制链接]
发表于 2020-7-4 08:59:47 | 显示全部楼层 |阅读模式
20鱼币
本帖最后由 红唇如刀 于 2020-7-4 09:36 编辑

尝试一个简易的爬虫时,遇到两个问题,求助所有路过的鱼友

问题1:为什么我在请求的时候,如果带上headers,会提示错误:
           如果我把headers去掉后,就可以正常使用?我想在请求的时候带上headers应该如何实现?

问题2:我需要的是图中标红的信息,我自己的代码中的倒数第二句没有效果,如何用代码实现?
  
      





  1. import requests
  2. import os
  3. from bs4 import BeautifulSoup

  4. url = "https://xuangubao.cn/theme/17006066"
  5. headers ={ 'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36' }
  6. path = (r'C:\Users\Administrator\Desktop\\')

  7. file_html = requests.get(url,headers = headers)
  8. demo = file_html.text
  9. soup = BeautifulSoup(demo,'html.parser')

  10. name =soup.title.text.split(' |')[0]+'.txt'
  11. file_name =path +name
  12. with open(file_name,'w',encoding= 'utf-8')as f:
  13.     f.writelines(demo)
  14. print('已在桌面生成%s文件'%(name))

  15. code =soup.body.text.split('".ss"')
  16. print(code)

复制代码



请各位鱼友出手相助!
最佳答案
2020-7-4 08:59:48
红唇如刀 发表于 2020-7-4 09:19
版主您好:
      第二个问题应该如何解决啊

这个不怎么了解了,抱歉帮不到你了
snipaste_20200704_085857.jpg
snipaste_20200704_084200.jpg

最佳答案

查看完整内容

这个不怎么了解了,抱歉帮不到你了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-4 08:59:48 | 显示全部楼层    本楼为最佳答案   
红唇如刀 发表于 2020-7-4 09:19
版主您好:
      第二个问题应该如何解决啊

这个不怎么了解了,抱歉帮不到你了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-4 09:03:23 | 显示全部楼层


问题1:为什么我在请求的时候,如果带上headers,会提示错误:
           如果我把headers去掉后,就可以正常使用?我想在请求的时候带上headers应该如何实现?

headers 是字典格式的, 你写成了 集合
错误:
headers ={ 'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36' }
正确:
headers ={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36' }



想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-4 09:08:31 | 显示全部楼层
Twilight6 发表于 2020-7-4 09:03
headers 是字典格式的, 你写成了 集合

谢谢帮助。可是我看你回复的信息里面,错误的写法和正确的写法是一模一样的啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-4 09:08:58 | 显示全部楼层
红唇如刀 发表于 2020-7-4 09:08
谢谢帮助。可是我看你回复的信息里面,错误的写法和正确的写法是一模一样的啊

不认真了兄弟  你认真看下单引号
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-4 09:11:16 | 显示全部楼层
Twilight6 发表于 2020-7-4 09:03
headers 是字典格式的, 你写成了 集合

噢噢噢噢,注意到了区别,谢谢谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-4 09:19:32 | 显示全部楼层
Twilight6 发表于 2020-7-4 09:08
不认真了兄弟  你认真看下单引号

版主您好:
      第二个问题应该如何解决啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-4 09:55:41 | 显示全部楼层
Twilight6 发表于 2020-7-4 09:37
这个不怎么了解了,抱歉帮不到你了

好的,谢谢您
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-4 10:20:18 | 显示全部楼层
第二个问题:
看的指的图里的网址根本不是url的地址,你解析的位置就不对
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-4 10:29:42 | 显示全部楼层
如果我不从网站上截取,直接从下载好的本地文件中截取,可不可以?要如何实现?
20200704102731.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-4 10:30:50 | 显示全部楼层
WylLy 发表于 2020-7-4 10:20
第二个问题:
看的指的图里的网址根本不是url的地址,你解析的位置就不对


如果我不从网站上截取,直接从下载好的本地文件中截取,可不可以?要如何实现?如图所示
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-4 10:49:57 | 显示全部楼层
从图中看,你要的字段是在请求头文件里面的path 这个是你发送的请求. 是自己设置的. 你得找到来源. 这里不是来源.
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-4 10:51:07 | 显示全部楼层
红唇如刀 发表于 2020-7-4 10:30
如果我不从网站上截取,直接从下载好的本地文件中截取,可不可以?要如何实现?如图所示

你要做的是把文件处理成标准的json文件或者字典或者列表
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-4 10:56:16 | 显示全部楼层
johnnyb 发表于 2020-7-4 10:49
从图中看,你要的字段是在请求头文件里面的path 这个是你发送的请求. 是自己设置的. 你得找到来源. 这里不是 ...

好的,谢谢指导
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-4 11:07:02 | 显示全部楼层
WylLy 发表于 2020-7-4 10:51
你要做的是把文件处理成标准的json文件或者字典或者列表

好的,能不能举个正确代码写法的例子?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-4 11:08:57 | 显示全部楼层
headers写错了,应该是字典{"":""}这种样式的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-4 11:15:39 | 显示全部楼层
小小的石头 发表于 2020-7-4 11:08
headers写错了,应该是字典{"":""}这种样式的

谢谢,已经修改
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-25 22:12

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表