鱼C论坛

 找回密码
 立即注册
楼主: YuGuii

[作品展示] 百度文库爬虫(爬取需要下载券的文档)

  [复制链接]
发表于 2023-3-3 15:39:32 | 显示全部楼层
太需要了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-3-10 23:52:26 | 显示全部楼层
好人一生平安
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-12 10:45:56 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-12 12:39:34 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-18 18:05:01 | 显示全部楼层
非常感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-18 20:11:14 | 显示全部楼层

学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-19 13:40:13 | 显示全部楼层
好厉害!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-19 15:19:22 | 显示全部楼层
瞅一瞅
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-19 22:44:25 | 显示全部楼层
好好学习天天向上
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-20 09:53:22 | 显示全部楼层
为何在执行的时候报错了?麻烦帮忙解决一下可以没?谢谢

File "C:/Users/lyl/PycharmProjects/pythonProject1/dangdang/dangdang/spiders/testpc.py", line 86
    url_list = [item.replace("\", '') for item in url_list]
                                                          ^
SyntaxError: EOL while scanning string literal
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-6 15:13:01 | 显示全部楼层

可以可以,正好需要!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-9 18:11:34 | 显示全部楼层
怎么下载
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-10 14:12:26 | 显示全部楼层
looklook
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-20 17:47:02 | 显示全部楼层
好好学习天天向上
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-21 11:38:02 | 显示全部楼层
赶紧把代码给我们交出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-22 08:28:03 | 显示全部楼层
向大神致敬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-6-11 11:20:22 | 显示全部楼层
冷小漠 发表于 2018-6-10 14:49
看了楼主的代码,总结了一下思路:

百度文库比较特殊,虽然抓包可以抓得到,但是文章的api很难逆向,至 ...

报错了这个怎么解决呀

Traceback (most recent call last):
  File "D:/快速访问/桌面/fishc百度文库.py", line 97, in <module>
    main()
  File "D:/快速访问/桌面/fishc百度文库.py", line 82, in main
    content = fetch_url(url)
  File "D:/快速访问/桌面/fishc百度文库.py", line 10, in fetch_url
    return session.get(url).content.decode('gbk')
UnicodeDecodeError: 'gbk' codec can't decode byte 0x98 in position 384: illegal multibyte sequence
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-6-11 17:03:15 From FishC Mobile | 显示全部楼层
想跟大神学着用啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-6-12 10:55:25 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-7-7 09:24:48 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-16 00:40

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表