百度文库爬虫（爬取需要下载券的文档）,Python交流,编程语言专区,鱼C论坛

我爱小甲鱼.c 发表于 2018-12-28 00:45:55

666

jasmorning 发表于 2018-12-28 23:35:42

看了评论觉得有必要看看

lovesword 发表于 2018-12-29 10:57:38

穆白

大裤衩子 发表于 2018-12-29 14:10:13

厉害啊

sdtfll 发表于 2018-12-31 06:28:40

看看，谢谢，，，，，，，，，

loveky 发表于 2018-12-31 07:57:14

这个厉害了

gudujian158411 发表于 2019-1-16 11:12:23

学习一下

diom 发表于 2019-1-16 11:22:43

看看

四点好 发表于 2019-1-16 14:00:55

我下载下来测试运行，LZ厉害，用正则爬网站

9Gyw 发表于 2019-1-16 14:17:51

啊啊啊啊啊啊

1072368472 发表于 2019-1-16 14:22:30

222222222222222222222222223

四点好 发表于 2019-1-16 14:59:36

牛逼的代码，我就不清楚，LZ是如何知识这些不同的URL网址的，全部用正则抓数据，洗数据，膜拜楼主

一秋秋s 发表于 2019-1-16 15:29:49

hw1512 发表于 2018-12-25 17:13
楼主你好我是一个刚开始学习python的菜鸟看到这个百度文库爬虫感觉太需要了但是源代码编译的时候63行一 ...

63行双引号里的斜杠，再加一个就好了

一秋秋s 发表于 2019-1-16 15:31:25

爬https://wenku.baidu.com/view/017b0fb5d15abe23492f4d6c
这个的时候，报错了，
Traceback (most recent call last):
File "D:/pycharm/基础练习/baiduwenku.py", line 97, in <module>
main()
File "D:/pycharm/基础练习/baiduwenku.py", line 83, in main
doc_id = get_doc_id(url)
File "D:/pycharm/基础练习/baiduwenku.py", line 14, in get_doc_id
return re.findall('view/(.*).html', url)
IndexError: list index out of range

求大佬解答一下

PHPmad 发表于 2019-1-16 17:47:41

拉拉

围炉饮冰 发表于 2019-1-16 18:39:54

GG！

围炉饮冰 发表于 2019-1-16 18:45:59

一秋秋s 发表于 2019-1-16 15:29
63行双引号里的斜杠，再加一个就好了

感谢！

xhui28 发表于 2019-1-17 23:53:38

学习了，谢谢

露转溪桥 发表于 2019-1-18 09:32:43

看看

Faker2277 发表于 2019-1-18 11:12:59

学习学习了

页: 19 20 21 22 23 24 25 26 27 28 [29] 30 31 32 33 34 35 36 37 38

鱼C论坛's Archiver