我爱小甲鱼.c 发表于 2018-12-28 00:45:55

666

jasmorning 发表于 2018-12-28 23:35:42

看了评论觉得有必要看看

lovesword 发表于 2018-12-29 10:57:38

穆白

大裤衩子 发表于 2018-12-29 14:10:13

厉害啊

sdtfll 发表于 2018-12-31 06:28:40

看看,谢谢,,,,,,,,,

loveky 发表于 2018-12-31 07:57:14

这个厉害了

gudujian158411 发表于 2019-1-16 11:12:23

学习一下

diom 发表于 2019-1-16 11:22:43

看看

四点好 发表于 2019-1-16 14:00:55

我下载下来测试运行,LZ厉害,用正则爬网站

9Gyw 发表于 2019-1-16 14:17:51

啊啊啊啊啊啊

1072368472 发表于 2019-1-16 14:22:30

222222222222222222222222223

四点好 发表于 2019-1-16 14:59:36

牛逼的代码,我就不清楚,LZ是如何知识这些不同的URL网址的,全部用正则抓数据,洗数据,膜拜楼主

一秋秋s 发表于 2019-1-16 15:29:49

hw1512 发表于 2018-12-25 17:13
楼主你好 我是一个刚开始学习python的菜鸟 看到这个百度文库爬虫感觉太需要了 但是源代码编译的时候63行一 ...

63行双引号里的斜杠,再加一个就好了

一秋秋s 发表于 2019-1-16 15:31:25

爬https://wenku.baidu.com/view/017b0fb5d15abe23492f4d6c
这个的时候,报错了,
Traceback (most recent call last):
File "D:/pycharm/基础练习/baiduwenku.py", line 97, in <module>
    main()
File "D:/pycharm/基础练习/baiduwenku.py", line 83, in main
    doc_id = get_doc_id(url)
File "D:/pycharm/基础练习/baiduwenku.py", line 14, in get_doc_id
    return re.findall('view/(.*).html', url)
IndexError: list index out of range



求大佬解答一下

PHPmad 发表于 2019-1-16 17:47:41

拉拉

围炉饮冰 发表于 2019-1-16 18:39:54

GG!

围炉饮冰 发表于 2019-1-16 18:45:59

一秋秋s 发表于 2019-1-16 15:29
63行双引号里的斜杠,再加一个就好了

感谢!

xhui28 发表于 2019-1-17 23:53:38

学习了,谢谢

露转溪桥 发表于 2019-1-18 09:32:43

看看

Faker2277 发表于 2019-1-18 11:12:59

学习学习了
页: 19 20 21 22 23 24 25 26 27 28 [29] 30 31 32 33 34 35 36 37 38
查看完整版本: 百度文库爬虫(爬取需要下载券的文档)