我爱小甲鱼.c
发表于 2018-12-28 00:45:55
666
jasmorning
发表于 2018-12-28 23:35:42
看了评论觉得有必要看看
lovesword
发表于 2018-12-29 10:57:38
穆白
大裤衩子
发表于 2018-12-29 14:10:13
厉害啊
sdtfll
发表于 2018-12-31 06:28:40
看看,谢谢,,,,,,,,,
loveky
发表于 2018-12-31 07:57:14
这个厉害了
gudujian158411
发表于 2019-1-16 11:12:23
学习一下
diom
发表于 2019-1-16 11:22:43
看看
四点好
发表于 2019-1-16 14:00:55
我下载下来测试运行,LZ厉害,用正则爬网站
9Gyw
发表于 2019-1-16 14:17:51
啊啊啊啊啊啊
1072368472
发表于 2019-1-16 14:22:30
222222222222222222222222223
四点好
发表于 2019-1-16 14:59:36
牛逼的代码,我就不清楚,LZ是如何知识这些不同的URL网址的,全部用正则抓数据,洗数据,膜拜楼主
一秋秋s
发表于 2019-1-16 15:29:49
hw1512 发表于 2018-12-25 17:13
楼主你好 我是一个刚开始学习python的菜鸟 看到这个百度文库爬虫感觉太需要了 但是源代码编译的时候63行一 ...
63行双引号里的斜杠,再加一个就好了
一秋秋s
发表于 2019-1-16 15:31:25
爬https://wenku.baidu.com/view/017b0fb5d15abe23492f4d6c
这个的时候,报错了,
Traceback (most recent call last):
File "D:/pycharm/基础练习/baiduwenku.py", line 97, in <module>
main()
File "D:/pycharm/基础练习/baiduwenku.py", line 83, in main
doc_id = get_doc_id(url)
File "D:/pycharm/基础练习/baiduwenku.py", line 14, in get_doc_id
return re.findall('view/(.*).html', url)
IndexError: list index out of range
求大佬解答一下
PHPmad
发表于 2019-1-16 17:47:41
拉拉
围炉饮冰
发表于 2019-1-16 18:39:54
GG!
围炉饮冰
发表于 2019-1-16 18:45:59
一秋秋s 发表于 2019-1-16 15:29
63行双引号里的斜杠,再加一个就好了
感谢!
xhui28
发表于 2019-1-17 23:53:38
学习了,谢谢
露转溪桥
发表于 2019-1-18 09:32:43
看看
Faker2277
发表于 2019-1-18 11:12:59
学习学习了