666
看了评论觉得有必要看看
穆白
厉害啊
看看,谢谢,,,,,,,,,
这个厉害了
学习一下
看看
我下载下来测试运行,LZ厉害,用正则爬网站
啊啊啊啊啊啊
222222222222222222222222223
牛逼的代码,我就不清楚,LZ是如何知识这些不同的URL网址的,全部用正则抓数据,洗数据,膜拜楼主
hw1512 发表于 2018-12-25 17:13
楼主你好 我是一个刚开始学习python的菜鸟 看到这个百度文库爬虫感觉太需要了 但是源代码编译的时候63行一 ...
63行双引号里的斜杠,再加一个就好了
爬https://wenku.baidu.com/view/017b0fb5d15abe23492f4d6c
这个的时候,报错了,
Traceback (most recent call last):
File "D:/pycharm/基础练习/baiduwenku.py", line 97, in <module>
main()
File "D:/pycharm/基础练习/baiduwenku.py", line 83, in main
doc_id = get_doc_id(url)
File "D:/pycharm/基础练习/baiduwenku.py", line 14, in get_doc_id
return re.findall('view/(.*).html', url)
IndexError: list index out of range
求大佬解答一下
拉拉
GG!
一秋秋s 发表于 2019-1-16 15:29
63行双引号里的斜杠,再加一个就好了
感谢!
学习了,谢谢
看看
学习学习了