v.ki
发表于 2021-1-16 11:02:34
basketmn 发表于 2021-1-16 07:07
为什莫我复制进去的链接总是错误呢?
import requests
from bs4 import BeautifulSoup
url = 'https://wenku.baidu.com/view/6e47f32a846a561252d380eb6294dd88d1d23d72.html'
header = {'User-agent': 'Googlebot'}
res = requests.get(url , headers = header)
res.text
print(res.text)
plist = []
soup = BeautifulSoup(res.content, "html.parser")
plist.append(str(soup.title))
for div in soup.find_all('div', attrs={"class": "bd doc-reader"}):
plist.extend(div.get_text().split('\n'))
plist =
plist =
plist
file = open('test.txt', 'w',encoding='utf-8')
for str in plist:
file.write(str)
file.write('\n')
file.close()
qq693904535
发表于 2021-1-17 21:21:36
6
如果≠结果
发表于 2021-1-17 22:53:15
学习一下
xztxzt333
发表于 2021-1-18 08:44:08
回复是一种美德
攸鱼
发表于 2021-1-18 09:17:35
lepensure
发表于 2021-1-18 12:48:44
谢谢楼主
basketmn
发表于 2021-1-18 14:28:47
大佬,为什么保存文件时,无论选什么格式,最后都只能保存为txt,想要里面的图片
py老王
发表于 2021-1-18 16:41:37
支持
v.ki
发表于 2021-1-18 17:14:36
basketmn 发表于 2021-1-18 14:28
大佬,为什么保存文件时,无论选什么格式,最后都只能保存为txt,想要里面的图片
这个按钮的唯一作用就是我当时为了提醒大家,只能爬取这几种类型的文档,而不是用来设置保存格式的,doc和txt的都会保存为txt若是爬取的为ppt,则会在于程序相同目录下生成一个新的文件夹里面放了想要的图片
赵丽颖
发表于 2021-1-19 15:08:54
goooood
theyoyo
发表于 2021-1-19 16:09:39
这一回复就给我蹦出来几百条代码有把我吓到
ruchu
发表于 2021-1-20 11:36:08
{:10_333:}
小泷包
发表于 2021-1-20 15:06:56
Thank you !!
leijunke
发表于 2021-1-20 23:17:24
这个有点厉害了,必须学习
页川
发表于 2021-1-21 11:00:18
大佬够屌,希望有一天我也能自己写出来能用的工具。
页川
发表于 2021-1-21 11:00:49
支持支持
Python.yp
发表于 2021-1-21 11:23:10
学习学习
sheenblue
发表于 2021-1-22 09:32:00
谢谢分享,值得我们学习
洞房灬不败
发表于 2021-1-22 17:54:52
支持!
叼辣条闯世界
发表于 2021-1-22 20:29:53
我来告诉大家为什么背后会有'v.k.'因为这是'vk的python不安全'这个公众号里的内容
页:
1
2
3
4
5
[6]
7
8
9
10
11
12