v.ki 发表于 2021-1-16 11:02:34

basketmn 发表于 2021-1-16 07:07
为什莫我复制进去的链接总是错误呢?

import requests
from bs4 import BeautifulSoup

url = 'https://wenku.baidu.com/view/6e47f32a846a561252d380eb6294dd88d1d23d72.html'
header = {'User-agent': 'Googlebot'}
res = requests.get(url , headers = header)
res.text
print(res.text)
plist = []
soup = BeautifulSoup(res.content, "html.parser")
plist.append(str(soup.title))
for div in soup.find_all('div', attrs={"class": "bd doc-reader"}):
    plist.extend(div.get_text().split('\n'))
plist =
plist =
plist
file = open('test.txt', 'w',encoding='utf-8')
for str in plist:
    file.write(str)
    file.write('\n')
file.close()

qq693904535 发表于 2021-1-17 21:21:36

6

如果≠结果 发表于 2021-1-17 22:53:15

学习一下

xztxzt333 发表于 2021-1-18 08:44:08

回复是一种美德

攸鱼 发表于 2021-1-18 09:17:35

lepensure 发表于 2021-1-18 12:48:44

谢谢楼主

basketmn 发表于 2021-1-18 14:28:47



大佬,为什么保存文件时,无论选什么格式,最后都只能保存为txt,想要里面的图片

py老王 发表于 2021-1-18 16:41:37


支持

v.ki 发表于 2021-1-18 17:14:36

basketmn 发表于 2021-1-18 14:28
大佬,为什么保存文件时,无论选什么格式,最后都只能保存为txt,想要里面的图片

这个按钮的唯一作用就是我当时为了提醒大家,只能爬取这几种类型的文档,而不是用来设置保存格式的,doc和txt的都会保存为txt若是爬取的为ppt,则会在于程序相同目录下生成一个新的文件夹里面放了想要的图片

赵丽颖 发表于 2021-1-19 15:08:54

goooood

theyoyo 发表于 2021-1-19 16:09:39


这一回复就给我蹦出来几百条代码有把我吓到

ruchu 发表于 2021-1-20 11:36:08

{:10_333:}

小泷包 发表于 2021-1-20 15:06:56

Thank you !!

leijunke 发表于 2021-1-20 23:17:24

这个有点厉害了,必须学习

页川 发表于 2021-1-21 11:00:18

大佬够屌,希望有一天我也能自己写出来能用的工具。

页川 发表于 2021-1-21 11:00:49

支持支持

Python.yp 发表于 2021-1-21 11:23:10

学习学习

sheenblue 发表于 2021-1-22 09:32:00

谢谢分享,值得我们学习

洞房灬不败 发表于 2021-1-22 17:54:52

支持!

叼辣条闯世界 发表于 2021-1-22 20:29:53

我来告诉大家为什么背后会有'v.k.'因为这是'vk的python不安全'这个公众号里的内容
页: 1 2 3 4 5 [6] 7 8 9 10 11 12
查看完整版本: 百度文库免费复制3.0 震撼来袭!!!