爬贴吧
from urllib.request import Request,urlopenfrom fake_useragent import UserAgent
from urllib.parse import urlencode
def get_html(url):
headers = {'User-Agent': UserAgent().random}
request = Request(url,headers=headers)
response = urlopen(request)
return response.read()
def save_html(filename, html_bytes):
with open(filename ,'wb') as f:
f.write(html_bytes)
def main():
content = input("请输入要下载的内容:")
num = input("请输入要下载多少页:")
base_url = "https://tieba.baidu.com/f?ie=utf-8&{}"
for pn in range(int(num)):
args={
"pn": pn * 50,
"kw": content
}
filename = "第" + str(pn+1) + "页.html"
args = urlencode(args)
print("正在下载"+filename)
html_bytes = get_html(base_url.format(args))
save_html(filename, html_bytes)
if __name__ == '__main__':
main()
为啥成功爬下来的HTML文件打开后没内容呢。。。 嘿嘿我们看的一个b站教程{:10_297:} Twilight6 发表于 2020-6-14 11:41
嘿嘿我们看的一个b站教程
就是你推荐我的那个{:10_273:} jump_p 发表于 2020-6-14 11:42
就是你推荐我的那个
哈哈,我当时爬也是不显示内容的 就只有几个简单的字
你爬的一点内容都没嘛
我用你的代码运行正常,里面有内容。 suchocolate 发表于 2020-6-14 11:53
我用你的代码运行正常,里面有内容。
嗯?正常显示吗 文件有内容
suchocolate 发表于 2020-6-14 12:02
文件有内容
真的可以!从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的? jump_p 发表于 2020-6-14 12:37
真的可以!从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的?
右键你想放到右边的代码,选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
恢复的话选择【Unsplit】。
suchocolate 发表于 2020-6-14 14:55
右键你想放到右边的代码,选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
...
{:10_275:}
页:
[1]