鱼C论坛

 找回密码
 立即注册
查看: 8706|回复: 31

[技术交流] 爬取百度文库

[复制链接]
发表于 2021-3-19 21:04:22 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Daniel_Zhang 于 2021-3-19 22:20 编辑

下午心血来潮做了一个爬取百度文库的爬虫

此处鸣谢站内大佬 v.ki 的百度文库免费复制3.0 震撼来袭!!!

仅借鉴获取 json 文件地址的部分,并未针对整个程序进行测试

没有上面这篇文章的帮助,想要写出来这只爬虫真的不太容易

说实话,百度的反爬太强大了

注:本帖仅用于学习交流使用,如有违规使用,后果自负,本人概不负责

  1. # -*- coding: utf-8 -*-

  2. import json
  3. import requests
  4. import ssl
  5. import re
  6. import easygui as g
  7. import os
  8. import tkinter
  9. from tkinter import filedialog


  10. headers = {
  11.     'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
  12.     'Accept': 'text/html'
  13. }


  14. def hellocallback():
  15.     """获取用户输入的 url"""
  16.     global url
  17.     url = E1.get()
  18.     get_api(url)


  19. def open_folder():
  20.     """选择文件存储的目标文件夹"""
  21.     root = tkinter.Tk()
  22.     root.withdraw()

  23.     file_path = filedialog.askdirectory(initialdir=os.getcwd())

  24.     return file_path


  25. def open_url(url):
  26.     """打开 url 获取内容"""
  27.     # encoding: utf-8
  28.     ssl._create_default_https_context = ssl._create_unverified_context
  29.     html = requests.get(url, headers=headers).text  # 获取url内容
  30.     return html


  31. def save_article(final_result):
  32.     """存储文章至 txt 文件"""
  33.     folder_dir = open_folder()
  34.     #folder_dir = ''
  35.     file_store_path = ''
  36.     while True:
  37.         filename = g.enterbox("输入想要命名的 txt 文件名", title="新建 txt 文件")
  38.         if '.txt' not in filename:
  39.             filename += '.txt'
  40.         file_store_path = ''
  41.         file_store_path += (folder_dir+'/' + filename)
  42.         try:
  43.             with open(file_store_path) as f:
  44.                 g.msgbox('目标文件已存在')
  45.         except FileNotFoundError:
  46.             break
  47.     with open(file_store_path, 'w') as f:
  48.         f.write(final_result)
  49.         g.msgbox('文件保存成功!')


  50. def get_article_result(url):
  51.     """获得文库文章内容"""
  52.     content_list = []
  53.     contents_result = []
  54.     res = ''
  55.     ssl._create_default_https_context = ssl._create_unverified_context
  56.     r = requests.get(url, headers=headers).text
  57.     try:
  58.         res = json.loads(r)
  59.         res_length = len(res)
  60.         for each in range(res_length):
  61.             content_list.append(each)
  62.         # print((res[1]['parags'][0]))
  63.     except json.JSONDecodeError:
  64.         print("error!")
  65.     # print(content_list)

  66.     try:
  67.         for each in range(len(content_list)):
  68.             contents_result.append(
  69.                 res[each]['parags'][0]["c"].replace('\n\n\f', '').replace('\r\n', ''))  # 去除干扰项并将文章结果插入到列表里
  70.     except KeyError:
  71.         pass

  72.     # print(contents_result)
  73.     final_result = ''.join(contents_result)  # 合并列表内容并转换为 str 类型
  74.     save_article(final_result)  # 存储内容至指定的位置


  75. def get_api_page(api_url, api):
  76.     """获取到包含文件内容的 json 文件"""
  77.     api_page = open_url(api_url)
  78.     get_md5 = r'"md5sum":"([^"]+)'
  79.     md5 = re.findall(get_md5, api_page)[0]  # 获取 md5 值

  80.     get_total_page_num = r'"totalPageNum":"([^"]+)'
  81.     total_page_number = re.findall(get_total_page_num, api_page)[0]  # 获取 总页数

  82.     get_rsign = r'"rsign":"([^"]+)'
  83.     rsign = re.findall(get_rsign, api_page)[0]  # 获取 rsign 值

  84.     content_url = 'https://wkretype.bdimg.com/retype/text/' + \
  85.         api+'?rn='+total_page_number+md5+'&type=txt'+'&rsign='+rsign    # 获取 含有所需文章的 url
  86.     get_article_result(content_url)


  87. def get_api(url):
  88.     """获取api"""
  89.     get_api = r'([^/]+).html'
  90.     api = re.findall(
  91.         get_api, url)[0]
  92.     api_url = 'https://wenku.baidu.com/api/doc/getdocinfo?callback=cb&doc_id=' + \
  93.         api

  94.     get_api_page(api_url, api)


  95. if __name__ == '__main__':
  96.     url = ''
  97.     top = tkinter.Tk()
  98.     top.geometry('1000x300')

  99.     w = tkinter.Label(top, text="文档链接: ")
  100.     w.place(x=40, y=50)

  101.     E1 = tkinter.Entry(top, bd=3, width=80)
  102.     E1.place(x=170, y=45)

  103.     B = tkinter.Button(top, text="确认", command=hellocallback,
  104.                        width=20, height=3, font=('宋体', 20, 'italic'))

  105.     B.place(x=363, y=200)

  106.     top.mainloop()

复制代码


P.s 我的 tkinter 真的学的很烂,一个打开文件夹的窗口操作都花了半天去研究怎么弄。一开始用的是 wxpython 的一个模块,但是不知道什么原因会和 tkinter 发生冲突,导致程序卡死。后来研究半天,才在 tkinter 的 python 文档找到方法。区区几行代码,敲出来以后,真的吐血了

评分

参与人数 4荣誉 +5 鱼币 +8 贡献 +4 收起 理由
香蕉那个不拿拿 + 1 鱼C有你更精彩^_^
kunyi + 1 + 3 + 1 鱼C有你更精彩^_^
糖甜弯了嘴 + 3 + 3 + 3 感谢楼主无私奉献!
yayc_zcyd + 1 + 1 鱼C有你更精彩^_^

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-3-19 21:06:07 | 显示全部楼层
说实话,v.ki 大佬的界面看上去真的比我做的好太多了

没有添加 v.ki 大佬为好友,此处只能手动艾特

已在文章开头附上大佬的原帖
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-19 21:55:05 | 显示全部楼层
牛啊,更新了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-19 22:11:37 | 显示全部楼层

回帖奖励 +1 鱼币

哈哈,我爬虫的时候经常被反爬虫
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-19 23:05:18 | 显示全部楼层

回帖奖励 +1 鱼币

感谢分享!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-19 23:18:20 | 显示全部楼层
我爬虫特别菜,羡慕死了
厉害
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-19 23:52:03 | 显示全部楼层
小伤口 发表于 2021-3-19 23:18
我爬虫特别菜,羡慕死了
厉害

我 tkinter 特别菜,pygame 啥也不会,羡慕死了
厉害
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-20 08:29:43 | 显示全部楼层

回帖奖励 +1 鱼币

厉害
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-3-20 09:08:38 | 显示全部楼层

回帖奖励 +1 鱼币

厉害
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-3-20 09:20:15 | 显示全部楼层

回帖奖励 +1 鱼币

不愧是大佬
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-20 11:42:43 | 显示全部楼层

回帖奖励 +1 鱼币

666
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-3-20 12:41:12 | 显示全部楼层

回帖奖励 +1 鱼币

Daniel_Zhang 发表于 2021-3-19 23:52
我 tkinter 特别菜,pygame 啥也不会,羡慕死了
厉害

爬虫才是灵魂
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-6 18:59:45 | 显示全部楼层

回帖奖励 +1 鱼币

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-4-7 10:19:08 | 显示全部楼层

回帖奖励 +1 鱼币

厉害
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-4-7 12:28:14 | 显示全部楼层
厉害了!!!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-7 17:16:30 | 显示全部楼层

回帖奖励 +1 鱼币

羡慕大佬
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-7 19:54:29 | 显示全部楼层

回帖奖励 +1 鱼币

太强了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-8 17:10:36 | 显示全部楼层

回帖奖励 +1 鱼币

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-4-8 18:26:09 | 显示全部楼层

回帖奖励 +1 鱼币

咋的用为啥我的实现不了啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-8 19:16:53 | 显示全部楼层

回帖奖励 +1 鱼币

yayc_zcyd 发表于 2021-3-19 22:11
哈哈,我爬虫的时候经常被反爬虫

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-25 15:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表