要读取每个以 ".pdf" 结尾的 URL,并将其内容转换为文本,你可以使用以下步骤:
导入所需的库:
- import requests
- from io import BytesIO
- import PyPDF2
复制代码
循环遍历每个 URL,并读取其内容:
- pdf_urls = [url1, url2, url3] # 包含所有 PDF URL 的列表
- for url in pdf_urls:
- response = requests.get(url) # 发送 HTTP 请求以获取 PDF 文件
- pdf_content = response.content # 获取 PDF 文件的内容
复制代码
将 PDF 内容转换为文本:
- pdf_file = BytesIO(pdf_content) # 创建一个 BytesIO 对象以加载 PDF 文件
- pdf_reader = PyPDF2.PdfReader(pdf_file) # 创建 PDF 阅读器对象
- text_content = ""
- for page in pdf_reader.pages:
- text_content += page.extract_text() # 提取每一页的文本内容
- # 打印或保存文本内容
- print(text_content)
- # 进行进一步的处理或保存到文件中
复制代码
请注意,这段代码使用了 requests 库来发送 HTTP 请求,PyPDF2 库来处理 PDF 文件。确保在运行代码之前安装这些库。另外,替换 pdf_urls 变量为包含你的 PDF URL 的实际列表。
这是一个基本的示例,你可能需要根据你的需求进行适当的修改和扩展,以适应不同的情况和要求。