|
发表于 2024-8-23 14:47:55
|
显示全部楼层
可以使用Python的PyMuPDF和lxml库来完成这个任务。下面是一个简单的脚本示例:
- import fitz # PyMuPDF
- from lxml import etree
- # 打开PDF文件
- document = fitz.open('example.pdf')
- # 创建XML根元素
- root = etree.Element("Document")
- # 遍历每一页
- for page_num in range(len(document)):
- page = document.load_page(page_num)
- text = page.get_text("text")
-
- # 创建 Page 元素
- page_element = etree.SubElement(root, "Page", number=str(page_num + 1))
- page_element.text = text
- # 创建树结构并保存到XML文件
- tree = etree.ElementTree(root)
- with open("output.xml", "wb") as f:
- tree.write(f, pretty_print=True, xml_declaration=True, encoding="UTF-8")
- print("PDF已成功转换为XML文件")
复制代码
安装所需库:
这个脚本会将PDF文档的每一页转换为XML文件中的一个`Page`元素,并将文本内容作为该元素的文本内容。希望对您有帮助!
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 |
|