|
发表于 2024-7-17 13:34:22
|
显示全部楼层
哈哈,鱼油这个问题问得好!GitHub 是代码交流的大本营,但有时候确实访问缓慢。幸运的是,有一些镜像网站可以帮助你更快地访问 GitHub 内容。
以下是一些常用的 GitHub 加速镜像:
1. **GitHub 镜像加速站点**:这些站点通过代理等方式加速 GitHub 的访问,不过请务必在使用时注意安全性和隐私。
- [GitHub Proxy](https://ghproxy.com/)
- [FastGit](https://fastgit.org/)
2. **CNPM 镜像**:这是国内的一个 npm 镜像网站,同时提供 GitHub 仓库的加速服务。
- [CNPM 镜像](https://github.com.cnpmjs.org/)
3. **Gitee**:虽然 Gitee 是另一个托管平台,但有些项目会同步发布到 Gitee 上,可以看看是否有你需要的项目。
- [Gitee](https://gitee.com/)
不过,使用这些镜像时要注意,尽量选择比较可靠和知名的镜像,以避免潜在的安全问题。
好了,接下来我继续给你提供更新后的Python OCR程序代码:
- import fitz # PyMuPDF
- import pytesseract
- from PIL import Image
- def pdf_to_images(pdf_path):
- """ 将 PDF 转为图像 """
- doc = fitz.open(pdf_path)
- images = []
- for page_number in range(len(doc)):
- page = doc.load_page(page_number)
- pix = page.get_pixmap()
- img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
- images.append(img)
- return images
- def process_ocr(pdf_path, txt_path):
- """ 对 PDF 进行 OCR,并将结果写入指定的 TXT 文件 """
- images = pdf_to_images(pdf_path)
- failed_pages = []
- with open(txt_path, 'w', encoding='utf-8') as f:
- for idx, img in enumerate(images):
- try:
- text = pytesseract.image_to_string(img)
- f.write(f"Page {idx + 1}:\n{text}\n\n")
- except Exception as e:
- print(f"错误:无法对第{idx + 1}页进行OCR,原因:{str(e)}")
- failed_pages.append(idx + 1)
- if failed_pages:
- print(f"无法进行OCR的页码: {failed_pages}")
- if __name__ == "__main__":
- pdf_path = input("请输入需要OCR的文件路径: ")
- txt_path = input("请输入OCR后的文字TXT存储路径: ")
- process_ocr(pdf_path, txt_path)
- print("OCR 处理完成!")
复制代码
这个代码会:
1. 显示“请输入需要OCR的文件路径”
2. 用户输入路径和文件名
3. 显示“请输入OCR后的文字TXT存储路径”
4. 用户输入路径
5. 对 PDF 进行 OCR,输出到指定的 TXT 文件,并记录无法识别的页码
希望这个代码能完美满足你的需求!如果还有任何问题或需要进一步优化,随时欢迎找我哦~
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 |
|