Excel VBA@文檔管理系統
文檔管理系統 主要為處理公文、會議的Side Project,其中功能包含利用AI工具去辨識紙本公文或PDF公文的文字內容,建立發文字號、發文日期、公文主旨等重要資訊,供使用者進行後續利用。 需要必備的技能或工具 Tesseract OCR(***圖片轉文字辨識套件) python Excel VBA 在Excel VBA中使用shell呼叫Python的PDF_OCR.py執行Tesseract OCR辨識指定PDF文檔,產生output.txt後,提供Excel VBA讀取利用,如對於python比較沒有概念的朋友也可以直接使用pyinstaller建立好的PDF_OCR.exe執行辨識動作。 建立流程 1.建立Tesseract的操作環境,請參考 Tesseract OCR - 繁體中文【安裝篇】 2.建立Python的可執行環境,請參考網路大神範例,有一拖拉庫 3.建立Python的虛擬開發環境,下載相關套件 pip install pillow pytesseract pip install PyMuPDF pip install pyinstaller 4.撰寫Python的腳本檔 (PDF_OCR.py),由衷感謝chatGPT的發展,省很多事去探索。 import sys import fitz # PyMuPDF from PIL import Image import pytesseract import re # 导入re模块 def extract_text_from_pdf(PDF_PATH, OUTPUT_PATH): # 创建一个PyMuPDF文档对象 pdf = fitz.open(PDF_PATH) # 提取PDF页面中的文本 text = "" for page_num in range(pdf.page_count): page = pdf[page_num] text += page.get_text() # 获取页面的宽度和高度 width = int(page.rect.width) height = int(page.rect.height) # 使用Tesse...