Python PDF sang văn bản ✅ Mới nhất
Kinh Nghiệm về Python PDF sang văn bản 2022
Lê Minh Long đang tìm kiếm từ khóa Python PDF sang văn bản được Cập Nhật vào lúc : 2022-12-22 23:10:12 . Với phương châm chia sẻ Mẹo về trong nội dung bài viết một cách Chi Tiết Mới Nhất. Nếu sau khi đọc nội dung bài viết vẫn ko hiểu thì hoàn toàn có thể lại phản hồi ở cuối bài để Admin lý giải và hướng dẫn lại nha.Python là một ngôn từ lập trình giàu tính năng. Chúng ta hoàn toàn có thể thực hiện những thao tác rất khác nhau trên những tệp trong python bằng những mô-đun và thư viện rất khác nhau. Trong nội dung bài viết này, chúng tôi sẽ thảo luận về những phương pháp rất khác nhau để quy đổi tệp pdf thành văn bản trong python
Nội dung chính Show- Chuyển đổi pdf thành văn bản bằng pypdf2Chuyển đổi pdf thành văn bản bằng PDFminerPhần kết luậnLàm cách nào để trích xuất PDF thành văn bản Python?Bạn hoàn toàn có thể quy đổi PDF thành văn bản không?
Chuyển đổi pdf thành văn bản bằng pypdf2
Để quy đổi pdf thành văn bản trong python, tất cả chúng ta hoàn toàn có thể sử dụng mô-đun PyPDF2. Bạn hoàn toàn có thể setup mô-đun này bằng PIP bằng phương pháp thực hiện lệnh sau trong dấu nhắc lệnh
pip3 install PyPDF2
Để chuyển file pdf sang text, đầu tiên tất cả chúng ta sẽ mở file bằng hàm open() ở chính sách “rb”. tôi. e. Thay vì nội dung tệp, chúng tôi sẽ đọc tệp ở chính sách nhị phân. Hàm open() lấy tên tệp làm đối số đầu vào đầu tiên và chính sách làm đối số đầu vào thứ hai. Sau khi mở tệp, nó trả về một đối tượng tệp mà tất cả chúng ta gán cho biến myFile.
Sau khi lấy được đối tượng file, tất cả chúng ta sẽ tạo đối tượng pdfFileReader bằng phương pháp sử dụng hàm PdfFileReader() được định nghĩa trong module PyPDF2. Hàm PdfFileReader() đồng ý đối tượng tệp chứa tệp pdf làm đối số đầu vào và trả về đối tượng pdfFileReader. Sử dụng pdfFileReader, chúng tôi hoàn toàn có thể quy đổi tệp PDF thành văn bản.
Ngoài ra, chúng tôi sẽ mở tệp “open()1” ở chính sách ghi để lưu tài liệu văn bản được trích xuất từ tệp pdf bằng hàm open(). Chúng tôi sẽ gán đối tượng tệp này cho một biến open()3
Để tạo file văn bản từ file PDF, đầu tiên tất cả chúng ta sẽ tìm số trang của file PDF. Đối với điều này, tất cả chúng ta sẽ sử dụng thuộc tính open()4 của đối tượng pdfFileReader
1
2
3
4
5
6
7
8
9
nhập PyPDF2
Tệp của tôi = mở("/home/aditya1117 . pdf", "rb")
tệp đầu ra = mở("đầu ra. txt", "w")
pdfReader = PyPDF2. PdfFileReader(MyFile)
numOfPages = pdfReader. số trang
in("Số trang trong tệp pdf là. ", numOfPages)
đầu ra
1
2
3
Số số của trang trong the pdf file is: 1
Bạn hoàn toàn có thể xem tệp pdf được sử dụng trong ví dụ này tại đây
Tác động của Covid-19 đối với những nghành kinh tế tài chính Ấn Độ và kế hoạch marketing thương mại sinh tồnTải về
Sau khi có số trang trong tệp PDF, chúng tôi sẽ sử dụng open()6 để xử lý tất cả những trang của tệp pdf. Trong vòng lặp for, chúng tôi sẽ trích xuất từng trang từ tệp PDF bằng phương pháp open()7. Phương thức open()7, khi được gọi trên một đối tượng pdfFileReader, đồng ý số trang làm đối số đầu vào và trả về một rb0 chứa tài liệu từ trang được chỉ định của tệp PDF
Sau khi nhận được rb0, chúng tôi sẽ sử dụng phương pháp rb2 để trích xuất văn bản từ trang hiện tại. Sau đó, chúng tôi sẽ ghi văn bản được trích xuất vào tệp văn bản đầu ra
Sau khi trích xuất văn bản từ tất cả những trang trong pdf, chúng tôi sẽ đóng cả tệp văn bản và tệp pdf. Nếu không, những thay đổi sẽ không được lưu
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
nhập PyPDF2
Tệp của tôi = mở("/home/aditya1117 . pdf",
"rb")
output_file = mở("/home/aditya1117 . txt", "w")
pdfReader = PyPDF2. PdfFileReader(MyFile)
numOfPages = pdfReader. số trang
cho i trong phạm vi(numOfPages):
trang = pdfReader. getPage(i)
văn bản = trang. trích xuất văn bản()
tệp đầu ra. viết(văn bản)
tệp đầu ra. đóng()
Tệp của tôi. đóng()
đầu ra
output_text_fileTải xuống
Chuyển đổi pdf thành văn bản bằng PDFminer
Thay vì sử dụng PyPDF2, tất cả chúng ta hoàn toàn có thể sử dụng mô-đun rb3 để quy đổi tệp pdf thành tệp văn bản. Bạn hoàn toàn có thể setup mô-đun rb3 như sau
rb5
Mô-đunrb3 đáp ứng cho chúng tôi hiệu suất cao rb7 mà chúng tôi hoàn toàn có thể sử dụng để quy đổi tệp PDF thành tệp văn bản. Hàm rb7 đồng ý một đối tượng tệp đại diện cho tệp PDF làm đối số đầu vào và trả về tài liệu văn bản trong tệp.
Sau khi mở tệp PDF và tệp văn bản đầu ra, tất cả chúng ta hoàn toàn có thể trích xuất văn bản từ tệp PDF bằng hàm rb9xt(). Sau đó, chúng tôi sẽ lưu tài liệu văn bản vào tệp đầu ra. Đừng quên đóng những tệp trước khi kết thúc chương trình
1
2
3
4
5
6
7
8
từ pdfminer. high_level nhập extract_text
text = extract_text("/home/aditya1117 . pdf")
output_file = mở("/home/aditya1117 . txt", "w")
tệp đầu ra. viết(văn bản)
tệp đầu ra. đóng()
đầu ra
output_text_fileTải xuống
Phần kết luận
Trong nội dung bài viết này, chúng tôi đã thảo luận về hai phương pháp để quy đổi pdf thành tệp văn bản trong python. Trong số tất cả những cách này, cách tiếp cận sử dụng mô-đun PyPDF2 là nhanh nhất có thể về tốc độ thực thi. Tuy nhiên, bạn hoàn toàn có thể sử dụng bất kỳ phương pháp nào một cách thuận tiện