Chào mừng bạn đến blog Kế Toán.VN Trang Chủ

Table of Content

Python PDF sang văn bản ✅ Mới nhất

Kinh Nghiệm về Python PDF sang văn bản 2022

Lê Minh Long đang tìm kiếm từ khóa Python PDF sang văn bản được Cập Nhật vào lúc : 2022-12-22 23:10:12 . Với phương châm chia sẻ Mẹo về trong nội dung bài viết một cách Chi Tiết Mới Nhất. Nếu sau khi đọc nội dung bài viết vẫn ko hiểu thì hoàn toàn có thể lại phản hồi ở cuối bài để Admin lý giải và hướng dẫn lại nha.

Python là một ngôn từ lập trình giàu tính năng. Chúng ta hoàn toàn có thể thực hiện những thao tác rất khác nhau trên những tệp trong python bằng những mô-đun và thư viện rất khác nhau. Trong nội dung bài viết này, chúng tôi sẽ thảo luận về những phương pháp rất khác nhau để quy đổi tệp pdf thành văn bản trong python

Nội dung chính Show
    Chuyển đổi pdf thành văn bản bằng pypdf2Chuyển đổi pdf thành văn bản bằng PDFminerPhần kết luậnLàm cách nào để trích xuất PDF thành văn bản Python?Bạn hoàn toàn có thể quy đổi PDF thành văn bản không?

Chuyển đổi pdf thành văn bản bằng pypdf2

Để quy đổi pdf thành văn bản trong python, tất cả chúng ta hoàn toàn có thể sử dụng mô-đun PyPDF2. Bạn hoàn toàn có thể setup mô-đun này bằng PIP bằng phương pháp thực hiện lệnh sau trong dấu nhắc lệnh

pip3 install PyPDF2

Để chuyển file pdf sang text, đầu tiên tất cả chúng ta sẽ mở file bằng hàm open() ở chính sách “rb”. tôi. e. Thay vì nội dung tệp, chúng tôi sẽ đọc tệp ở chính sách nhị phân. Hàm open() lấy tên tệp làm đối số đầu vào đầu tiên và chính sách làm đối số đầu vào thứ hai. Sau khi mở tệp, nó trả về một đối tượng tệp mà tất cả chúng ta gán cho biến myFile.   

Sau khi lấy được đối tượng file, tất cả chúng ta sẽ tạo đối tượng pdfFileReader bằng phương pháp sử dụng hàm PdfFileReader() được định nghĩa trong module PyPDF2. Hàm PdfFileReader() đồng ý đối tượng tệp chứa tệp pdf làm đối số đầu vào và trả về đối tượng pdfFileReader. Sử dụng pdfFileReader, chúng tôi hoàn toàn có thể quy đổi tệp PDF thành văn bản.  

Ngoài ra, chúng tôi sẽ mở tệp “open()1” ở chính sách ghi để lưu tài liệu văn bản được trích xuất từ ​​​​tệp pdf bằng hàm open(). Chúng tôi sẽ gán đối tượng tệp này cho một biến open()3

Để tạo file văn bản từ file PDF, đầu tiên tất cả chúng ta sẽ tìm số trang của file PDF. Đối với điều này, tất cả chúng ta sẽ sử dụng thuộc tính open()4 của đối tượng pdfFileReader

1

2

3

4

5

6

7

8

9

 

nhập PyPDF2

 

Tệp của tôi = mở("/home/aditya1117 . pdf", "rb")

tệp đầu ra = mở("đầu ra. txt", "w")

pdfReader = PyPDF2. PdfFileReader(MyFile)

numOfPages = pdfReader. số trang

in("Số trang trong tệp pdf là. ", numOfPages)

 

đầu ra

1

2

3

 

Số số của trang trong the pdf file is: 1

 

Bạn hoàn toàn có thể xem tệp pdf được sử dụng trong ví dụ này tại đây

Tác động của Covid-19 đối với những nghành kinh tế tài chính Ấn Độ và kế hoạch marketing thương mại sinh tồnTải về

Sau khi có số trang trong tệp PDF, chúng tôi sẽ sử dụng open()6 để xử lý tất cả những trang của tệp pdf. Trong vòng lặp for, chúng tôi sẽ trích xuất từng trang từ tệp PDF bằng phương pháp open()7. Phương thức open()7, khi được gọi trên một đối tượng pdfFileReader, đồng ý số trang làm đối số đầu vào và trả về một rb0 chứa tài liệu từ trang được chỉ định của tệp PDF

Sau khi nhận được rb0, chúng tôi sẽ sử dụng phương pháp rb2 để trích xuất văn bản từ trang hiện tại. Sau đó, chúng tôi sẽ ghi văn bản được trích xuất vào tệp văn bản đầu ra

Sau khi trích xuất văn bản từ tất cả những trang trong pdf, chúng tôi sẽ đóng cả tệp văn bản và tệp pdf. Nếu không, những thay đổi sẽ không được lưu

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

 

nhập PyPDF2

 

Tệp của tôi = mở("/home/aditya1117 . pdf",

              "rb")

output_file = mở("/home/aditya1117 . txt", "w")

pdfReader = PyPDF2. PdfFileReader(MyFile)

numOfPages = pdfReader. số trang

cho i trong phạm vi(numOfPages):

    trang = pdfReader. getPage(i)

    văn bản = trang. trích xuất văn bản()

    tệp đầu ra. viết(văn bản)

tệp đầu ra. đóng()

Tệp của tôi. đóng()

 

đầu ra

output_text_fileTải xuống

Chuyển đổi pdf thành văn bản bằng PDFminer

Thay vì sử dụng PyPDF2, tất cả chúng ta hoàn toàn có thể sử dụng mô-đun rb3 để quy đổi tệp pdf thành tệp văn bản. Bạn hoàn toàn có thể setup mô-đun rb3 như sau

rb5

Mô-đunrb3 đáp ứng cho chúng tôi hiệu suất cao rb7 mà chúng tôi hoàn toàn có thể sử dụng để quy đổi tệp PDF thành tệp văn bản. Hàm rb7 đồng ý một đối tượng tệp đại diện cho tệp PDF làm đối số đầu vào và trả về tài liệu văn bản trong tệp.  

Sau khi mở tệp PDF và tệp văn bản đầu ra, tất cả chúng ta hoàn toàn có thể trích xuất văn bản từ tệp PDF bằng hàm rb9xt(). Sau đó, chúng tôi sẽ lưu tài liệu văn bản vào tệp đầu ra. Đừng quên đóng những tệp trước khi kết thúc chương trình

1

2

3

4

5

6

7

8

 

từ pdfminer. high_level nhập extract_text

 

text = extract_text("/home/aditya1117 . pdf")

output_file = mở("/home/aditya1117 . txt", "w")

tệp đầu ra. viết(văn bản)

tệp đầu ra. đóng()

 

đầu ra

output_text_fileTải xuống

Phần kết luận

Trong nội dung bài viết này, chúng tôi đã thảo luận về hai phương pháp để quy đổi pdf thành tệp văn bản trong python. Trong số tất cả những cách này, cách tiếp cận sử dụng mô-đun PyPDF2 là nhanh nhất có thể về tốc độ thực thi. Tuy nhiên, bạn hoàn toàn có thể sử dụng bất kỳ phương pháp nào một cách thuận tiện

Làm cách nào để trích xuất PDF thành văn bản Python?

Các bước quy đổi PDF sang TXT bằng Python . Bước 01 – Tạo tệp PDF (hoặc tìm tệp hiện có) Mở tài liệu Word mới. . Bước 02 – Cài đặt PyPDF2. Đầu tiên, chúng tôi sẽ setup một mô-đun bên phía ngoài mang tên PyPDF2. . Bước 03 – Mở tệp Python mới cho tập lệnh. Mở IDLE python của bạn và nhấn phím ctrl + N

Bạn hoàn toàn có thể quy đổi PDF thành văn bản không?

Chuyển PDF sang văn bản . Và thật đơn giản. chỉ việc tải lên tệp PDF của bạn và để chúng tôi làm phần còn sót lại. Sau khi bạn đáp ứng tệp của tớ, PDF2Go sẽ sử dụng OCR để lấy văn bản từ tệp PDF của bạn và lưu dưới dạng tệp TXT. With the help of Optical Character Recognition (OCR), you can extract any text from a PDF document into a simple text file. And it's simple: just upload your PDF and let us do the rest. After you provided your file, PDF2Go will use OCR to get the text from your PDF and save it as a TXT file.Tải thêm tài liệu liên quan đến nội dung bài viết Python PDF sang văn bản programming python

Clip Python PDF sang văn bản ?

Bạn vừa Read tài liệu Với Một số hướng dẫn một cách rõ ràng hơn về Review Python PDF sang văn bản tiên tiến nhất

Chia Sẻ Link Download Python PDF sang văn bản miễn phí

Heros đang tìm một số trong những Share Link Cập nhật Python PDF sang văn bản Free.

Thảo Luận thắc mắc về Python PDF sang văn bản

Nếu sau khi đọc nội dung bài viết Python PDF sang văn bản vẫn chưa hiểu thì hoàn toàn có thể lại Comment ở cuối bài để Tác giả lý giải và hướng dẫn lại nha #Python #PDF #sang #văn #bản - 2022-12-22 23:10:12

Post a Comment