Thông báo: Hotrowordpress sẽ tiến hành cập nhật lại toàn bộ plugin-themes hiện có trên blog. Thời gian hỗ trợ cập nhật từ ngày 30.03.2024, nếu cần gấp bản mới nhất vui lòng gửi mail về cho admin để nhận link download ưu tiên!

Trích xuất văn bản từ tệp PDF và hình ảnh

0

Có một tài liệu PDF mà bạn muốn trích xuất tất cả văn bản? Còn các tập tin hình ảnh của tài liệu được quét mà bạn muốn chuyển đổi thành văn bản có thể chỉnh sửa thì sao? Đây là một số vấn đề phổ biến nhất mà tôi từng gặp ở nơi làm việc khi làm việc với tệp.

Trong bài viết này, tôi sẽ nói về một số cách khác nhau mà bạn có thể thực hiện khi cố gắng trích xuất văn bản từ tệp PDF hoặc từ hình ảnh. Kết quả trích xuất của bạn sẽ khác nhau tùy thuộc vào loại và chất lượng văn bản trong tệp PDF hoặc hình ảnh. Ngoài ra, kết quả của bạn sẽ khác nhau tùy thuộc vào công cụ bạn sử dụng, vì vậy tốt nhất bạn nên thử càng nhiều tùy chọn bên dưới càng tốt để có kết quả tốt nhất.

Trích xuất văn bản từ hình ảnh hoặc PDF

Cách đơn giản và nhanh nhất để bắt đầu là thử dịch vụ trích xuất văn bản PDF trực tuyến. Những thứ này thường miễn phí và có thể cung cấp cho bạn chính xác những gì bạn đang tìm kiếm mà không cần phải cài đặt bất cứ thứ gì trên máy tính. Đây là hai cái mà tôi đã sử dụng với kết quả rất tốt đến xuất sắc:

Trích xuấtPDF

trích xuấtpdf

ExtractPDF là một công cụ miễn phí để lấy hình ảnh, văn bản và phông chữ từ tệp PDF. Hạn chế duy nhất là kích thước tối đa cho tệp PDF là 10 MB. Đó là một chút nhỏ; vì vậy nếu bạn có tệp lớn hơn, hãy thử một số phương pháp khác bên dưới. Chọn tập tin của bạn và sau đó nhấp vào Gửi file cái nút. Kết quả thường rất nhanh và bạn sẽ thấy bản xem trước của văn bản khi nhấp vào tab Văn bản.

tải văn bảntải văn bản

Một lợi ích bổ sung thú vị nữa là nó cũng trích xuất hình ảnh từ tệp PDF, đề phòng trường hợp bạn cần những thứ đó! Nhìn chung, công cụ trực tuyến này hoạt động rất tốt, nhưng tôi đã gặp phải một số tài liệu PDF mang lại cho tôi kết quả thú vị. Văn bản được trích xuất tốt nhưng vì lý do nào đó, nó sẽ bị ngắt dòng sau mỗi từ! Đây không phải là vấn đề lớn đối với tệp PDF ngắn nhưng chắc chắn là vấn đề đối với tệp có nhiều văn bản. Nếu điều đó xảy ra với bạn, hãy thử công cụ tiếp theo.

OCR trực tuyến

OCR trực tuyến thường có xu hướng hoạt động đối với các tài liệu không chuyển đổi đúng cách bằng ExtractPDF, vì vậy, bạn nên thử cả hai dịch vụ để xem dịch vụ nào mang lại kết quả tốt hơn cho bạn. OCR trực tuyến cũng có một số tính năng đẹp hơn có thể tỏ ra hữu ích cho bất kỳ ai có tệp PDF lớn chỉ cần chuyển đổi văn bản trên một vài trang thay vì toàn bộ tài liệu.

Điều đầu tiên bạn muốn làm là tiếp tục và tạo một tài khoản miễn phí. Hơi khó chịu một chút nhưng nếu bạn không tạo tài khoản miễn phí, nó sẽ chỉ chuyển đổi một phần PDF của bạn chứ không phải toàn bộ tài liệu. Ngoài ra, thay vì chỉ có thể tải lên tài liệu 5 MB, bạn có thể tải lên tối đa 100 MB cho mỗi tệp bằng một tài khoản.

trực tuyếntrực tuyến

Đầu tiên, chọn ngôn ngữ rồi chọn loại định dạng đầu ra bạn muốn cho tệp được chuyển đổi. Bạn có một vài lựa chọn và bạn có thể chọn nhiều hơn một nếu muốn. Dưới Tài liệu nhiều trangbạn có thể chọn Số trang và sau đó chỉ chọn những trang bạn muốn chuyển đổi. Sau đó bạn chọn file và nhấn Chuyển thành!

tài liệu ocr trực tuyến

Sau khi chuyển đổi, bạn sẽ được đưa đến phần Tài liệu (nếu bạn đã đăng nhập), nơi bạn có thể xem bạn còn lại bao nhiêu trang miễn phí và các liên kết để tải xuống các tệp đã chuyển đổi của bạn. Có vẻ như bạn chỉ có 25 trang miễn phí mỗi ngày, vì vậy nếu cần nhiều hơn thế, bạn sẽ phải đợi một chút hoặc mua thêm trang.

OCR trực tuyến đã thực hiện rất tốt việc chuyển đổi các tệp PDF của tôi vì nó có thể duy trì hình dạng thực tế layout của văn bản. Trong thử nghiệm của mình, tôi đã lấy một tài liệu Word sử dụng dấu đầu dòng, các cỡ chữ khác nhau, v.v. và chuyển đổi nó thành PDF. Sau đó mình dùng Online OCR để chuyển về định dạng Word thì nó giống bản gốc khoảng 95%. Điều đó khá ấn tượng đối với tôi.

Ngoài ra, nếu bạn đang muốn chuyển đổi hình ảnh thành văn bản thì OCR trực tuyến có thể thực hiện điều đó dễ dàng như trích xuất văn bản từ tệp PDF.

OCR trực tuyến miễn phí

Vì chúng ta đang nói về OCR hình ảnh thành văn bản, hãy để tôi đề cập đến một trang web tốt khác hoạt động thực sự tốt về hình ảnh. OCR trực tuyến miễn phí rất tốt và rất chính xác khi trích xuất văn bản từ hình ảnh thử nghiệm của tôi. Tôi đã chụp một vài bức ảnh từ iPhone của mình về các trang sách, tờ rơi, v.v. và tôi rất ngạc nhiên về khả năng chuyển đổi văn bản của nó.

ocr trực tuyến miễn phí

Chọn tệp của bạn và sau đó nhấp vào nút Tải lên. Trên màn hình tiếp theo, có một số tùy chọn và bản xem trước của hình ảnh. Bạn có thể cắt nó nếu bạn không muốn OCR toàn bộ. Sau đó, chỉ cần nhấp vào nút OCR và văn bản đã chuyển đổi của bạn sẽ xuất hiện bên dưới bản xem trước hình ảnh. Nó cũng không có bất kỳ hạn chế nào, điều này thực sự tốt.

Ngoài các dịch vụ trực tuyến, còn có hai phần mềm chuyển đổi PDF miễn phí mà tôi muốn đề cập trong trường hợp bạn cần phần mềm chạy cục bộ trên máy tính của mình để thực hiện chuyển đổi. Với các dịch vụ trực tuyến, bạn sẽ luôn cần kết nối Internet và điều đó có thể không thực hiện được với tất cả mọi người. Tuy nhiên, tôi nhận thấy rằng chất lượng chuyển đổi từ các chương trình phần mềm miễn phí kém hơn đáng kể so với chất lượng chuyển đổi của các trang web.

Trình trích xuất văn bản A-PDF

A-PDF Text Extractor là phần mềm miễn phí thực hiện khá tốt công việc trích xuất văn bản từ tệp PDF. Sau khi tải xuống và cài đặt, hãy nhấp vào nút Mở để chọn tệp PDF của bạn. Sau đó nhấp vào Trích xuất văn bản để bắt đầu quá trình.

trình giải nén pdf

Nó sẽ hỏi bạn vị trí để lưu trữ tệp đầu ra văn bản và sau đó nó sẽ bắt đầu giải nén. Bạn cũng có thể bấm vào Lựa chọn nút, cho phép bạn chỉ chọn một số trang nhất định để trích xuất và kiểu trích xuất. Tùy chọn thứ hai rất thú vị vì nó trích xuất văn bản theo các bố cục khác nhau và bạn nên thử cả ba bố cục này để xem cái nào mang lại cho bạn kết quả đầu ra tốt nhất.

Thí điểm văn bản PDF2

PDF2Text Pilot thực hiện tốt công việc trích xuất văn bản. Nó không có bất kỳ lựa chọn nào; bạn chỉ cần thêm tệp hoặc thư mục, chuyển đổi và hy vọng điều tốt nhất. Nó hoạt động tốt trên một số tệp PDF, nhưng đối với phần lớn chúng, có rất nhiều vấn đề.

văn bản pdf2

Chỉ cần nhấp vào Thêm tệp và sau đó nhấp vào Chuyển thành. Khi quá trình chuyển đổi hoàn tất, hãy nhấp vào Duyệt để mở tệp. Số dặm của bạn sẽ thay đổi khi sử dụng chương trình này, vì vậy đừng mong đợi nhiều.

Ngoài ra, điều đáng nói là nếu bạn đang làm việc trong môi trường công ty hoặc có thể sử dụng bản sao Adobe Acrobat từ nơi làm việc, thì bạn thực sự có thể nhận được kết quả tốt hơn nhiều. Acrobat rõ ràng không miễn phí, nhưng nó có các tùy chọn để chuyển đổi định dạng PDF sang Word, Excel và HTML. Nó cũng thực hiện tốt nhất công việc duy trì cấu trúc của tài liệu gốc và chuyển đổi văn bản phức tạp.

Để lại bình luận

Địa chỉ email của bạn sẽ được chúng tôi bảo mật thông tin.