Hướng dẫn sử dụng ABBYY FineReader

Bình luận

ABBYY FineReader là phần mềm nhận diện ký tự quang học (OCR), cho phép người dùng chuyển đổi ảnh tài liệu dạng văn bản và bảng biểu sang các định dạng text có thể chỉnh sửa & đọc trên các thiết bị điện tử.

ABBYY FineReader có thể chuyển đổi file ảnh và PDF không thể tìm nội dung sang dạng tài liệu văn phòng như .docx, .pptx và PDF. Chương trình này giúp người dùng nhận diện gần 100 ngôn ngữ và nó có thể xử lý cả tài liệu đa ngôn ngữ. Bài viết sẽ cung cấp hướng dẫn sử dụng ABBYY FineReader cơ bản cho người mới bắt đầu.

1. Upload tài liệu

Bạn nên upload tài liệu có chất lượng tốt và rõ ràng. Để làm việc này, bạn nên lựa chọn một máy scan tài liệu tốt, nếu không, bạn có thể tham khảo: Cách tốt nhất để scan tài liệu sử dụng điện thoại hoặc tablet trên Download.vn.

Mặc dù ABBYY FineReader có thể nhận diện text từ ảnh chụp thông thường bằng camera, mục đích sử dụng app scan tài liệu nhằm giảm lỗi mờ chữ và khắc phục chi tiết biến dạng có thể xảy ra. Những ứng dụng scan tài liệu cũng có thể khắc phục các vấn đề về ánh sáng.

Quan trọng: Nếu có thể, hãy đặt tài liệu gốc lên một chiếc bàn bằng phẳng ở điều kiện ánh sáng tốt và scan. ABBYY FineReader khuyến khích người dùng không nên để các dòng text lệch nhau quá 20 độ, nếu không, chúng có thể không được chuyển đổi chính xác.

2. Phát hiện tài liệu

Sau khi upload tài liệu lên ABBYY FineReader, bạn có thể điều chỉnh một chút để có kết quả chính xác hơn.

Khởi động nhanh

Sau khi mở ABBYY FineReader, bạn sẽ thấy màn hình sau:

Để chuyển đổi nhanh ảnh hoặc PDF sang dạng text, bạn có click tùy chọn bất kỳ trong Open in OCR Editor. Sau đó, một hộp thoại sẽ mở ra. Ví dụ, bài viết dùng Convert to PDF. Tuy nhiên, điều này phụ thuộc vào đầu ra bạn muốn, có thể là text, bảng tính hay định dạng nào bạn muốn.

Với PDF, bạn có thể chọn một trong số những lựa chọn dưới đây. Chúng có thể ảnh hưởng tới việc bạn có thể tìm kiếm trên PDF hay không:

Bạn cũng có thể thay đổi cài đặt ngôn ngữ cho tài liệu. Sau khi nhập cài đặt phù hợp nhất, chọn Convert to PDF, một hộp thoại lưu sẽ mở ra.

Tại đây, quá trình xử lý trước ảnh rất quan trọng. Chất lượng ảnh hay PDF càng cao, kết quả đầu ra càng chính xác. Những định dạng bạn có thể chuyển đổi nhanh trong ABBYY FineReader:

.docx
.xlsx
.txt
.pptx
.odt
.html
.rtf
.csv
.epub
.fb2
.djvu

Tùy chọn Quick Convert cho Convert to Microsoft Word và Convert to Microsoft Excel sẽ có các lựa chọn định dạng đơn giản hơn. Nếu chọn Convert to Other Formats, bạn sẽ chỉ có thể chọn định dạng & ngôn ngữ output. Đây là những lựa chọn tốt cho tài liệu có mặt chữ rõ ràng với độ tương phản tốt và được viết bằng ngôn ngữ mà ABBYY có thể nhận diện, chẳng hạn như ảnh chụp màn hình text trên máy tính, điện thoại hay PDF không thể tìm nội dung.

Đối với tài liệu cũ hơn, ảnh chất lượng thấp, font text ít phổ biến, bạn nên chọn Open in OCR Editor. Nó sẽ nhắc bạn chọn tài liệu cần xử lý.

Giao diện của ABBYY FineReader

Nhìn chung, ABBYY FineReader là một phần mềm đơn giản, chỉ yêu cầu một chút chỉnh sửa để tối ưu hóa kết quả. Ở lần đầu tiên mở trình chỉnh sửa, bạn đã có ngay một số output mà ABBYY đã nhận diện.

Chỉnh sửa tài liệu trong ABBYY FineReader

ABBYY FineReader có 3 cửa sổ chính: bảng ảnh ở bên trái, bảng text ở bên phải và bảng thu/phóng tài liệu ở dưới màn hình. Ngôn ngữ mặc định của ABBYY là tiếng Anh. Tuy nhiên, nó vẫn có thể xuất tài liệu dưới mọi ngôn ngữ dùng bảng chữ cái Latin.

Bạn có thể thấy icon Microsoft Word trên output gốc của ABBYY:

Đó là định dạng output mặc định cho tập tin. Bạn có thể thay đổi nó từ menu thả xuống bằng các đuôi file .rtf, .txt.

Bên cạnh nó là box Editable copy. Tùy chọn này cùng với Send điều khiển hình ảnh output trong cửa sổ bảng text.

Click icon hình ngọn núi sẽ cho phép bạn di chuyển hoặc bao gồm ảnh trong output đó. Icon ở bên phải của nó cung cấp lựa chọn giữ hoặc bỏ qua header, footer trong quá trình nhận diện text.

Tạo vùng

Như bạn thấy ở phần trước, các phần của tài liệu gốc trong bảng ảnh được làm nổi bật bằng màu khác nhau. Những vùng đó chỉ vị trí text có thể trích xuất, ảnh hay văn bản đã được tìm thấy. ABBYY tự động tạo chúng khi bạn mở tài liệu trong OCR Editor.

Bạn có thể tìm thấy thanh công cụ trên trong bảng ảnh của ABBYY cùng các công cụ hỗ trợ:

Thêm và xóa vùng.
Thay đổi kiểu vùng.
Điều chỉnh đường viền vùng và di chuyển toàn bộ vùng.
Thêm phần hình chữ nhật tới các vùng hoặc xóa chúng.
Thay đổi thứ tự.

Các box màu sẽ hiện trong bảng ảnh tương ứng với nút bấm ở thanh công cụ: vùng text là màu xanh lá, vùng ảnh màu đỏ và vùng bảng màu xanh dương.

Để tạo một vùng, chỉ cần nhấn vào nút bấm cho loại vùng bạn muốn tạo và làm nổi bật toàn bộ vùng text, ảnh hoặc bảng muốn xuất trong bảng Image. Nếu muốn chính xác hơn, bạn cũng có thể tạo vùng bằng bảng Zoom.

Điều chỉnh vùng

Bình thường, ABBYY sẽ tạo một vùng text riêng còn các đoạn mới thỉnh thoảng sẽ nằm trong nhiều box khác nhau. Nếu những box đó thuộc cùng một loại, bạn chỉ cần chọn một box và mở rộng nó để bao gồm mọi thứ bằng cách click & kéo các góc của box văn bản.

Kết hợp nhiều vùng text thành một:

Lưu ý: Nó cần thiết khi bạn mở rộng một textbox chứa toàn bộ các vùng khác. Nếu không làm như thế, văn bản sẽ bị chồng lấp lẫn nhau.

Hình dạng mặc định của một khu vực là hình chữ nhật, nhưng đôi khi các phần của tài liệu bạn muốn nhận diện không khớp với hình đó. Để toàn bộ text nằm trong textbox như sau:

Chỉnh sửa từng box text trong ABBYY FineReader

Mở rộng như ở cách trước không hiệu quả bởi nó là hình bất đối xứng. Nếu bạn click vào vùng muốn mở rộng, một thanh công cụ nổi sẽ xuất hiện:

Hai icon chứa dấu + và - dùng để tạo & xóa vùng liên quan tới textbox bạn click vào. Nếu nhấn icon chứa dấu +, bạn có thể tạo một textbox kết nối được với box bị ngắt kết nối.

Lưu ý: Hợp nhất các khu vực được sắp xếp cạnh nhau sẽ mở ra một bảng text để xuất text trong một đường thẳng. Vì thế, nếu bạn muốn 2 cột riêng, đảm bảo có 2 vùng text riêng.

Một lần nữa, bảng Zoom có thể được dùng để điều chỉnh các khu vực chính xác hơn. Thực hiện tương tự với cả các vùng ảnh. Tuy nhiên, đối với bảng, bạn có nhiều tùy chọn khác nhau.

Thanh công cụ điều chỉnh bảng trên ABBYY

ABBYY cho phép bạn tách riêng các phần trong bảng thành hàng và cột, xóa dấu phân tách và phân tích khu vực được tạo thành bảng. Nhờ đó, bạn không phải làm việc này theo cách thủ công.

Dùng công cụ Table từ thanh công cụ, bạn có thể tạo một khu vực bảng:

Điều chỉnh khu vực bảng trong ABBYY FineReader

Bảng này không được chia thành cột hay hàng. Thay vì làm việc đó theo cách thủ công, từ thanh công cụ pop-up:

Bảng thanh công cụ trong ABBYY FineReader

Chọn icon có cây đũa phép ở phía trước để thử đoán vị trí của các đường thẳng.

Vị trí các đường thẳng xuất hiện trong ABBYY FineReader

Giờ các cột và hàng gần như đã nằm ở vị trí bạn muốn. Tuy nhiên, vẫn tồn tại một vài lỗi nhỏ. Nếu nhìn vào bảng Zoom, bạn sẽ thấy ABBYY đã tạo thêm một hàng tại vị trí không cần thiết. Trong trường hợp này, bạn chọn icon chứa chữ X màu đỏ từ thanh công cụ pop-up.

Di chuyển con trỏ tới dòng muốn xóa và chọn nó. Dành thời gian trong ABBYY để điều chỉnh vị trí và số vùng chương trình có thể nhận diện dựa trên tính năng phát hiện tự động. Nó cho kết quả tốt hơn và tốn ít thời gian hậu xử lý trước khi xuất hơn.

Sắp xếp lại các vùng

Trong ABBYY, mỗi vùng được tạo có số thứ tự riêng trong suốt quá trình nhận diện. Đầu ra của văn bản trích xuất sau đó sẽ theo thứ tự các vùng được chỉ định.

Ngay từ lần đầu tiên dùng phần mềm này, nó sẽ sắp xếp các box theo vị trí trên trang từ trên xuống dưới và thường từ trái sang phải. Tìm một số nhỏ trong góc của mỗi khu vực nhận diện để thấy trình tự đầu ra tổng thể của trang.

Nếu xóa một vùng, các khu vực vẫn sẽ giữ nguyên thứ tự từ trên xuống dưới. Tuy nhiên, nếu bạn xóa một vùng text ở giữa trang, tiếp theo, tạo vùng mới trong phần đó của trang, khu vực này sẽ được gắn một số thứ tự ở cuối dòng thay vì một số thứ tự nằm giữa vùng nhận diện ở trên và bên dưới.

Để khắc phục vấn đề, bạn có thể chọn icon 2 hình vuông chồng lên nhau, có mũi tên màu xanh trỏ xuống dưới. Thao tác này cho phép bạn sắp xếp lại thứ tự vùng được ABBYY nhận diện đầu tiên.

Bảng công cụ chỉnh sửa văn bản của ABBYY FineReader

Nhận diện ký tự và font

Thay đổi font

Truy cập: http://help.abbyy.com/en-us/finereader/14/user_guide/langfonts để xem danh sách đầy đủ font chữ ABBYY hỗ trợ.

Để đổi font trong tài liệu ngắn, chọn một phần văn bản có một số ký tự bị sai font.

Click chuột phải vào lựa chọn đó > click PROPERTIES ở menu shortcut.
Chọn font mong muốn từ danh sách Font thả xuống ở bảng Text Properties.

Font trong đoạn văn bản lựa chọn giờ sẽ thay đổi như ý của bạn.

Để thay đổi font trong tài liệu dài:

Click TOOLS > STYLE EDITOR.
Trong box STYLE EDITOR, chọn kiểu bạn muốn chỉnh sửa và đổi font của nó.
Click OK.

Font trong toàn bộ đoạn text dùng kiểu bạn chọn sẽ thay đổi theo. Nếu bạn muốn nhận diện các font trang trí hay ký tự đặc biệt trong một tài liệu, tốt nhất hãy dùng chế độ luyện tập để cải thiện độ chính xác của OCR.

Tạo và luyện một mẫu người dùng

Trong chế độ Training, một mẫu người dùng tạo có thể được sử dụng khi thực hiện OCR trên toàn bộ text. Tính năng này thường được dùng khi văn bản có các phần không rõ ràng, font khác với mặc định hay ký tự đặc biệt của ABBYY.

Lưu ý: Tính năng luyện mẫu không hỗ trợ các ngôn ngữ tại Châu Á.

Để truy cập các tùy chọn, từ menu chính:

Click Tools > Options > chọn tab OCR.
Trong Use of patterns and training in OCR Editor, chọn Use training to recognize new characters and ligatures.
Click nút Pattern Editor.
Tại hộp thoại Pattern Editor, chọn nút New để đặt tên cho mẫu của bạn.
Click OK trong Create Pattern, rồi tới Pattern Editor, nhấn OK trong Options để quay lại trình chỉnh sửa OCR.

Lưu ý: Nếu bạn chọn Also use built-in patterns option trong Use training to recognize new characters and ligatures. ABBYY sẽ dùng các mẫu có sẵn cùng với mẫu người dùng tạo để tiết kiệm thời gian cho bạn.

Tiếp theo, khi quay lại tài liệu, bạn có thể bắt đầu quá trình luyện tập:

Trong thanh công cụ ở trên bảng ảnh, chọn Recognize Page (bảng màu trắng với chữ A màu đỏ nằm trong kính lúp).
Trong quá trình nhận diện, box Pattern Training sẽ mở và yêu cầu bạn nhập ký tự khớp với một lựa chọn trong box.

Điều chỉnh vùng đường viền bao quanh nếu cần, chọn hiệu ứng nếu bạn muốn đưa các tính năng text vào output. Sau khi thiết lập đường viền, nhập ký tự hay chữ cái tương ứng chính xác, chọn luyện tập và tiếp tục lên cấp tiếp theo.

Lưu ý: Bạn không cần luyện tập trên toàn bộ tài liệu. Thế nhưng, bạn sẽ cần tiếp tục cho tới khi có đủ các mẫu cho mỗi ký tự, chữ cái trong tài liệu, thường từ 15 tới 25 phiên bản cho mỗi ký tự theo các trình tạo OCR.

Chỉnh sửa một mẫu người dùng

Bạn chỉ có thể “huấn luyện” ABBYY FineReader đọc các ký tự nằm trong bảng chữ cái của ngôn ngữ OCR.

Để thêm ký tự vào ngôn ngữ bạn đang “luyện” nó nhận dạng để đề phòng chữ hay ký tự đó không được nhập bằng bàn phím, hãy dùng một kết hợp 2 ký tự để biểu thị các ký tự bổ sung hoặc sao chép ký tự mong muốn từ Insert Character.

Tạo ngôn ngữ và nhóm người dùng

Tạo một ngôn ngữ nhận dạng mới hoặc có nguồn gốc tương tự để chỉnh sửa một mẫu người dùng

Click TOOLS > OPTIONS > chọn tab Languages.

Tại đây, nếu tài liệu dùng nhiều ngôn ngữ, bạn có thể chọn một trong số 192 ngôn ngữ có sẵn trên ABBYY.

Nếu tài liệu chứa các ký tự không có trong danh sách, chọn New ở bảng Languages.

Hành động này sẽ cho phép bạn tạo một ngôn ngữ mới. Nó có thể hoàn toàn mới hoặc có thể sử dụng cùng với một ngôn ngữ (và từ điển liên quan) hiện có trong ABBYY. Ngôn ngữ “mới” hoặc “phái sinh” sẽ dựa trên ngôn ngữ hiện tại được hỗ trợ.

Trong ABBYY, bạn có thể chọn tới 1.000 ký tự, bao gồm toán tử và các biểu tượng khác.

Xuất OCR

Các kết quả OCR trong ABBYY có thể được lưu vào một file, gửi tới ứng dụng khác như PDF Editor, Clipboard hay email… Bạn cũng có thể gửi kết quả OCR sang Kindle.com. Tại đây, chúng sẽ được chuyển đổi sang định dạng khả dụng trong một trình đọc Kindle. Bạn có thể lưu toàn bộ tài liệu hoặc chỉ trang lựa chọn.

Để lưu text được nhận diện:

Trên thanh công cụ chính, click mũi tên cạnh nút Save và chọn chế độ lưu tài liệu cùng các đối tượng muốn giữ nguyên trong trang.

ABBYY FineReader liệt kê các định dạng file có sẵn trong từng chế độ. Bạn có 5 chế độ lưu định dạng:

Exact copy sản xuất tài liệu có định dạng tương ứng với định dạng gốc, phù hợp với tài liệu phức tạp như quảng cáo. Tùy chọn này hạn chế khả năng thay đổi text và định dạng cho tài liệu đầu ra.
Editable copy xuất định dạng khác một chút so với tài liệu gốc để bạn dễ chỉnh sửa hơn.
Formatted text giữ nguyên font, kích thước font và đoạn nhưng thay đổi khoảng cách, vị trí các đối tượng trên trang.
Plain text không giữ lại định dạng text.
Flexible layout sản xuất tài liệu HTML với các vị trí đối tượng gần với bản gốc nhất về mặt kỹ thuật.

Trên Format Settings của box Options, click tùy chọn lưu mong muốn và nhấn OK.

Lưu ý: Text theo chiều dọc sẽ đổi sang chiều ngang ở chế độ này.