3 Công cụ OCR Trích xuất Chữ trong Hình ảnh không cần Gõ lại
Việc lấy văn bản có trong tấm hình là nổi ám ảnh đối với bạn? Nhưng không sao, giờ đây có rất nhiều công cụ giúp bạn trích xuất chữ trong hình ảnh vào file Word. Bạn không cần phải nhìn vào tấm hình và gõ ra từng chữ nửa. Có công cụ giúp lấy chữ từ hình ảnh được gọi chung là OCR.
Nhận dạng ký tự quang học hay còn gọi là OCR, là quá trình chuyển đổi văn bản được đánh máy hoặc viết tay từ các phương tiện như tài liệu đã được scan hoặc hình ảnh thành ký tự chữ cái.
Mặc dù một số công cụ OCR có thể quét chữ từ ảnh bị sai sót, tùy thuộc vào độ rõ của văn bản trong hình ảnh. Sử dụng OCR để trích xuất văn bản từ hình ảnh có thể giúp bạn tiết kiệm hàng giờ ngồi gõ lại từng chữ.
Ví dụ, giáo viên gửi cho bạn một tấm ảnh là tài liệu của môn học, bạn muốn chuyển nó thành chữ để dễ đọc, chỉnh sửa và in ra. Bạn cần công cụ OCR để chuyển văn bản trong ảnh thành chữ.
Trong bài viết này, chúng ta hãy khám phá ba trong số các công cụ OCR tốt nhất để trích xuất văn bản từ hình ảnh. Bạn không cần phải cài đặt trên máy tính vì nó sẽ chuyển Online ngay trên Website.
Bình thường mình hay dùng Google Drive để lấy chữ trong ảnh, nhưng nó lại không có tính năng nâng cao, nên mình thường chọn 1 trong 3 công cụ bên dưới:
OnlineOCR
OnlineOCR là một trong những cách đơn giản và nhanh nhất để chuyển đổi hình ảnh hoặc file PDF thành nhiều định dạng văn bản khác nhau.
Không cần tạo tài khoản, OnlineOCR.net sẽ cho phép bạn chuyển đổi tối đa 15 hình ảnh thành chữ trong mỗi giờ. Nếu đăng ký tài khoản cung cấp cho bạn quyền truy cập vào các tính năng như chuyển đổi tài liệu PDF nhiều trang và các tính năng tốt hơn.
OnlineOCR.net hỗ trợ chuyển đổi từ các định dạng PDF, JPG, BMP, TIFF và GIF, xuất ra dưới dạng DOCX (Word), XLSX (Excel) hoặc TXT (Text).
OnlineOCR.net có thể nhận dạng văn bản bằng tiếng Anh, tiếng Afrikaans, tiếng Albania, tiếng Basque, tiếng Brazil, tiếng Bungary, tiếng Catalan, tiếng Trung, tiếng Croatia, tiếng Séc, tiếng Đan Mạch, tiếng Hà Lan, tiếng Esperanto, tiếng Estonia, tiếng Phần Lan, tiếng Pháp, tiếng Galicia, tiếng Đức, tiếng Hy Lạp, tiếng Hungary, tiếng Iceland, tiếng Indonesia, tiếng Ý, Tiếng Nhật, tiếng Hàn, tiếng Latinh, tiếng Latvia, tiếng Litva, tiếng Macedonian, tiếng Malay, tiếng Moldavia, tiếng Na Uy, tiếng Ba Lan, tiếng Bồ Đào Nha, tiếng Romania, tiếng Nga, tiếng Serbia, tiếng Slovak, tiếng Slovenia, tiếng Tây Ban Nha, tiếng Thụy Điển, tiếng Tagalog, tiếng Thổ Nhĩ Kỳ và tiếng Ukraina.
Quá trình chuyển đổi chỉ có ba bước đơn giản. Bạn tải lên một file hình ảnh hoặc pdf cần trích xuất chữ, tối đa 15 MB, chọn ngôn ngữ và định dạng đầu ra của bạn và nhấp vào nút Convert.
Sau khi lấy được chữ trong ảnh, bạn sẽ thấy được kết quả trích xuất chữ ở khung bên dưới. Nếu thấy OnlineOCR trích xuất đúng, bạn có thể tải file về và sử dụng.
Nhược điểm: chưa hổ trợ Tiếng Việt.
NewOCR – Lấy chữ trong hình ảnh có hỗ trợ tiếng Việt
NewOCR hiện chỉ cung cấp tính năng lấy chữ từ các file hình ảnh có hỗ trợ tiếng Việt, nhưng nó hỗ trợ một vài tính năng thú vị khác mà nhiều trang OCR trực tuyến không có.
Để bắt đầu sử dụng NewOCR, chỉ cần nhấp vào nút Choose File, chọn hình ảnh bạn muốn lấy chữ, sau đó nhấp vào nút Preview. Thao tác này sau đó sẽ hiển thị bản xem trước hình ảnh của bạn và đưa ra một số tùy chọn bổ sung.
Không giống như hầu hết các công cụchuyển đổi hình ảnh thành văn bản khác, NewOCR cho phép bạn đặt nhiều ngôn ngữ nhận dạng. Điều này có thể khá hữu ích nếu bạn không chắc chắn về ngôn ngữ văn bản trong hình ảnh được viết bằng ngôn ngữ nào.
Nếu hình ảnh của bạn bị lệch sang một bên, bạn cũng có thể tự động xoay hình ảnh đó. Khi bạn đã áp dụng các tùy chọn cần thiết, bạn có thể nhấp vào nút OCR để trích xuất văn bản của hình ảnh.
Từ đây, bạn có thể tải xuống văn bản đã trích xuất chữ ở định dạng TXT, DOC hoặc PDF hoặc gửi thẳng đến Google Dịch hoặc Google Tài liệu để chỉnh sửa thêm.
OCR.space
Cuối cùng nhưng không kém phần quan trọng, OCR.space ứng dụng nhiều chức năng nhất dùng để chuyển hình ảnh thành văn bản. Trang này có tới 2 công cụ để quét ảnh và giúp bạn so sánh đầu ra xem chữ được lấy ra từ hình của công cụ nào tốt hơn.
OCR.space là một trong những công cụ OCR tốt nhất hỗ trợ định dạng tệp WEBP. Ngoài ra, PNG, JPG và PDF cũng được hỗ trợ. Ngoài ra, bạn không phải tải tệp lên – bạn có nhập link hình ảnh, website tự lấy về và chuyển thành văn bản cho bạn.
Các tính năng thích hợp khác bao gồm tự động xoay, quét viền, tự động phóng to (nếu ảnh nhỏ)… OCR.space là một trong những công cụ OCR duy nhất hỗ trợ xuất kết quả dưới dạng PDF và bạn thậm chí có thể chọn giữa một trong hai công cụ OCR khác nhau để trích xuất tốt nhất có thể.
Tất cả những gì bạn phải làm là tải hình ảnh cần lấy chữ hoặc nhập link của ảnh đó, click vào Start OCR!. Bản xem trước kết quả của bạn sẽ tự động tải trên cùng một trang. Sau đó nhấn nút Download để tải file về.
Một trong những tính năng thú vị và độc đáo nhất của OCR.space là nó có thể xuất bản trích xuất của bạn dưới dạng JSON. JSON này sẽ có các trường bao gồm từng từ trong văn bản và tọa độ của chúng trên chính hình ảnh. Đây là một tính năng rất được đánh giá cao nếu bạn là một lập trình viên đang cố gắng trích xuất văn bản từ hình ảnh theo chương trình.
Nhược điểm duy nhất là chưa hổ trợ Tiếng Việt.
Với ba công cụ xuất chữ trong hình ảnh ở trên, việc trích xuất văn bản từ bất kỳ hình ảnh nào rõ ràng và dễ đọc sẽ giúp bạn tiết kiệm khá nhiều thời gian. Ngay cả khi bạn là người đánh máy nhanh nhưng đảm bảo sẽ không nhanh bằng công cụ OCR này. Ngoài ra, mình thường dùng Google Doc để dịch hoặc cài luôn phần mềm ABBYY FineReader 15 – Chuyển hình ảnh thành chữ trên máy tính để dùng khi không có Internet.