Tips for life, tips for tech

OCR là công nghệ nhận dạng chữ viết từ bản scan thành file văn bản copy được. Thường khi scan bằng máy scan, những gì ta nhận được là file ảnh chứ không phải chữ, và để có thể sao chép, chỉnh sửa lại chữ nếu không có OCR thì chỉ có nước gõ lại, tốn thời gian.

Trên cái thế giới này thì phần mềm scan OCR có cả đống, nhưng trên windows thì nhiều, Linux thì ít, tiếng Anh tiếng Pháp thì nhiều, tiếng Việt thì ít.

Xui một cái nữa cho dân Việt Nam là từ tiếng Việt có nhiếu dấu, hỏi ngã nặng … nên scan ra máy nó không hiểu.

Dạo vậy đủ rồi, trên Linux, có một công cụ khá mạnh, cài dễ dàng và không quá khó xài: tesseract-ocr

A – Cài đặt:

Để cài tesseract + bộ nhận dạng chữ Việt, làm những bước sau:

1. Mở terminal (Ctrl + Alt + T)

2. Gõ lệnh:

sudo apt-get install tesseract-ocr

Lệnh này dùng để cài phần mềm chính.

sudo apt-get install teseract-ocr-vie
#vie là viết tắt của Việt đấy.

Tương tự cho các ngôn ngữ khác, hoặc đơn giản hơn, gom chung hai dòng lệnh trên lại thành:

sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie

Cài một lúc cả phần mềm và gói ngôn ngữ luôn.

B – Sử dụng:

Để sử dụng tesseract, ta phải làm việc trong cửa sổ terminal.

Tạo một folder bất kì mà chúng ta sẽ làm việc trong đó, giả sử tôi chọn tên thư mục là OCR:

mkdir OCR Enter

cd OCR Enter

Lưu cái file ảnh scan vào thư mục này, tesseract có thể thao tác với nhiều loại file, nhưng tốt nhất cứ dùng định dạng file TIFF với độ phân giải càng cao càng tốt (trên 200 dpi), giả sử file scan được tên là scan.tiff, và ta muốn xuất file văn bản được kí tự hóa là ketqua.txt thì cú pháp sẽ là:

tesseract scan.tiff ketqua.txt -l vie

Chú ý đoạn -l vie, -l là để chọn language (ngôn ngữ) và vie là chọn tiếng Việt, làm vầy thì phần nó hiểu là mình muốn scan ra kết quả càng gần tiếng Việt càng tốt (theo quảng cáo thì phần mềm này chính xác đến 97%)

Xong chờ một tí, vào thư mục OCR ta sẽ thấy file ketqua.txt, mở ra sửa lại mấy chỗ bị decode sai (thường là t – l – 1, o – 0, hay ghi hoa ghi thường, sửa hơi mất công tí nhưng còn hơn là gõ lại nguyên trang)

Tut xong, quá dễ.

Reply in English

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Tag Cloud

%d bloggers like this: