Phần mềm nhận dạng chữ in tiếng Việt VnDOCR 2.0

Chương trình nhận dạng trực tiếp tài liệu, bằng cách quét thông qua máy scanner thành các tệp ảnh, và chuyển đổi thành các tệp có định dạng *.doc, *.xls, *.txt, *.rtf giúp người sử dụng không phải gõ lại tài liệu vào máy.

Phần mềm VnDOCR 2.0 do Phòng Nhận dạng & Công nghệ tri thức, Viện Công nghệ Thông tin, xây dựng. Các tài liệu được quét đều có thể chỉnh sửa bằng một chương trình soạn thảo văn bản thông thường như Word.

Những tiện ích quan trọng

Quét ảnh là khâu ảnh hưởng nhiều tới độ chính xác trong quá trình nhận dạng. Một văn bản rõ ràng được quét với độ sáng tối không thích hợp, như cho sáng quá thì chữ sẽ mất nét, tối quá thì chữ sẽ đậm, dễ dính nhau, dễ bị chương trình nhận dạng hiểu lầm là ảnh; hoặc đặt nghiêng trang văn bản khi quét sẽ ảnh hưởng tới độ chính xác của quá trình nhận dạng. Đối với các trang văn bản chất lượng kém, được quét với độ sáng tối thích hợp, cùng với sự hỗ trợ xử lý ảnh như: xóa nhiễu, làm dày hoặc mảnh nét, xác định độ nghiêng..., chất lượng nhận dạng sẽ được cải thiện rất nhiều.

Trong VnDOCR 2.0 còn có tiện ích phân vùng văn bản cần nhận dạng, cho phép người sử dụng lựa chọn các vùng khác nhau. Đối với các trang tài liệu trình bày đơn giản, chương trình sẽ tự động phân vùng. Còn đối với các trang tài liệu trình bày phức tạp thì cách chọn phân vùng bằng tay sẽ thích hợp hơn. Một tập tài liệu có cách trình bày giống nhau, có thể phân vùng một trang và áp dụng cách phân vùng này cho toàn bộ tài liệu quét vào.

Quá trình kiểm tra lỗi.

Tiện ích thiết lập tuỳ chọn cho văn bản nhận dạng cần được thực hiện trước quá trình nhận dạng, bởi nó liên quan đến việc lưu giữ các khung hay không, kích cỡ chữ, độ chính xác... Thiết lập tuỳ chọn cũng bao gồm các tiện ích nhỏ khác như việc chọn giao diện cho chương trình (tiếng Anh hay tiếng Việt), kích cỡ trang tài liệu, giao diện điều khiển scanner, hệ font chữ, và việc sử dụng các tệp mẫu học, từ điển soát chính tả.

Tiện ích nhận dạng ký tự của VnDOCR 2.0 là quá trình phân loại đối tượng được biểu diễn theo một mô hình, và gán cho chúng vào một lớp (tên gọi) dựa theo những quy luật và các mẫu chuẩn. Quá trình nhận dạng dựa vào những quy luật và các lớp tên gọi biết trước, gọi là "nhận dạng có thày" hay "học có thày", trong trường hợp ngược lại gọi là "học không có thày". Sau quá trình nhận dạng, VnDOCR 2.0 sẽ hiển thị kết quả ở cửa sổ phải của màn hình.

Người sử dụng có thể dùng chức năng kiểm chứng văn bản để kiểm tra kết quả nhận dạng đối với văn bản gốc và sửa trực tiếp, hoặc sử dụng chức năng soát chính tả (một công cụ rất mạnh của chương trình) để vừa kiểm chứng vừa soát lỗi như các hệ soát chính tả trong các chương trình soạn thảo chuyên nghiệp. Những chữ, từ được đánh dấu đỏ là chữ nghi ngờ do chương trình soát chính tả đưa ra. Kết quả nhận dạng sẽ được lưu ở cửa sổ bên phải sang dạng file (doc, txt, rtf...), và nhờ một chương trình xử lý văn bản chuyên nghiệp đọc, sửa đổi.

Học các kiểu chữ là một tiện ích không thể thiếu của chương trình. Khi một tập tài liệu mà có những lỗi sai giống nhau, người sử dụng có thể dùng tính năng này để học thêm các kiểu chữ mới mà chương trình không nhận được, hoặc nhận sai. Như vậy, đối với các tài liệu khác nhau với các lỗi sai khác nhau, đều cho học thì dữ liệu sẽ ngày càng lớn, giúp cho việc nhận dạng chính xác hơn đối với nhiều tập tài liệu khác nhau.

Phiên bản 3.0 có thể sẽ được đưa ra thị trường vào đầu năm sau.

Phạm Huyền

Trở lại Khoa học công nghệTrở lại Khoa học công nghệ