← VnExpress Khoa học

Giải pháp nhận diện ký tự quang học C-OCR

Điểm mới: C-OCR không chỉ đơn thuần là một công cụ thông minh trích xuất dữ liệu từ văn bản mà còn mở rộng khả năng của mình sang việc nhận diện và hiểu biết bản vẽ, một lĩnh vực đòi hỏi sự chính xác và tinh tế. Với khả năng đọc hiểu và trích xuất thông tin từ bản vẽ, C-OCR đem đến sự tiện lợi và hiệu quả cao cho việc xử lý dữ liệu trong các lĩnh vực đòi hỏi sự chính xác như kiến trúc, kỹ thuật, hay thiết kế.

Không chỉ giúp tiết kiệm thời gian và công sức cho người dùng, C-OCR còn mở ra những cơ hội mới trong việc tối ưu hóa quy trình làm việc và nâng cao hiệu suất công việc. Tính linh hoạt và đa dạng của C-OCR trong việc xử lý bản vẽ đồng thời cũng là một minh chứng cho sự tiên tiến và đột phá trong lĩnh vực trí tuệ nhân tạo, giúp nâng cao trải nghiệm người dùng và tạo ra giá trị đích thực trong việc quản lý thông tin và dữ liệu.

C-OCR là Giải pháp hỗ trợ việc phát hiện, nhận dạng và trích xuất thông tin từ hình ảnh, vật thể, chữ viết tay, giấy tờ, biểu mẫu... với độ chính xác cao, thời gian ngắn.

Công nghệ AI được áp dụng:

Nhận diện ký tự (OCR - Optical Character Recognition): Công nghệ OCR trong C-OCR giúp chuyển đổi hình ảnh chứa văn bản thành văn bản có thể chỉnh sửa được trên máy tính. Điều này cho phép người dùng quét và chuyển đổi dữ liệu từ giấy tờ, văn bản in thành dữ liệu số một cách tự động.

Xử lý ngôn ngữ tự nhiên (NLP - Natural Language Processing): C-OCR có thể sử dụng công nghệ xử lý ngôn ngữ tự nhiên để hiểu và xử lý văn bản một cách hiệu quả. Điều này giúp C-OCR trích xuất thông tin từ văn bản một cách thông minh và tự động.

Xử lý ảnh: C-OCR sử dụng các thuật toán xử lý ảnh phân tích và nhận diện ký tự từ hình ảnh. Điều này giúp C-OCR hoạt động hiệu quả trên các loại hình ảnh và cấu trúc bảng biểu phức tạp.

Tính năng:

Số hóa văn bản đa dạng:
- Chuyển đổi văn bản dạng ảnh, pdf scan sang các định dạng linh hoạt như Word, Excel, Text và PDF với văn bản 2 lớp text.

- Hỗ trợ tăng cường chất lượng ảnh: Cho phép hoạt động tốt ngay cả những ảnh bị rung nhẹ, ảnh chụp camera, ảnh có độ phân giải thấp

- Khả năng trích xuất thông tin không phụ thuộc vào cấu trúc trước đó, giữ nguyên định dạng ban đầu của thông tin: Font, Size, Kiểu dáng BUI, cột, bảng biểu, dấu, chữ ký, biểu đồ, bản vẽ,...

Trích rút thông tin giấy tờ:
- Hỗ trợ trích xuất thông tin từ hơn 30 loại giấy tờ phổ biến, cung cấp khả năng huấn luyện và xây dựng mô hình linh hoạt để đáp ứng nhanh chóng yêu cầu trích xuất trên tài liệu đặc thù của từng khách hàng.

- Module đáp ứng trích rút trên văn bản đặc thù theo yêu cầu của khách hàng cho các loại biểu mẫu khác nhau
+ Fix form: biểu mẫu cố định giữa các văn bản
+ Free form: Biểu mẫu không cố định giữa các văn bản
- Module sinh ảnh, trong trường hợp khách hàng cung cấp quá ít mẫu dữ liệu, giúp tạo thêm dữ liệu cho mô hình học tốt hơn.

Tốc độ:

Nhận diện ký tự scan lên tới 98,9%
Nhận diện ký tự chữ viết tay 95%
Xử lý được các ký tự đặc biệt, các loại kiểu chữ BUI, cấu trúc dạng bảng với độ chính xác trên 96%;

Lợi ích:

Giải pháp C-OCR không chỉ đơn thuần là một công cụ trích xuất thông tin, mà còn là người đồng đội đắc lực giúp tự động hóa quy trình từ việc nhận diện thông tin trong bảng biểu, form, đến việc lưu trữ và khai thác thông tin một cách thông minh và hiệu quả.

Với khả năng đọc hiểu CV, hóa đơn, biểu mẫu bảo hiểm, bản vẽ và nhiều loại tài liệu khác, C-OCR không chỉ giảm thời gian và chi phí cho việc nhập liệu mà còn tạo ra sự linh hoạt và chính xác đáng kinh ngạc trong quá trình xử lý dữ liệu.

Bằng cách tự động hóa các công việc đọc hiểu và trích xuất thông tin, C-OCR không chỉ nâng cao hiệu quả công việc mà còn giúp doanh nghiệp tiết kiệm thời gian và tài nguyên nhân sự quý báu. Sự kết hợp hoàn hảo giữa công nghệ AI và quy trình vận hành truyền thống giúp tạo ra một môi trường làm việc thông minh và hiệu quả.

Hơn nữa, với việc đặt trọng tâm vào bảo mật thông tin và dữ liệu, C-OCR đem đến sự yên tâm tuyệt đối cho việc lưu trữ và xử lý thông tin quan trọng của doanh nghiệp, giúp bảo vệ thông tin quan trọng và tạo ra một môi trường làm việc an toàn và đáng tin cậy.

Thành tựu:

Với giải pháp Số hóa văn bản C-OCR, tiêu biểu nhất là Dự án xây dựng ứng dụng C-OCR trong giám định bảo hiểm y tế cho Bảo hiểm xã hội Việt Nam tại 63 tỉnh thành. Với mục tiêu sử dụng công nghệ OCR trí tuệ nhân tạo để trích xuất thông tin từ các tài liệu, biểu mẫu sử dụng trong Hệ thống bảo hiểm, tích hợp mô-đun OCR vào hệ thống giám định của BHXH VN, bao gồm các tính năng trích xuất và khớp thông tin. Quy trình này giúp giảm tải quy trình xử lý văn bản của BHXH Việt Nam, tối ưu thời gian xử lý hồ sơ cho cán bộ bảo hiểm, đảm bảo quyền lợi người dân tham gia bảo hiểm. CMC ATI cũng triển khai giải pháp C-HR sử dụng công nghệ C-OCR cho TH Group và Công ty Recruitery nhằm trích tự động xử lý hồ sơ của ứng viên nhanh chóng. Ngoài ra, CMC ATI cũng ứng dụng công nghệ bóc tách bản vẽ, giấy tờ kỹ thuật C-OCR cho công ty sản xuất oto hàng đầu thế giới tại Nhật Bản.

Đối với nội bộ của CMC, CMC ATI cũng triển khai C-OCR cho CMC TS nhằm quản lý văn bản, tiết kiệm nhân sự nhập liệu và tự động bóc tách và nhập vào hệ thống CSDL sẵn có. Core OCR của Viện CMC ATI được tích hợp vào hệ thống Edocman cung cấp cho Tổng cục Thuế và Ủy Ban Chứng Khoán nhà nước.

Doanh thu:

Trong khoảng thời gian chỉ từ năm 2022 đến 2023, sản phẩm ứng dụng công nghệ AI C-OCR đã chứng minh sức mạnh của mình khi đạt doanh thu lên đến 4.000.000.000 VNĐ.

Giải pháp nhận diện ký tự quang học C-OCR