Ứng dụng nhận dạng chữ viết SmartOCR: Từ ý tưởng đến sự đột phá tại TOP 10 Sao Khuê 2019

2019/06/12

Tiết kiệm thời gian, giảm chi phí nhân sự, tăng hiệu quả năng suất công việc… Đó là những gì GMO-Z.com RUNSYSTEM hướng tới cho doanh nghiệp khi triển khai nghiên cứu phát triển và xây dựng giải pháp SmartOCR – Ứng dụng nhận dạng chữ viết tay sử dụng công nghệ trí tuệ nhân tạo AI.

SmartOCR là phần mềm cho nhận dạng chữ viết và trích xuất các dữ liệu từ ký tự hình ảnh chuyển đổi sang text tiếng Việt và tiếng Nhật. Dựa trên nền tảng công nghệ trí tuệ nhân tạo AI, công nghệ nhận dạng chữ (Optical Character Recognition – OCR) của SmartOCR cho phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu ra của máy quét, máy ảnh, file PDF dạng ảnh…) thành tài liệu có thể biên tập được (file text, file Word…).

Vào thời điểm hiện tại, trên thị trường Việt Nam chưa có sản phẩm nào hoạt động với quy chế tương tự. Nhận thấy nhu cầu tiềm năng từ một số ngành truyền thống cần sử dụng một lượng lớn tài liệu giấy như ngân hàng, bảo hiểm, hành chính sự nghiệp… cùng với đặc thù xác thực chủ thể bằng các giấy tờ cá nhân là rất cao, công ty đã quyết định triển khai nghiên cứu sử dụng công nghệ AI để xây dựng và phát triển giải pháp SmartOCR.

Một tín hiệu đáng vui mừng và tự hào cho công ty chúng ta, vào ngày 21/04/2019 vừa qua, tại lễ công bố và trao danh hiệu Sao Khuê 2019, ứng dụng SmartOCR của công ty đã lọt vào Top 10 các sản phẩm, dịch vụ xuất sắc trong tổng số 94 sản phẩm, dịch vụ CNTT được trao giải. Danh hiệu Top 10 được xét duyệt dựa trên các tiêu chí về quy mô thị trường, công nghệ, tính ưu việt, tính xã hội hóa, tính ứng dụng và sự tiên phong trong cuộc cách mạng công nghiệp 4.0. SmartOCR tự hào được vinh danh trong Top 10 Sao Khuê 2019 sánh ngang với các gương mặt quen thuộc đã nhiều năm liền đạt giải như Viettel, FPT, BIDV,… 

SmartOCR được vinh danh trong Top 10 Sao Khuê 2019

Để có thể làm nên thành công của SmartOCR như vậy không phải một điều dễ dàng. Đó là những công sức, những ngày tháng trăn trở của toàn bộ đội ngũ vận hành dự án. Xây dựng một sản phẩm thông thường đã không dễ dàng gì, với dự án sử dụng công nghệ Trí tuệ nhân tạo AI lại càng khó khăn hơn. Cũng như con người cần phải đi học, trí tuệ nhân tạo cần được huấn luyện bằng dữ liệu. Có rất nhiều phương pháp xây dựng dự án AI, nhưng mỗi phương pháp có ưu nhược điểm riêng của nó. Khi có ít dữ liệu huấn luyện thì buộc chúng ta phải lựa chọn một phương pháp cũ, dùng đến các quy tắc và thuật toán truyền thống hỗ trợ nhiều hơn, tính hiệu quả cũng thấp hơn và ngược lại. Trong lúc này, lượng dữ liệu huấn luyện mà nhóm có là con số 0 tròn trĩnh. Để thu thập được đủ dữ liệu, nhóm phải tìm kiếm tới mọi cách thức như tìm kiếm trên google, đi mua dữ liệu, tạo dữ liệu giả để huấn luyện … Tuy nhiên, việc những cách trên đều chưa đủ thỏa mãn với điều kiện lúc bấy giờ nên nhóm quyết định sẽ nhờ anh chị em Runner trong công ty giúp đỡ viết tiếng Nhật tiếng Việt làm dữ liệu mẫu huấn luyện, nhưng số lượng người viết và gán nhãn mà công ty có được rất khiêm tốn so với bộ chữ khổng lồ cần thiết. Do đó, nhóm đã chọn một giải pháp cần ít dữ liệu hơn mà lại bù đắp được lượng dữ liệu thiếu hụt nhóm đã chọn một phương pháp cần ít dữ liệu hơn và đồng thời từ dữ liệu đó tạo ra nhiều nhân bản thêm ra bằng các thuật toán xử lý ảnh mô tả chữ ở các điều kiện khác nhau để đem lại độ chính xác cao như hiện nay. Nhóm đã có một phen “hú hồn” khi đến hạn thử nghiệm cho khách hàng mà độ chính xác không như mong muốn, anh em lo lắng như ngồi trên đống lửa, phải ngồi làm việc đến tận nửa đêm mới về chỉ mong đem lại kết quả hài lòng nhất cho khách hàng. May mắn thay, khi khách hàng từ Nhật Bản mang mẫu thử nghiệm đến thì kết quả tốt hơn dữ liệu mẫu rất nhiều. Anh em được dịp thở phào.

Áp lực có, nhưng niềm vui, kỷ niệm cũng kể không xuể. Số lượng anh em trong nhóm thủa ban đầu tuy khiêm tốn nhưng lại rất tình cảm. Anh Đào Bảo Linh (AI Team) chia sẻ: “Hồi sơ khai nhóm chỉ có 2 Runners chính là mình và anh Nguyễn Thành Đô. Một dịp, do nhu cầu của dự án đang thực hiện và dự định mở rộng nhân viên AI trong chi nhánh TP HCM, mình đã được cử đi đi công tác trong đó, mang theo cả những lời nhắn nhủ hy vọng về team AI lớn mạnh trong tương lai của anh Minh (Phó GĐ). Sau khi hoàn thành nhiệm vụ trở về thì còn biết thêm là khi mình đi, anh bạn cùng nhóm của mình thời gian đó phải ngồi 1 mình hay kể lể với bạn bè trong công ty là anh ấy đi thấy nhớ thương ghê, ngồi 1 mình rất buồn, mong ngày mình về. Bây giờ ngồi nói chuyện thỉnh thoảng vẫn mang ra trêu nhau.”.

Giờ đây, SmartOCR đã dần hoàn thiện và ngày càng khẳng định được chất lượng của mình, được sự đón nhận nhiệt tình của giới truyền thông cũng như khách hàng. Chúc cho SmartOCR và đội ngũ thành viên sẽ phát triển rực rỡ hơn nữa trong tương lai.