Text2View-Giải pháp tạo ảnh theo yêu cầu sử dụng OpenAI

Nhóm: CE-IoT

Mô tả sản phẩm

Giới thiệu sản phẩm:

Trong những năm gần đây, OpenAI là một trong những xu thế công nghệ mới và tạo ra những thay đổi mạnh mẽ trong cách thức mà con người xử lý công việc, học tập, nghiên cứu và giải trí. Đặc biệt, ChatGPT được công bố vào cuối năm 2022 đã thật sự tạo ra một "cuộc cách mạng" mới trong việc sử dụng máy tính, lao động, nhận thức và giao tiếp. Mặc dù còn hạn chế ở giao tiếp bằng mô tả văn bản (text) và giao diện hạn chế, ChatGPT cùng OpenAI đã mở ra nhiều cơ hội cho các kỹ sư để phát triển các giải pháp nâng cao chất lượng cuộc sống. Tuy nghiên, tính trực quan sinh động trong ChatGPT còn hạn chế trong văn bản, câu chữ mà chưa tương tác được bằng hình ảnh. Do đó, việc ứng dụng ChatGPT còn khó khăn đối với các ngành nghề hay bài toán cần trực quan sinh động như hình ảnh, âm thanh. Kiến trúc sư, họa sĩ hay giáo dục mầm non, tiểu học... là những ví dụ về ngành nghề đòi hỏi ở đó là sự minh họa bằng hình ảnh một cách sinh động. Thấy được nhu cầu đó, nhóm nghiên cứu phát triển giải pháp Text2View kết hợp giữa nhiều nền tảng OpenAI và công nghệ xử lý trên nền tảng website để tạo ra trải nghiệm người dùng mới trong việc tạo ra hình ảnh một cách nhanh chóng, phù hợp yêu cầu thông qua thao tác mô tả đơn giản.

Tính năng cơ bản:

- Tính năng cơ bản nhất của giải pháp là cho phép người dùng tạo ra các một tả đầy đủ, chi tiết về đối tượng từ những gợi ý đơn giản; thông qua đó tiếp tục tìm kiếm và tao ra kết quả hình ảnh phù hợp nhất cho yêu cầu. Có thể so sánh với một số nền tảng phổ biến hiện nay như: + Khắc phục hạn chế sử dụng hình ảnh của ChatGPT, giúp người dùng có thể trải nghiệm hình ảnh về đối tượng được mô tả một cách trực quan hơn; + Khắc phục khả năng tổng hợp kết quả tìm kiếm hình ảnh của Image Search Engine của Google. Thay vì trả về hàng loạt kết quả như Google, giải pháp sàng lọc và trả về kết quả phù hợp nhất với mô tả. + Khắc phục hạn chế của Dall-E trong việc yêu cầu đưa ra những mô tả "đủ chi tiết" từ người dùng. Trong thực tế, người dùng khó có thể tự đưa ra một mô tả đầy đủ nếu họ không có kiến thức đủ nhiều về đối tượng. - Bên cạnh tính năng cơ bản trên, giải pháp còn hỗ trợ các tính năng phụ để kết quả trả về phù hợp: + Xử lý ngôn ngữ tự nhiên, đa ngôn ngữ, đa lĩnh vực; + Hỗ trợ thêm các gợi ý phù hợp vào mô tả; + Hỗ trợ đánh giá kết quả để nâng cao hiệu quả trong tương lai; + Giao diện trên nền tảng Web thân thiện, dễ sử dụng

Xuất xứ sản phẩm:

Nhóm CE-IoT, Khoa Kỹ thuật Máy tính, Trường Đại học Công nghệ Thông tin

Mô tả cơ bản:

Giải pháp Text2View cho phép người dùng có thể tạo ra các mô tả đầy đủ, phù hợp về các đối tượng được quan tâm và tìm kiếm các hình ảnh trực quan, gần nhất với mô tả của người dùng để giúp hình thành những liên tưởng, những hiểu biết về đối tượng một cách nhanh chóng.

Bằng cách khai thác các nền tảng OpenAI (ChatGPT và Dall-E) mới nhất, giải pháp cho phép xử lý trên ngôn ngữ tự nhiên, đa dạng ngôn ngữ, không giới hạn lĩnh vực để giúp người dùng có trải nghiệm đầy đủ hơn.

Bên cạnh đó, giải pháp cũng cho phép người dùng chọn lọc kết quả theo lĩnh vực, hệ thống tự động thêm các gợi ý cần thiết (các "promtp") để giúp tăng độ chính xác của các mô tả và kết quả trả về. Đồng thời, giải pháp cho phép người dùng đánh giá kết quả trả về để tăng độ chính xác và tương thích với yêu cầu trong tương lai.

Yêu cầu đối với cơ sở hạ tầng cần thiết để triển khai ứng dụng sản phẩm:

- Giải pháp hoạt động trên nền tảng Web, sử dụng thông qua web-browser.
- Yêu cầu kết nối Internet ổn định.

Sản phẩm được phát triển trong khoảng thời gian:

Số người tham gia làm: 4

Sản phẩm có mặt trên thị trường hoặc đưa vào ứng dụng rộng rãi trong khoảng thời gian: Dưới 3 tháng

Phạm vi thị trường và ngành ứng dụng:

Giải pháp có tiềm năng ứng dụng trong nhiều lĩnh vực khác nhau. Tuy nhiên, các lĩnh vực có nhu cầu sử dụng hình ảnh nhiều như giáo dục, kiến trúc, xây dụng và hội họa là nhiều tiềm năng nhất.

Tiêu chí tự đánh giá sản phẩm ý tưởng dự thi

Tính sáng tạo, đổi mới và công nghệ:

Giải pháp khai thác những công nghệ tiên tiến nhất để đáp ứng dung cầu trải nghiệm của người dùng. Cụ thể như sau: - Khai thác nền tảng OpenAI trên GPT-3 để xử lý các mô tả bằng ngôn ngữ tự nhiên, đa dạng ngôn ngữ, đa dạng lĩnh vực. - Khai thác nền tảng OpenAI trên Dall-E cho các kết quả tìm kiếm hình ảnh phù hợp, đa dạng và nhanh chóng. - Sử dụng nền tảng Website thân thiện, phổ biến với nhiều đối tượng người dùng. Từ những kỹ thuật trên, giải pháp giúp cải thiện khả năng tìm kiếm hình ảnh, hỗ trợ trực quan bằng hình ảnh cho các mô tả đơn giản, khô khan. - Tại Việt Nam, hiện tại chưa có giải pháp tương tự về xử lý tìm kiếm hình ảnh bằng ngôn ngữ tự nhiên và sử dụng các nền tảng OpenAI.

Tính ứng dụng:

Sản phẩm có tiềm năng ứng dụng cao trong nhiều lĩnh vực, trong đó: - Lĩnh vực giáo dục: ứng dụng để phát triển kỹ năng viết văn, học sử dụng ngôn ngử mô tả của trẻ em; hỗ trợ trực quan bằng hình ảnh một cách nhanh chóng về một đối tượng trong quá trình giảng dạy của giảng viên; - Lĩnh vực kiến trúc, xây dựng: cho phép người dùng tham khảo nhanh các mô hình thiết kế thông qua các mô tả đơn giản về đối tượng, công trình. Bên cạnh, giải pháp có thể được phát triển và tích hợp trong các công cụ để xây dựng các thư viện đồ họa trong thiết kế. - Lĩnh vực hội họa: giúp phát thảo và tham khảo nhanh các ý tưởng thiết kế để phát triển các khả năng sáng tác, tưởng tượng.

Tính hiệu quả:

Giải pháp giúp thay đổi cách thức mà con người làm việc và trao đổi thông tin thông qua các văn bản thuần túy, thường khô khan, khó hiểu. Bằng cách tìm kiếm và chuyển đổi các mô tả sang hình ảnh phù hợp, con người sẽ thuận tiện hơn trong các truyền tải thông tin. Khả năng này dễ thấy nhất là trong hoạt động giáo dục, giáo viên, giảng viên có thể nhanh cho cung cấp hình ảnh phù hợp về bài học cho học sinh, sinh viên, giúp thời gian học trở nên sinh động hơn. Các kỹ sư trong ngành kiến trúc, xây dựng có thể thảo luận về các mô hình kiến trúc, mô hình thiết kế một cách trực quan, sinh động hơn.

Tiềm năng phát triển:

- Giải pháp có tiềm năng phát triển cao trong lĩnh vực xử lý hình ảnh, đặc biệt là xây dựng các thư viện hình ảnh đồ họa. - Dễ dàng tích hợp vào các giải pháp phục vụ cho nhiều lĩnh vực khác nhau như giáo dục, kiến trúc, xây dựng, hội họa. - Các nền tảng OpenAI đã và đang được phát triển và tính chính xác ngày cành tăng. Giải pháp hứa hẹn nhiều khả năng mở rộng tính năng như xử lý bằng giọng nói, mở rộng tính năng xây dựng hình ảnh 3-D trực quan.

Tài liệu mô tả kỹ thuật cơ bản và hướng dẫn sử dụng sản phẩm:

https://youtu.be/QI7pKnPFn9U