Tôi tò mò thử mở tập tin này ra xem phần nội dung, vì nghe nói nó được mô tả theo định dạng XML có thể đọc được, và đã có một sự khám phá kinh ngạc.
Tài liệu OOXML lưu nội dung tiếng Việt (TCVN-6909) theo cách mà mỗi một từ tiếng Việt phải đặt trong hàng đống thẻ (tag) XML. Điều này làm cho kích thước văn bản có tiếng Việt tăng khoảng 90-100 lần, so với nội dung mà nó cần chứa đựng.
Đây là đoạn văn bản chứa 4 từ "Hội thảo tại Softmart", trong đó có 3 từ tiếng Việt (13 byte) và một từ tiếng Anh (7 byte).
−
w:cs="Times New Roman"/>
Hội
−< br>
−
w:cs="Times New Roman"/>
−
−
w:cs="Times New Roman"/>
thảo
−
−
w:cs="Times New Roman"/>
−
−
w:cs="Times New Roman"/>
tại
−
− ;
w:cs="Times New Roman"/>
−
−
w:cs="Times New Roman"/>
SoftMart
Đoạn tài liệu trên có độ dài 1847 byte, để chứa nội dung 20 byte. Như vậy cần nhiều hơn đến 1847/20 = 92.35 lần dung lượng cần thiết. (đó là có đến 7 byte tiếng Anh được gói chung nên tỷ lệ mới như vậy).
Chấp nhận định dạng OOXML như một chuẩn tài liệu cho Việt Nam thì thật là một sự lãng phí rất lớn. Lý do là vì:
- Phải mua bản quyền phần mềm MS Office 2007
- Phải tăng dung lượng lưu trữ và xử lý thông tin tiếng Việt lên hàng trăm lần.
Vấn đề này hết sức nghiêm túc. Đề nghị Bộ Khoa học và Công nghệ cần lưu ý khi tham gia bỏ phiếu tại Tổ chức ISO ngày 2/9 sắp tới.