Trong thời đại nhiều trang web biến mất nhanh chóng, thư viện số Internet Archive âm thầm trở thành "pháo đài" lưu giữ lịch sử trực tuyến cho thế giới.

Tại thành phố San Francisco, cách cầu Cổng Vàng nổi tiếng vài dãy phố, có một tòa nhà trắng với mặt tiền trang trí 8 cây cột theo kiến trúc Gothic ấn tượng. Từng là nhà thờ của Khoa học Cơ đốc giáo, công trình này giờ trở thành nơi lưu giữ lịch sử Internet quý giá. Bên trong thánh đường, âm thanh của những bài giảng được thay thế bằng tiếng ù ù nhỏ khi máy chủ vận hành.

Tòa nhà trắng là trụ sở của Internet Archive, thư viện số phi lợi nhuận do kỹ sư máy tính Brewster Kahle sáng lập năm 1996. Kahle mua nhà thờ vì nó giống với logo của Internet Archive. Nhưng quan trọng hơn, công trình là biểu tượng của sự trường tồn và gợi nhớ đến Thư viện Alexandria ở Ai Cập.

Trụ sở chính là nơi làm việc của khoảng 200 nhân viên, bao gồm kỹ sư, thủ thư và chuyên viên lưu trữ. Chuyên viên lưu trữ dùng máy móc chuyên dụng để số hóa từng trang sách và phát trực tiếp công việc trên YouTube. Ngoài sách, Internet Archive cũng lưu trữ nhạc, chương trình truyền hình và cả trò chơi điện tử. Đặc biệt, nhà thờ có hơn 100 bức tượng cao một mét của những nhân viên đã làm việc ít nhất ba năm - gợi nhớ đến đội quân đất nung nổi tiếng của Trung Quốc hàng nghìn năm trước.

Trụ sở của Internet Archive là một nhà thờ cổ ở San Francisco. Ảnh: NPR

Khi Kahle bắt đầu xây dựng Internet Archive, lượng trang web được lưu trữ trong một năm chiếm khoảng 2 TB ổ cứng, chỉ bằng dung lượng lưu trữ hiện nay trên iPhone. Nhưng hiện nay, mỗi ngày thư viện số lưu trữ gần 150 TB, tương đương hàng trăm triệu trang web. Qua ba thập kỷ hoạt động, Internet Archive đã hợp tác cùng hơn 1.200 thư viện và viện nghiên cứu để xây dựng thư viện số với sứ mệnh bảo vệ nội dung trực tuyến trước nguy cơ biến mất.

Internet Archive đặt bản sao kho lưu trữ của mình tại nhiều địa điểm trên khắp thế giới nhằm đề phòng hỏa hoạn, thiên tai hoặc vấn đề chính trị làm hư hại máy chủ. Đa số máy chủ nằm trong một nhà kho lớn bên ngoài San Francisco, nhưng một bộ máy chủ được đặt trong thánh đường của nhà thờ với ý nghĩa biểu tượng.

Tháng trước, Internet Archive đạt cột mốc quan trọng khi lưu trữ 1.000 tỷ trang web (webpage). Bộ sưu tập khổng lồ này tương đương khoảng 100.000 TB dữ liệu hay 21,3 triệu đĩa DVD, được xây dựng nhờ Wayback Machine - công cụ cho phép người dùng khám phá phiên bản lưu trữ của các website.

Theo Mark Graham, Giám đốc phụ trách Wayback Machine, công cụ này không chỉ chụp ảnh màn hình trang web mà còn lưu lại cấu trúc kỹ thuật, gồm mã HTML, CSS, java script và nhiều thứ khác, để "phát lại trang web như ban đầu" ngay cả khi máy chủ không còn hoạt động. Ngoài máy chủ "chết", còn nhiều lý do khác khiến các trang web dần biến mất như bản nâng cấp phần mềm làm hỏng đường liên kết hay công ty phá sản.

Không chỉ riêng "Internet cũ" từ những năm 90 hay đầu những năm 2000 mới gặp rủi ro. Nghiên cứu của Trung tâm Nghiên cứu Pew cho thấy, 38% đường liên kết từ năm 2013 và 8% liên kết từ năm 2023 không còn truy cập được vào năm 2024.

Sự "suy thoái kỹ thuật số" này xảy ra ở nhiều không gian trực tuyến. Khi xem xét những liên kết xuất hiện trên trang web chính phủ, tin tức và phần "Tài liệu tham khảo" của Wikipedia mùa xuân năm 2023, Pew phát hiện 23% trang web tin tức và 21% trang web chính phủ chứa ít nhất một liên kết hỏng. 54% các trang Wikipedia cũng có ít nhất một liên kết trong phần "Tài liệu tham khảo" dẫn đến trang không còn tồn tại.

Với mạng xã hội, Pew thu thập bài đăng trên X đầu năm 2023 và theo dõi trong ba tháng. Kết quả, gần 1/5 bài viết không còn hiển thị công khai trên trang chỉ vài tháng sau khi đăng.

Mark Graham chỉ vào bức tượng giống ông tại trụ sở Internet Archive. Ảnh: NPR

Internet Archive "cứu" trung bình 10.000 liên kết hỏng trên các trang Wikipedia mỗi ngày, tổng cộng đến nay lên tới hơn 23 triệu. Kahle cho biết, sự suy thoái kỹ thuật số nhanh chóng là mối đe dọa nghiêm trọng với việc bảo tồn lịch sử. "Chúng ta đang xây dựng nền văn hóa trên cát lún", ông nói với NPR.

Hiện nay, sự phát triển của trí tuệ nhân tạo và chatbot khiến Internet Archive phải thay đổi cách thức ghi lại lịch sử Internet. Ngoài các trang web, thư viện cũng ghi lại nội dung do AI tạo ra, ví dụ như câu trả lời của ChatGPT và phần tóm tắt xuất hiện ở đầu kết quả tìm kiếm của Google. Internet Archive đang thử nghiệm lưu giữ quá trình người dùng nhận thông tin từ chatbot bằng cách đưa ra hàng trăm câu hỏi và lệnh (prompt) mỗi ngày, sau đó lưu lại cả truy vấn lẫn kết quả.

CNN nhận định, việc lưu trữ web đang trở nên quan trọng và khó khăn hơn bao giờ hết. Hồi tháng 1, Nhà Trắng yêu cầu gỡ bỏ hàng loạt trang web chính phủ, khiến nhiều thông tin biến mất. Trong khi đó, AI đang làm mờ ranh giới giữa nội dung thật và giả, đồng thời làm giảm nhu cầu truy cập các trang web. Ngày càng nhiều nội dung trên Internet cũng bị ẩn sau tường phí (paywall) hoặc trong những cuộc trò chuyện với chatbot.

Nhiệm vụ của Internet Archive là tìm cách bảo tồn tất cả lượng thông tin này. Kahle chia sẻ với CNN: "Chúng tôi ở đây để cố gắng cung cấp bản sao lưu về những gì đã xảy ra, giúp mọi người học hỏi và dựa vào đó để xây dựng tương lai tốt đẹp hơn, hoặc phát triển những ý tưởng mới xứng đáng góp mặt trong thư viện số".

Thu Thảo tổng hợp