Thư viện số lưu trữ 1.000 tỷ trang web

Tại thành phố San Francisco, cách cầu Cổng Vàng nổi tiếng vài dãy phố, có một tòa nhà trắng với mặt tiền trang trí 8 cây cột theo kiến trúc Gothic ấn tượng. Từng là nhà thờ của Khoa học Cơ đốc giáo, công trình này giờ trở thành nơi lưu giữ lịch sử Internet quý giá. Bên trong thánh đường, âm thanh của những bài giảng được thay thế bằng tiếng ù ù nhỏ khi máy chủ vận hành.

Tòa nhà trắng là trụ sở của Internet Archive, thư viện số phi lợi nhuận do kỹ sư máy tính Brewster Kahle sáng lập năm 1996. Kahle mua nhà thờ vì nó giống với logo của Internet Archive. Nhưng quan trọng hơn, công trình là biểu tượng của sự trường tồn và gợi nhớ đến Thư viện Alexandria ở Ai Cập.

Trụ sở chính là nơi làm việc của khoảng 200 nhân viên, bao gồm kỹ sư, thủ thư và chuyên viên lưu trữ. Chuyên viên lưu trữ dùng máy móc chuyên dụng để số hóa từng trang sách và phát trực tiếp công việc trên YouTube. Ngoài sách, Internet Archive cũng lưu trữ nhạc, chương trình truyền hình và cả trò chơi điện tử. Đặc biệt, nhà thờ có hơn 100 bức tượng cao một mét của những nhân viên đã làm việc ít nhất ba năm - gợi nhớ đến đội quân đất nung nổi tiếng của Trung Quốc hàng nghìn năm trước.

Khi Kahle bắt đầu xây dựng Internet Archive, lượng trang web được lưu trữ trong một năm chiếm khoảng 2 TB ổ cứng, chỉ bằng dung lượng lưu trữ hiện nay trên iPhone. Nhưng hiện nay, mỗi ngày thư viện số lưu trữ gần 150 TB, tương đương hàng trăm triệu trang web. Qua ba thập kỷ hoạt động, Internet Archive đã hợp tác cùng hơn 1.200 thư viện và viện nghiên cứu để xây dựng thư viện số với sứ mệnh bảo vệ nội dung trực tuyến trước nguy cơ biến mất.

Internet Archive đặt bản sao kho lưu trữ của mình tại nhiều địa điểm trên khắp thế giới nhằm đề phòng hỏa hoạn, thiên tai hoặc vấn đề chính trị làm hư hại máy chủ. Đa số máy chủ nằm trong một nhà kho lớn bên ngoài San Francisco, nhưng một bộ máy chủ được đặt trong thánh đường của nhà thờ với ý nghĩa biểu tượng.

Tháng trước, Internet Archive đạt cột mốc quan trọng khi lưu trữ 1.000 tỷ trang web (webpage). Bộ sưu tập khổng lồ này tương đương khoảng 100.000 TB dữ liệu hay 21,3 triệu đĩa DVD, được xây dựng nhờ Wayback Machine - công cụ cho phép người dùng khám phá phiên bản lưu trữ của các website.

Theo Mark Graham, Giám đốc phụ trách Wayback Machine, công cụ này không chỉ chụp ảnh màn hình trang web mà còn lưu lại cấu trúc kỹ thuật, gồm mã HTML, CSS, java script và nhiều thứ khác, để "phát lại trang web như ban đầu" ngay cả khi máy chủ không còn hoạt động. Ngoài máy chủ "chết", còn nhiều lý do khác khiến các trang web dần biến mất như bản nâng cấp phần mềm làm hỏng đường liên kết hay công ty phá sản.

Không chỉ riêng "Internet cũ" từ những năm 90 hay đầu những năm 2000 mới gặp rủi ro. Nghiên cứu của Trung tâm Nghiên cứu Pew cho thấy, 38% đường liên kết từ năm 2013 và 8% liên kết từ năm 2023 không còn truy cập được vào năm 2024.

Sự "suy thoái kỹ thuật số" này xảy ra ở nhiều không gian trực tuyến. Khi xem xét những liên kết xuất hiện trên trang web chính phủ, tin tức và phần "Tài liệu tham khảo" của Wikipedia mùa xuân năm 2023, Pew phát hiện 23% trang web tin tức và 21% trang web chính phủ chứa ít nhất một liên kết hỏng. 54% các trang Wikipedia cũng có ít nhất một liên kết trong phần "Tài liệu tham khảo" dẫn đến trang không còn tồn tại.

Với mạng xã hội, Pew thu thập bài đăng trên X đầu năm 2023 và theo dõi trong ba tháng. Kết quả, gần 1/5 bài viết không còn hiển thị công khai trên trang chỉ vài tháng sau khi đăng.

Internet Archive "cứu" trung bình 10.000 liên kết hỏng trên các trang Wikipedia mỗi ngày, tổng cộng đến nay lên tới hơn 23 triệu. Kahle cho biết, sự suy thoái kỹ thuật số nhanh chóng là mối đe dọa nghiêm trọng với việc bảo tồn lịch sử. "Chúng ta đang xây dựng nền văn hóa trên cát lún", ông nói với NPR.

Hiện nay, sự phát triển của trí tuệ nhân tạo và chatbot khiến Internet Archive phải thay đổi cách thức ghi lại lịch sử Internet. Ngoài các trang web, thư viện cũng ghi lại nội dung do AI tạo ra, ví dụ như câu trả lời của ChatGPT và phần tóm tắt xuất hiện ở đầu kết quả tìm kiếm của Google. Internet Archive đang thử nghiệm lưu giữ quá trình người dùng nhận thông tin từ chatbot bằng cách đưa ra hàng trăm câu hỏi và lệnh (prompt) mỗi ngày, sau đó lưu lại cả truy vấn lẫn kết quả.

CNN nhận định, việc lưu trữ web đang trở nên quan trọng và khó khăn hơn bao giờ hết. Hồi tháng 1, Nhà Trắng yêu cầu gỡ bỏ hàng loạt trang web chính phủ, khiến nhiều thông tin biến mất. Trong khi đó, AI đang làm mờ ranh giới giữa nội dung thật và giả, đồng thời làm giảm nhu cầu truy cập các trang web. Ngày càng nhiều nội dung trên Internet cũng bị ẩn sau tường phí (paywall) hoặc trong những cuộc trò chuyện với chatbot.

Nhiệm vụ của Internet Archive là tìm cách bảo tồn tất cả lượng thông tin này. Kahle chia sẻ với CNN: "Chúng tôi ở đây để cố gắng cung cấp bản sao lưu về những gì đã xảy ra, giúp mọi người học hỏi và dựa vào đó để xây dựng tương lai tốt đẹp hơn, hoặc phát triển những ý tưởng mới xứng đáng góp mặt trong thư viện số".

Thu Thảo tổng hợp

Nguồn VnExpress: https://vnexpress.net/thu-vien-so-luu-tru-1-000-ty-trang-web-4965084.html

Trí tuệ nhân tạo - AI

Tin liên quan

Thành phố lắp máy lọc không khí ngoài đường

Trong bối cảnh chỉ số chất lượng không khí (AQI) ở mức xấu, vượt 190, Jaipur tiến hành lắp máy lọc không khí ngoài tr

VnExpress 17 giờ trước

Máy bay cánh liền thân hứa hẹn thay đổi ngành hàng không

Theo BBC, ý tưởng về máy bay cánh liền thân (blended-wing aircraft), loại máy bay có cánh và thân hợp nhất v

VnExpress 2 ngày trước

Ảnh chụp người nhảy dù phía trước Mặt Trời thu hút chú ý

Theo IFL Science, alpha hydro là bước sóng ánh sáng đặc biệt, cho phép quan sát lớp hydro hỗn loạn ngay phía

VnExpress 2 ngày trước

Kỳ vọng tỷ đô từ nền kinh tế với thiết bị bay tại Việt Nam

Tại Diễn đàn tổ chức ngày 14/11 tại Hà Nội, giới chuyên môn đặt nhiều kỳ vọng vào kinh tế tầm thấp.

VnExpress 3 ngày trước

Siêu máy tính mạnh nhất châu Âu

Bước đột phá đến từ các nhà nghiên cứu tại Trung tâm Siêu máy tính Jülich (JSC), nơi đặt siêu máy tính Jupiter, khi h

VnExpress 4 ngày trước

Cơn sốt khai thác đất hiếm ở Greenland

Trong khi Mỹ và các nước phương Tây tìm cách phá vỡ thế độc quyền về khai thác và sản xuất đất hiếm của Trung Quốc, m

VnExpress 4 ngày trước

Khai mạc tuần lễ công nghiệp và công nghệ Việt Nam 2025

Sự kiện diễn ra đến hết ngày 15/11 trên quy mô gần 80.000 m2, do Trung tâm Triển lãm Việt Nam (VEC) tổ chức.

VnExpress 5 ngày trước

Giải mã 5.200 hố xếp ngay ngắn trên dãy Andes

Trên núi Monte Sierpe, một phần của dãy Andes thuộc Peru, có khoảng 5.200 hố xếp theo hàng lối gọn gàng.

VnExpress 5 ngày trước

Cáp quang biển - xương sống mong manh của AI và Internet toàn cầu

Cáp ngầm viễn thông thương mại đầu tiên dùng cho điện báo, được đặt xuyên qua eo biển Manche giữa Dover (Anh) và Cala

VnExpress 6 ngày trước

Trung Quốc thử nghiệm robot khai khoáng biển sâu

Interesting Engineering hôm 7/11 đưa tin nhóm nghiên cứu đến từ Trung tâm khai nghiên cứu kỹ thuật khai khoá

VnExpress 1 tuần trước

Trung Quốc thử nghiệm robot khai thác quặng cobalt dưới biển

Interesting Engineering hôm 7/11 đưa tin nhóm nghiên cứu đến từ Trung tâm khai nghiên cứu kỹ thuật khai khoá

VnExpress 1 tuần trước

Phó giáo sư Việt được bầu vào Viện Hàn lâm Pháp

Viện Hàn lâm Văn khắc và Mỹ văn (Académie des Inscriptions et Belles-Lettres - AIBL, thuộc Viện Hàn lâm Pháp) bầu tám

VnExpress 1 tuần trước

Công nghệ làm mát đường tàu điện ngầm

Theo Quartz, mạng lưới tàu điện ngầm chạy qua tầng đất sét dày chuyên hấp thụ nhiệt sinh ra từ tàu.

VnExpress 1 tuần trước

Khác biệt giữa hai robot hình người hàng đầu của Mỹ

Trong nỗ lực chế tạo máy móc có thể đi lại, suy nghĩ và làm việc như con người, robot hình người trở thành một trong

VnExpress 1 tuần trước

Anh xây trang trại điện gió ngoài khơi lớn nhất thế giới

Theo Interesting Engineering, trang trại điện gió Dogger Bank đang trong quá trình xây dựng nằm cách vùng ve

VnExpress 1 tuần trước

Thư viện số lưu trữ 1.000 tỷ trang web

Tin liên quan

Tin nổi bật