Từ 22h40 ngày 4/10 đến gần 5h sáng 5/10, hàng loạt dịch vụ gồm Facebook, Instagram, WhatsApp, Messenger đồng loạt ngừng hoạt động. Đại diện mạng xã hội này cho biết, sai sót khi thay đổi cấu hình bộ định tuyến - được dùng để điều phối thông tin giữa các trung tâm dữ liệu - đã gây ra tình trạng gián đoạn.
Tuy Facebook không chia sẻ thông tin chi tiết, một số chuyên gia công nghệ đã phân tích lưu lượng và đánh giá sự cố liên quan đến BGP - giao thức tìm đường nòng cốt trên Internet.
BGP là gì?
Ở cấp độ cơ bản, BGP là một trong những hệ thống định tuyến mà Internet sử dụng để đưa thiết bị của người dùng truy cập đến website đích càng nhanh càng tốt. Chẳng hạn với Facebook, do có nhiều nhà cung cấp dịch vụ Internet với hệ thống router và máy chủ khác nhau, mỗi thiết bị đều có những đường đi khác nhau để truy cập mạng xã hội. Nhiệm vụ của BGP là "chỉ đường" cho thiết bị để đảm bảo đó là tuyến đường tối ưu nhất.
Tầm quan trọng của BGP được ví như bộ phận kiểm soát không lưu trong ngành hàng không. Tuy nhiên, thực tế vai trò của hệ thống này lớn hơn nhiều, khi có thể vẽ bản đồ và hướng dẫn máy tính, điện thoại truy cập các website, dịch vụ Internet nhanh nhất.
Với BGP, Internet được chia thành các nút mạng lớn gọi là các hệ thống tự trị (Autonomous Systems). Có thể hình dung mỗi điểm nút như một hòn đảo trong quần đảo. Rất khó bắc hết các cây cầu qua các hòn đảo này, nhất là khi khoảng cách giữa chúng quá xa. Câu hỏi đặt ra là làm thế nào để người dùng đi từ đảo A tới đảo X nhanh nhất. Lúc này, BGP chịu trách nhiệm xác định những hòn đảo nào người dùng phải đi qua để đến đích sớm nhất.
Do Internet liên tục thay đổi, bản đồ này cũng được cập nhật theo. Nếu không, hệ thống có thể vẫn dẫn người dùng theo tuyến cũ, trong khi đã có đường mới gần hơn. Việc lập bản đồ Internet là công việc khổng lồ, các Autonomous Systems sẽ "tham khảo" lẫn nhau để quá trình diễn ra nhanh hơn.
Tuy nhiên, sử dụng bản đồ không phải lúc nào cũng đúng. Nó giống trường hợp lái xe đi theo định vị GPS và bị lạc. Nếu một điểm gặp lỗi mà không được phát hiện, khu vực đó sẽ tắc nghẽn và lưu lượng đến máy chủ đích khó khăn hơn.
Ví dụ, một người cần truy cập website A. Máy chủ website này sử dụng dịch vụ của nhà mạng B, còn máy tính của người này lại dùng mạng của nhà cung cấp C. B và C không thể liên lạc trực tiếp mà có thể qua trung gian D hoặc E nào đó đang kết nối với A. Lúc này, BGP sẽ tính toán con đường tối ưu để người dùng truy cập A.
Vấn đề của Facebook
Theo báo cáo của Usenix đầu năm nay, Facebook hiện xây dựng hệ thống BGP riêng, cho phép người dùng truy cập nhanh các dịch vụ của công ty. Trong sự cố hôm qua, Facebook thừa nhận lỗi xảy ra khi họ thay đổi cấu hình bộ định tuyến.
Sự cố được cho là có liên quan đến hệ thống DNS (Domain Name System). Theo giải thích từ hãng bảo mật Cloudflare, DNS cho người dùng biết họ đang đi đâu và BGP chỉ cho họ cách đến đó. DNS đóng vai trò là điểm xuất phát, còn để đến đích, người dùng phải nhờ đến bản đồ BGP. Lỗi BGP có thể đã làm rối các yêu cầu DNS và là lý do toàn bộ dịch vụ Facebook không thể hoạt động.
Theo The Verge, với hệ thống BGP riêng, nhân viên Facebook có thể đã tự tay xóa bỏ loạt dịch vụ của mình do bản cập nhật BGP không hợp lệ. Trên Twitter, John Graham-Cumming, CTO của Cloudflare, cho biết ông đã thấy nhiều bản cập nhật BGP từ Facebook (hầu hết trong số đó bị xóa theo lộ trình) trước khi toàn bộ hệ thống của mạng xã hội này sập.
Giới bảo mật nhận định, Facebook sẽ không dễ khắc phục vấn đề trong thời gian ngắn nếu nó liên quan đến BGP. "Facebook cần đảm bảo họ đang dùng các bản ghi chính xác và các bản ghi đó đã được Internet thu thập, như vậy mọi người mới có thể truy cập dịch vụ trở lại dễ dàng", một chuyên gia nói.
Một sự cố đáng chú ý liên quan đến BGP từng diễn ra vào năm 2008 khi một ISP ở Pakistan vô tình chặn YouTube trên toàn thế giới, dù mục đích của nước này chỉ là cấm người dùng trong nước.
Bảo Lâm (theo The Verge)