فيسبوك تكشف سبب توقف خدماتها: خطأ غير مقصود خلال صيانة دورية

time reading iconدقائق القراءة - 6
شعار شبكة فيسبوك  - Getty Images
شعار شبكة فيسبوك - Getty Images
القاهرة -محمد عادل

كشفت شركة فيسبوك، مساء الثلاثاء، أسباب انقطاع خدماتها لمدة أكثر من 6 ساعات، الاثنين، حيث أشارت الشركة إلى أن العطل نتج عن "خطأ غير مقصود من جانب أحد مهندسيها خلال صيانة دورية لأحد مراكز البيانات"، ما تسبب في قطع اتصال كافة مراكز بيانات الشركة بشبكة الإنترنت.

 وأوضح سانتوش جاناردهان، نائب رئيس قطاع البنية التحتية في فيسبوك، عبر مدونة الشركة، أن المشكلة "وقعت نتيجة خلل في النظام الرئيسي لتنظيم حركة الاتصالات على شبكة مراكز البيانات الرئيسية للشركة، وهذا النظام هو المسؤول عن ربط كافة الوحدات الحاسوبية الرئيسية لفيسبوك، والتي تتكون من عشرات الآلاف من كابلات الألياف الضوئية، والتي تربط مراكز بيانات فيسبوك حول العالم ببعضها البعض".

ولتبسيط فكرة مراكز بيانات فيسبوك المتضررة، قال جاناردهان: "تنقسم مراكز البيانات المتضررة إلى نوعين، بعضها مراكز بيانات عملاقة والتي تحوي أنظمة وآلات عملاقة تعمل على تحليل بيانات ضخمة، وهي المسؤولة عن استمرار عمل أنظمة فيسبوك وخدماته بشكل مستمر وطبيعي، أما النوع الآخر فهو مراكز بيانات صغيرة، وهي تلعب دور توصيل شبكة النظام الرئيسي لمراكز البيانات العملاقة لفيسبوك بشبكة الإنترنت، وبالتالي تضمن وصول عموم المستخدمين إلى خدمات الشركة بسهولة".

ما الذي تسبب في انقطاع الخدمات؟

وعن أسباب انقطاع الخدمات، أوضح نائب مدير فيسبوك للبنية التحتية أنه "عندما يقوم المستخدم بفتح أحد تطبيقات فيسبوك، ويقوم بالدخول إلى الصفحة الرئيسية لتصفح أحدث المنشورات، فإنه يتم إرسال طلب من هاتفه مباشرة إلى أقرب مركز بيانات تابع لفيسبوك بالنسبة إلى موقع المستخدم الجغرافي، وبالتبعية يتم نقل هذا الطلب مباشرة إلى شبكة مراكز البيانات الرئيسية، ومن هنا يتم استرجاع المنشورات المطلوب عرضها، ومن ثم تدخل مباشرة عائدة إلى هاتفك ليتم عرضها على الشاشة أمامك".

"وليتم تنظيم حركة البيانات من وإلى مراكز البيانات الخاصة بخدمات فيسبوك، فإن هناك أجهزة تنظيم لحركة الطلبات والمعلومات Routers، وعلى مدار العمل اليومي لمراكز البيانات، يحتاج فريق الهندسة داخل فيسبوك لعمل صيانة دورية ومستمرة لخطوط كابلات الألياف الضوئية، لضمان عملها بشكل كامل وبأفضل كفاءة ممكنة، ما يضطرهم أحياناً إلى إخراج بعض الأجزاء من الشبكة الرئيسية لمراكز البيانات عن العمل، لإتمام الصيانة"، يضيف مسؤول فيسبوك.

وقال جاناردهان: "هذا تماماً ما تسبب في الانقطاع"، موضحاً أنه خلال عملية الصيانة الدورية، تم إطلاق أمر يهدف إلى اختبار مدى الكفاءة المتوفرة للشبكة الرئيسية لمراكز بيانات فيسبوك، ولكن، "بشكل غير مقصود، تسبب الأمر في قطع اتصال الشبكة الرئيسية بالكامل عن شبكة الإنترنت، ما أدى إلى غياب كافة خدمات فيسبوك عن الشبكة العنكبوتية".

وشرح مدير فيسبوك أنه كان من المفترض أن تقوم أنظمة فيسبوك الإلكترونية بالتأكد من مدى سلامة الأوامر الصادرة إلى الشبكة الرئيسية لمراكز البيانات، إلا أن ثغرة ما في أدوات الاختبار البرمجية تسببت في قصور قدرة الأنظمة عن كشف الأمر الخاطئ وإيقافه قبل تنفيذه.

ومن الأدوار التي تلعبها مراكز البيانات الصغيرة، هو الرد على طلبات ترجمة أنظمة أسماء النطاقات DNS، والتي تتمثل في تحويل أسماء المواقع مثل facebook.com إلى كود رقمي مكون من سلسلة من الأعداد IP Address وهي اللغة التي تفهمها خوادم فيسبوك وكذلك متصفحات الإنترنت، وبعد ذلك يتم الإعلان عن تلك الأكواد الرقمية عبر بروتوكول البوابات الحدودية BGP المنظم لحركة البيانات على الإنترنت.

وركز نائب رئيس قطاع البنية التحتية في فيسبوك، على أنه في حال تم التأكد من أن خوادم DNS لا يمكنها الوصول بشكل طبيعي إلى مراكز البيانات الصغيرة الخاصة بفيسبوك، فإنه يتم سحب الإعلانات الخاصة بالأكواد الرقمية لخدمات فيسبوك من على بروتوكول البوابات الحدودية BGP، وبالتالي أصبحت خوادم فيسبوك غير قابلة للاتصال بها، وعند ذلك أصبح من المستحيل على مستخدمي الإنترنت الوصول إلى خدمات الشركة الزرقاء.

لماذا استغرق حل المشكلة 6 ساعات؟

وبشأن المدة الطويلة التي استغرقها مهندسو فيسبوك لحل العطل، شرح نائب رئيس قطاع البنية التحتية بفيسبوك، أن هناك عقبتين رئيسيتين واجهتا مهندسي فيسبوك لحل المشكلة، الأولى كانت تتمثل في عدم قدرتهم على الاتصال بقواعد البيانات المعطلة من خلال الأدوات البرمجية التقليدية، والسبب في ذلك أن الشبكات المعتمدة عليها تلك الأدوات معطلة، في حين تتمثل الثانية في تعطل خوادم DNS ما تسبب في تعطيل عدد كبير من الأدوات البرمجية التي يعتمد عليها فريق المهندسين لمعالجة مثل تلك المشكلات.

وأشار مسؤول فيسبوك إلى أن تلك العقبتين فرضتا على فريق المهندسين النزول إلى داخل قواعد البيانات لحل المشكلة عبر الاتصال مادياً بأنظمتها، وهو ما استغرق وقتاً طويلاً، نتيجة لأنظمة وإجراءات الحماية والأمان التي تتخذها الشركة، لمنع أي شخص من أي تعديل في تلك الأنظمة، ما يجعل من الصعب جداً القيام بأي تعديلات برمجية على عمل مراكز بياناتها، حتى وإن كان الشخص يقف داخل مركز البيانات بنفسه.

وتابع مسؤول فيسبوك أنه "بعد إتمام كل ذلك على أكمل وجه لم يكن الأمر بالسهل بعد"، موضحاً أن "إعادة كافة مراكز البيانات للعمل من جديد بشكل طبيعي، قد يتسبب في مشكلة أكبر وهو وجود أحمال زائدة مفاجئة نتيجة دخول جميع المستخدمين بشكل فوري إلى حساباتهم على خدمات فيسبوك، ما قد يؤدي إلى تعطل الخوادم من جديد نتيجة للحمل الزائد، إضافة إلى تخوفات متعلقة بالأحمال الكهربائية التي قد تزيد بشكل مفاجئ، ما قد يؤدي لأعطال تضرب مراكز البيانات مرة أخرى، ولكن هذه المرة ستكون بسبب الطاقة".

اقرأ أيضاً: