1-1 مجموعه‌ داده‌ی ارزیابی

در این بخش، مجموعه‌های داده‌ی رایج برای ارزیابی روش‌های مدیریت هشدارها بررسی می‌شوند. ساختار و مطالب در این بخش، به کمک [S. X. Wu & Banzhaf, 2010] تدوین شده است.

از آن جایی که مدل‌های الگوریتم‌های داده‌کاوی با استفاده از داده‌ها تولید می‌شوند، بنابراین کیفیت داده‌ها به طور مستقیم بر کیفیت مدل‌ها تأثیر می‌گذارد. در بیشتر کارهایی که در گذشته انجام شده است، داده‌ها از سه منبع جمع‌آوری شده است: بسته‌های داده‌های شبکه، دنباله‌های دستورات ورودی کاربر، و اطلاعات سطح پایین سیستم، نظیر دنباله‌ی فراخوانی‌های سیستمی، فایل‌های ثبت وقایع، گزارشات ثبت خطاهای سیستمی، و نحوه‌ی استفاده از CPU و حافظه. جدول ‏5‑1، خلاصه‌ای از مجموعه داده‌های رایج را در زمینه‌ی تشخیص نفوذ، خلاصه می‌کند.

جدول ‏5‑1: خلاصه‌ای از مجموعه داده‌های رایج در زمینه‌ی تشخیص نفوذ [S. X. Wu & Banzhaf, 2010]

منبع داده نام مجموعه‌ی داده نام اختصاری
ترافیک شبکه DARPA 1998 TCPDump Files DARPA98
DARPA 1999 TCPDump Files DARPA99
KDD 99 Dataset KDD99
10% KDD99 Dataset KDD99-10
Internet Exploration Shootout Dataset IES
رفتار کاربر UNIX User Dataset UNIXDS
دنباله‌ی فراخوانی‌های سیستمی DARPA 1998 BSM Files BSM98
DARPA 1999 BSM Files BSM99
University of New Mexico Dataset UNM

1-1-1 مجموعه‌های داده‌ی DARPA-Lincoln و مجموعه داده‌ی KDD99

در سال 1998، آزمایشگاه لینکلن MIT اولین و گسترده‌ترین پروژه‌ی تحقیقاتی را برای ارزیابی کارایی روش‌های مختلف تشخیص نفوذ، تحت حمایت DARPA ITO و Air Force Research Laboratory اجرا نمود. این مجموعه داده، شامل شبیه‌سازی 7 هفته داده‌ی آموزش و 2 هفته داده‌ی آزمون می‌باشد. داده‌های حمله شامل بیش از 300 نمونه از 38 نوع حمله‌ی مختلف علیه میزبان‌های UNIX می‌باشند و در یکی از 4 نوع Denial of Service (DoS)، Probe، U2R (User to Root)، و R2L (Remote to Local) جای می‌گیرند. برای هر هفته، داده‌های ترافیک خارجی و داخلی شبکه، داده‌های بازبینی ثبت‌شده توسط Basic Security Module (BSM) متعلق به Sun Microsystems بر روی میزبان‌های Solaris، و رونوشت‌های[1] سیستم فایل میزبان‌های UNIX جمع‌آوری شده‌اند. در سال 1999 نیز این ارزیابی توسط آزمایشگاه لینکلن انجام گرفت. این بار، 3 هفته داده‌ی آموزش و 2 هفته داده‌ی آزمون تولید شدند. این داده‌ها، شامل بیش از 200 نمونه از 58 نوع حمله‌ی مختلف علیه میزبان‌های UNIX و Windows NT و یک مسیریاب Cisco می‌باشند. به علاوه، داده‌های بازبینی میزبان به سیستم‌های Windows NT تعمیم داده شدند. در سال 2000، 3 مجموعه داده‌ی مبتنی بر سناریو نیز تولید شدند تا حملات DDoS و Windows NT را نیز شامل شوند. توضیحات کامل در رابطه با این مجموعه‌های داده را می‌توان در [DARPA, 1998] یافت.

مجموعه داده‌ی KDD99 در سال 1999 از مجموعه داده‌ی ترافیک شبکه‌ی DARPA98 مشتق شد. این کار، به کمک یک نرم‌افزار انجام شد که بسته‌های جداگانه‌ی TCP[2] را به اتصالات TCP نگاشت می‌نمود. این مجموعه داده، به عنوان مجموعه داده‌ی معیار در International Knowledge Discovery and Data Mining Tools Competition مورد استفاده قرار گرفت. این مجموعه داده، رایج‌ترین مجموعه داده‌ی استفاده‌شده در زمینه‌ی تشخیص نفوذ می‌باشد. هر اتصال TCP شامل 41 ویژگی و یک برچسب می‌باشد که وضعیت هر اتصال را تعیین کرده و مشخص می‌کند که آیا این اتصال، یک اتصال عادی است و یا نوع خاصی حمله. 38 ویژگی عددی و 3 ویژگی نمادی[3] وجود دارد که در یکی از 4 دسته‌ی زیر قرار می‌گیرند:

  • ویژگی‌های پایه: 9 ویژگی پایه برای توصیف هر اتصال TCP استفاده شده است.
  • ویژگی‌های محتوا: 13 ویژگی با استفاده از دانش دامنه مورد استفاده قرار گرفته است که رفتارهای غیرعادی را که الگوهای ترتیبی در ترافیک شبکه ندارند، مشخص می‌کند.
  • ویژگی‌های ترافیکی مبتنی بر زمان: 9 ویژگی مورد استفاده قرار گرفته است تا به ازای هر اتصال، اتصالاتی را که طی 2 ثانیه‌ی گذشته دارای میزبان مقصد یا سرویس یکسان با اتصال مورد نظر هستند، خلاصه نماید.
  • ویژگی‌های ترافیکی مبتنی بر میزبان: 10 ویژگی با استفاده از پنجره‌ای به اندازه‌ی 100 اتصال به یک میزبان ساخته شده است. در این مورد، از پنجره‌ی زمانی استفاده نشد، چرا که حملات پویش آهسته[4] ممکن است فاصله‌ی زمانی بسیار بیشتری نسبت به 2 ثانیه داشته باشند.

داده‌های آموزش از 4.940.000 نمونه‌ی داده شامل ترافیک عادی شبکه و 24 نوع حمله، تشکیل شده است. مجموعه‌ی آزمون، از 311.029 نمونه‌ی داده شامل 38 نوع حمله تشکیل شده است که 14 نوع از این حملات درون مجموعه‌ی آموزش وجود ندارد. این مجموعه‌ی داده بسیار بزرگ است، به همین خاطر، اغلب 10% داده‌های آموزش KDD99 مورد استفاده قرار می‌گیرند. توضیحات مفصلی در رابطه با این مجموعه داده را می‌توان در [KDD’99, 1999] یافت.

مک‌هیو در سال 2000 در [McHugh, 2000]، انتقادات جامعی را بر مجموعه داده‌ی DARPA وارد کرد و استدلال کرد که برخی از روش‌هایی که در ارزیابی لینکلن به کار گرفته‌شده‌اند، سؤال‌برانگیز بوده و قابلیت این را داشته‌اند که نتایج ارزیابی را متأثر سازند. به عنوان مثال، داده‌های عادی و حمله، نرخ‌های داده‌ای غیر واقعی دارند، مجموعه‌های داده‌ی آموزش برای تشخیص ناهنجاری، برای رسیدن به اهداف این نوع تشخیص، کافی نیستند، و تا کنون، تلاشی انجام نشده است تا نشان دهد که رفتار تولید هشدار غلط در سیستم‌های تشخیص نفوذ مورد بررسی، بر روی داده‌های واقعی و داده‌های تولیدشده، تقریباً یکسان است. ماهونی و چان در [Mahoney & Chan, 2003]، نتایج مک‌هیو را با اجرای آزمایشات خود تأیید کردند و نشان دادند که بسیاری از ویژگی‌ها در شبیه‌سازی، دامنه‌ای محدود و کوچک داشته‌اند، درحالی‌که در ترافیک واقعی، دارای دامنه‌ی وسیع هستند.

از آن جایی که مجموعه داده‌ی KDD99 از DARPA مشتق شده است، بنابراین محدودیت‌های مذکور را نیز به ارث می‌برد. علاوه بر آن، تحقیقات [Sabhnani & Serpen, 2004] بیان می‌نماید که «داده‌های آموزش و آزمون KDD، فرضیه‌های ناهمسانی را برای هدف حمله‌های نوع U2R و R2L ارائه می‌کند». بر اساس تحلیل مؤلفان مقاله‌ی مذکور، 4 حمله‌ی جدید U2R در داده‌های آزمون وجود دارد که 80% کل داده‌های U2R را در داده‌های آزمون تشکیل می‌دهند. به طور مشابه، 7 حمله‌ی جدید R2L در داده‌های آزمون وجود دارد که بیش از 60% داده‌های R2L را در کل داده‌های آزمون تشکیل می‌دهند. این نتیجه به خوبی دلیل این مطلب را نشان می‌دهد که چرا نتایج تشخیص برای حملات U2R و R2L در اغلب سیستم‌های تشخیص نفوذ، رضایت‌بخش نیست.

با وجود تمامی این انتقادات، هر دو مجموعه‌های داده‌ی DARPA-Lincoln و KDD99، هنوز به عنوان بزرگ‌ترین مجموعه‌های داده‌ی موجود و پیچیده‌ترین داده‌های معیار برای ارزیابی الگوریتم‌های تشخیص نفوذ یا الگوریتم‌های یادگیری ماشین به شمار می‌روند.

1-1-2 داده‌های Internet Exploration Shootout Dataset

Internet Exploration Shootout Dataset پروژه‌ی دیگری است که سعی در ارزیابی روش‌های مختلف اکتشاف داده[5] دارد. این مجموعه‌ی داده، از یک مجموعه‌ی عادی و 4 مجموعه‌ی حمله، شامل IP spoofing، حدس کلمات عبور rlogin یا ftp، حملات پویش، و حملات Network Hopping، تشکیل شده است. داده‌های این مجموعه، در طی 16 دقیقه با استفاده از TCPDump بر روی شبکه‌ی MITRE Corp. جمع‌آوری شده است. فقط بسته‌های TCP و UDP[6] با 13 ویژگی جمع‌آوری شده است. اطلاعات بیشتر را در رابطه با این مجموعه داده در [IES, 1995] می‌توان یافت. [Balthrop, Forrest & Glickman, 2002] این مجموعه داده را مورد تردید قرار می‌دهد، چرا که «این مجموعه داده فقط در طول حدوداً 16 دقیقه جمع‌آوری شده است که زمان کافی برای شناخت معقول رفتار عادی به حساب نمی‌آید».

1-1-3 سایر مجموعه داده‌های رایج

سایر داده‌های مورد استفاده شامل مجموعه داده‌ی University of New Mexico و مجموعه داده‌ی کاربری UNIX می‌باشد. UNM توسط تیم استفانی فورست در دانشگاه نیو مکزیکو ارائه شده است. این تیم، چندین مجموعه داده را از فراخوانی‌های سیستمی اجراشده توسط نرم‌افزارهای مختلف، جمع‌آوری نموده است [UNM, 1994]. UNIXDS شامل 9 مجموعه از داده‌های کاربری است که از پیشینه‌ی[7] فرامین 8 کاربر کامپیوتر UNIX در دانشگاه پردو، در طول 2 سال، استخراج شده است [UNIXDS, 1998].

1-1-4 مجموعه داده‌های تولیدشده‌ی دیگر

از آن جایی که مجموعه داده‌های معرفی‌شده نقایصی دارند، گاهی خود محققان مجموعه داد‌هایی را تولید می‌کنند. اما در محیط شبکه‌ی واقعی، به سختی می‌توان تضمین نمود که داده‌هایی که عادی تلقی می‌شوند، حقیقتاً خالی از هر گونه نفوذی هستند. رویکرد [Rhodes, Mahaffey & Cannady, 2000] می‌تواند ناهنجاری‌ها را از داده‌های آموزش جدا نماید. دلیل دیگری که برای تولید مجموعه داده وجود دارد، ناقص بودن مجموعه‌های یادگیری است که دقت سیستم‌های تشخیص نفوذ را کاهش می‌دهد. به همین دلیل، داده‌های مصنوعی تولیدشده و درون مجموعه‌های یادگیری ادغام می‌شوند. در ارزیابی پژوهش حاضر، از داده‌های شبکه‌ی واقعی نیز استفاده شده است. فرآیند آموزش مؤلفه‌ها در این حالت، در ابتدا با استفاده از داده‌های DARPA 1999، و سپس با استفاده از خروجی رویکرد انجام شده است.

1-2 معیارهای ارزیابی کارایی

اثربخشی یک IDS با توانایی آن در انجام درست دسته‌بندی ارزیابی می‌شود. با توجه به ماهیت حقیقی یک رویداد مفروض و پیش‌بینی یک IDS در مورد آن، 4 نتیجه‌ی ممکن در جدول ‏5‑2 نشان داده شده است که به عنوان ماتریس درهم‌ریختگی[8] شناخته می‌شود. منفی‌های درست و مثبت‌های درست مطابق با کارکرد صحیح IDS هستند؛ یعنی زمانی که رویدادها به طور موفقیت‌آمیز به صورت «عادی» و «حمله» برچسب‌گذاری می‌شوند. مثبت‌های غلط زمانی رخ می‌دهند که رویدادهای عادی به صورت حمله شناخته می‌شوند و منفی‌های غلط نیز زمانی هستند که رویدادهای حمله به اشتباه به صورت عادی تلقی می‌شوند.

جدول ‏5‑2: ماتریس درهم‌ریختگی [S. X. Wu & Banzhaf, 2010]

دسته‌ی پیش‌بینی‌شده
دسته‌ی منفی

(عادی)

دسته‌ی مثبت

(حمله)

دسته‌ی حقیقی دسته‌ی منفی

(عادی)

منفی درست

(TN[9])

مثبت غلط

(FP[10])

دسته‌ی مثبت

(حمله)

منفی غلط

(FN[11])

مثبت درست

(TP[12])

با توجه به ماتریس درهم‌ریختگی، عموماً از معیارهای زیر برای اندازه‌گیری کارایی سیستم‌های تشخیص نفوذ استفاده می‌شود:

  • نرخ منفی درست (TNR[13]): ، که از آن تحت عنوان «ثبات»[14] نیز یاد می‌شود.
  • نرخ مثبت درست (TPR[15]): ، که با عنوان نرخ تشخیص (DR[16]) یا «حساسیت»[17] نیز شناخته می‌شود. در مبحث بازیابی اطلاعات[18]، به آن «یادآوری»[19] گفته می‌شود.
  • نرخ مثبت غلط (FPR[20]): ، که از آن تحت عنوان نرخ هشدار غلط (FAR[21]) نیز یاد می‌شود.
  • نرخ منفی غلط (FNR[22]): .
  • صحت[23]: .
  • دقت[24]: ، که یک واژه‌ی دیگر از مبحث بازیابی اطلاعات است و اغلب به همراه «یادآوری» می‌آید.

با توجه به اینکه هدف اصلی این پژوهش، کاهش حجم هشدارها و کاهش نرخ هشدارهای غلط می‌باشد؛ به منظور ارزیابی کارایی رویکرد و مقایسه آن با برخی پژوهش‌های انجام‌شده در این زمینه، شاخص‌های زیر تعریف شده و به کار گرفته خواهند شد.

  • نرخ کاهش هشدارها (RR[25]): این شاخص به نسبت میزان هشدارهای کاهش‌یافته به کل هشدارها، اشاره دارد. رابطه‌ی ‏5‑1 نحوه‌‌ی محاسبه‌ی‌ این شاخص را نشان می‌دهد. تعداد کل هشدارها که به صورت #alerts نشان داده می‌شود، به تعداد هشدارهای تولیدشده توسط IDS، اشاره دارد. #output alerts به تعداد هشدارهای نهایی به دست آمده از پردازش هشدارها، توسط رویکرد ارائه‌شده، اشاره دارد. میزان هشدارهای کاهش‌یافته، از تفاضل تعداد هشدارهای نهایی از کل هشدارها به دست می‌آید.
رابطه‌ی ‏5‑1
  • نرخ کاهش هشدارهای غلط (FPRR[26]): این شاخص به نسبت میزان هشدارهای غلط کاهش‌یافته به کل هشدارهای غلط تولیدشده توسط IDS قبل از اعمال رویکرد (#FP alerts)، اشاره دارد. رابطه‌ی ‏5‑2 نحوه‌ محاسبه‌ این شاخص را نشان می‌دهد. #output FP alerts به تعداد هشدارهای غلط تشخیص داده شده، پس از پردازش هشدارها توسط رویکرد ارائه‌شده، اشاره دارد. میزان هشدارهای غلط کاهش‌یافته، از تفاضل تعداد هشدارهای غلط خروجی از کل هشدارهای غلط، به دست می‌آید.
رابطه‌ی ‏5‑2

1-3 IDS مورد استفاده جهت ارزیابی

برای ارزیابی راهکار باید آن را بر روی هشدارهای تولیدشده توسط یک سیستم تشخیص نفوذ در یک شبکه اعمال کرده و نتایج حاصل را با قبل از استفاده از راهکار و با نتایج برخی کارهای پیشین در این زمینه مقایسه کرد. برای این منظور به یک سیستم تشخیص نفوذ و یک شبکه برای قرار دادن سیستم تشخیص نفوذ در آن جهت نظارت بر بسته‌های شبکه نیاز می‌باشد. سیستم‌های تشخیص نفوذ متعددی وجود دارند که برخی سخت‌افزاری و برخی نرم‌افزاری می‌باشند. از میان آن‌ها می‌توان به Cisco PIX، McAfee IntruShield، Snort، و OSSEC اشاره کرد. از میان سیستم‌های ذکرشده سیستم انتخابی برای استفاده در آزمون‌های این پژوهش، نرم‌افزار Snort [Snort] می‌باشد. Snort یک سیستم تشخیص نفوذ نرم‌افزاری متن‌باز[27] می‌باشد، از این رو دستیابی و استفاده از آن به مراتب راحت‌تر از سایر محصولات می‌باشد. همچنین، از این محصول به صورت بسیار رایج در محیط‌های واقعی استفاده می‌شود. به علاوه، بسیاری از مقالات و کارهای پیشین انجام‌شده در زمینه سیستم‌های تشخیص نفوذ از این محصول برای ارزیابی راهکار خود استفاده کرده‌اند و استفاده از آن باعث می‌شود که مرجعی مناسبی برای مقایسه راهکار ارائه‌شده با سایر راهکارها و کارهای پیشین انجام‌شده در این زمینه وجود داشته باشد.

1-4 پیاده‌سازی آزمایشی رویکرد پیشنهادی

برای ارزیابی کارایی رویکرد پیشنهادی، این رهیافت، با استفاده از زبان C#.NET در محیط Microsoft Visual Studio پیاده‌سازی شده است. استفاده از زبان C# برای پیاده‌سازی آزمایشی، به دلیل سرعت اجرای برنامه‌های تولیدی در این زبان و همچنین، کتاب‌خانه‌ی غنی این زبان، بوده است.

1-5 نتایج ارزیابی با استفاده از مجموعه داده‌ی DARPA 1999

در این قسمت نحوه‌ی ارزیابی سیستم توسط مجموعه داده‌ی DARPA 1999 توضیح داده می‌شود. همان طوری که در بخش‌های قبل نیز عنوان شد، مجموعه داده‌ی DARPA 1999، با وجود انتقادات فراوان، رایج‌ترین مجموعه‌ی داده برای ارزیابی می‌باشد. به همین دلیل، این مجموعه‌ی داده برای ارزیابی انتخاب شده است تا امکان مقایسه با کارهای قبلی، فراهم گردد. همبندی شبکه‌ای که این مجموعه داده برای آن شبیه‌سازی شده است، در شکل ‏5‑1 نشان داده شده است.

شکل ‏5‑1: همبندی شبکه‌ی DARPA 1999

به منظور اعمال الگوریتم ارائه‌شده بر مجموعه داده DARPA 1999، در اولین مرحله ترافیک داخلی مربوط به پنج هفته را دریافت و برای تشخیص حملات، Snort را به طور جداگانه بر روی هر هفته اجرا می‌کنیم. نتایج به دست آمده در این مرحله، میزان #alerts (تعداد کل هشدارهای تولیدشده توسط IDS بدون اعمال راهکار) را برای هر هفته نشان می‌دهد.

ورودی دیگر الگوریتم، سلسله‌مراتب مربوط به ویژگی‌های هشدار می‌باشد که بر اساس همبندی ارائه‌شده در شکل ‏5‑1 و لیست آدرس‌های IP تعریف شده، به صورت نشان داده ‌شده در شکل ‏5‑2 و شکل ‏5‑3 می‌باشد.

شکل ‏5‑2: سلسله‌مراتب آدرس‌های IP، در مجموعه داده‌ی DARPA 1999

شکل ‏5‑3: سلسله‌مراتب درگاه، در مجموعه داده‌ی DARPA 1999

قدم بعدی تعیین آخرین ورودی الگوریتم، یعنی پارامتر حد آستانه  می‌باشد. تعیین مقدار  بسیار وابسته به اولویت‌ها و شناخت مدیر شبکه از توپولوژی سازمان می‌باشد؛ از این‌رو مقدار ثابت و منحصر به‌ فردی برای این پارامتر قابل تعریف نیست. مقدار انتخابی این پارامتر در خروجی سیستم تأثیر بسزایی دارد که این رابطه در ادامه بیشتر توضیح داده خواهد شد. در نهایت پس از مقداردهی به ورودی‌ها، الگوریتم بر روی جدول هشدارها اعمال خواهد شد. خروجی الگوریتم (#output alerts)، جدول هشدارهای تعمیم‌یافته (مرکز خوشه‌ها) می‌باشد. به ازای هر هشدار تعمیم‌یافته، خوشه‌ی متناظر و هشدارهای متعلق به آن خوشه نشان داده می‌شود.

همان طور که گفته شد، مقدار انتخابی پارامتر  تأثیر بسزایی در خروجی الگوریتم دارد. تعیین مقدار  بسیار وابسته به اولویت‌های مدیر شبکه می‌باشد. در آزمایش‌های انجام‌شده، تأثیر مقادیر متفاوت  بر خروجی سیستم، تست و ارزیابی شد. هر چه مقدار  کوچک‌تر انتخاب شود، تعداد خوشه‌ها بیشتر و تعداد هشدارهای متعلق به هر خوشه کمتر می‌شود؛ از طرفی هشدار تعمیم‌یافته به ازای هر خوشه خاص‌تر و شامل اطلاعات بیشتری درباره علت هشدار خواهد بود. بر عکس، هر چه مقدار  بزرگ‌تر انتخاب شود، تعداد خوشه‌ها کاهش یافته، هشدارهای متعلق به هر خوشه بیشتر می‌شود و هشدار تعمیم‌یافته به ازای هر خوشه کلی‌تر و اطلاعات کمتری از دلیل هشدار ارائه می‌دهد.

در ادامه به منظور ارزیابی تأثیر سیستم بر روی کاهش نرخ هشدارها و کاهش نرخ هشدارهای غلط و تکراری، الگوریتم را بر روی هشدارهای ورودی (#alerts) تولیدشده به ازای ترافیک هر هفته اعمال کرده و از نتایج به دست آمده در هر هفته، برای افزایش کیفیت هشدارها در هفته‌های بعدی استفاده می‌کنیم. بدین ترتیب به ازای دسته تشخیص داده شده برای هشدارهای تعمیم‌یافته، تنظیمات Snort را برای ترافیک هفته بعد به‌روز کرده و تغییرات را بررسی می‌کنیم. نتایج و ارزیابی‌های انجام‌شده برای هر هفته به طور خلاصه در جدول ‏5‑3 نشان داده شده است. نمودار ارزیابی راهکار نیز بر اساس نتایج ارائه‌شده در جدول ‏5‑3، در شکل ‏5‑4 نشان داده شده است. میانگین نرخ کاهش هشدارها، 93.50% و میانگین نرخ کاهش هشدارهای غلط، 93.62% می‌باشد.

 

جدول ‏5‑3: ارزیابی نتایج رویکرد پیشنهادی در مجموعه داده‌ی DARPA 1999

هفته‌ اول هفته‌ دوم هفته سوم هفته چهارم هفته پنجم
# هشدارها (alerts) 104 7512 82 260 6090
# هشدارهای غلط (FP alerts) 104 464 82 219 4385
# هشدارهای خروجی  (output alerts) 18 12 9 10 12
# هشدارهای غلط خروجی (output FP alerts) 18 6 9 5 2
نرخ کاهش هشدارها – RR (%) 82.69% 99.84% 89.02% 96.15% 99.80%
نرخ کاهش هشدارهای غلط – FPRR (%) 82.69% 98.71% 89.02% 97.72% 99.95%

 

شکل ‏5‑4: نمودار نتایج ارزیابی رویکرد پیشنهادی، در مجموعه داده‌ی DARPA 1999

1-6 نتایج ارزیابی در محیط شبکه‌ی واقعی

به منظور ارزیابی عملکرد رویکرد پیشنهادی در یک شبکه واقعی، از ترافیک شبکه‌ی اداره‌ی بنادر و دریانوردی شهید رجایی استفاده شده است. بدین منظور، سیستم تشخیص نفوذ Snort برای تشخیص حملات در شبکه قرار داده می‌شود و مجموعه هشدارهای تولیدشده برای ارزیابی راهکار به کار گرفته می‌شوند. در این آزمون از هشدارهای تولیدشده به مدت سه روز برای ارزیابی راهکار استفاده شده است. ساختار و توپولوژی شبکه تحت نظارت، برای تعریف سلسله‌مراتب به‌کاررفته در راهکار، استخراج و بکار گرفته شده است؛ اما به دلیل مسائل امنیتی، ارائه‌ی اطلاعات مربوط به ساختار و سلسله‌مراتب شبکه‌ی اداره‌ی بنادر و دریانوردی شهید رجایی ممکن نیست. نتایج به دست آمده از ارزیابی راهکار در مجموعه داده شبکه واقعی، در جدول ‏5‑4 و شکل ‏5‑5 فراوان می‌باشد. لازم به ذکر است که به دلیل استفاده از داده‌های واقعی، مسائل امنیتی، و محدودیت زمانی آزمایش، امکان شمارش هشدارهای غلط وجود ندارد و صرفاً می‌توان نرخ کاهش هشدارها را گزارش نمود. نتایج ارزیابی نشان می‌دهد که در شبکه واقعی میانگین نرخ کاهش کلی هشدارها برابر 94.32% می‌باشد.

جدول ‏5‑4: ارزیابی نتایج رویکرد پیشنهادی، در شبکه واقعی

روز اول روز دوم روز سوم
# هشدارها (alerts) 9637 8356 8991
# هشدارهای خروجی (output alerts) 616 423 502
نرخ کاهش هشدارها – RR (%) 93.61% 94.94% 94.42%

 

شکل ‏5‑5: نمودار نتایج ارزیابی رویکرد پیشنهادی، در شبکه‌ی واقعی

1-7 نتایج مقایسه‌ی راهکار پیشنهادی با کارهای پیشین

در این قسمت نتایج به دست آمده از ارزیابی راهکار، با نتایج برخی از راهکارهای پیشین و پژوهش‌های انجام‌شده در این زمینه، مقایسه می‌شود. جدول ‏5‑5 نشان‌دهنده‌ی مقایسه‌ی نرخ کاهش هشدار، بین راهکارهای مختلف در مجموعه داده‌ی DARPA می‌باشد. در این مقایسه مقادیر ارائه‌شده برای راهکار پیشنهادی، بر مبنای میانگین نتایج به دست آمده در مجموعه داده‌ی DARPA 1999 می‌باشد.

جدول ‏5‑5: مقایسه‌ی رویکرد پیشنهادی با کارهای پیشین

# هشدارها  مدت زمان  RR (%)
Julisch 59812 5 هفته 53%
Perdisci 52540 3 روز 58.9%
Pietraszek 59812 5 هفته 60%
Valeur 7985 2 هفته 67.8%
Al-Mamory 233615 5 هفته 69.9%
مکاریان 14048 5 هفته 94.8%
رویکرد پیشنهادی 14048 5 هفته 93.50%

همان طور که از اطلاعات ارائه‌شده در جدول مشخص می‌باشد، هشدارهای مورد بررسی و زمان آزمون در راهکارهای مختلف متفاوت می‌باشد. از این‌رو نتیجه‌ به دست آمده، یک بررسی و مقایسه نسبی بوده و برای رسیدن به یک نتیجه و قضاوت نهایی و برای عادلانه بودن مقایسه، لازم است که آزمونی دقیق‌تر در شرایط مشابه (یعنی زمان آزمون برابر و مجموعه هشدارهای یکسان) با هر یک از راهکارهای ارائه‌شده انجام شود. اما از آنجا که راهکارهای مختلف، جزییات شرایط آزمون خود را عموماً ارائه نمی‌کنند؛ ارائه چنین مقایسه‌ای با محدودیت مواجه است. اگرچه نتایج جدول ‏5‑5، نشان می‌دهد که راهکار مکاریان به صورت جزئی بهتر از رویکرد پیشنهادی این پژوهش بر روی DARPA 1999 عمل کرده است، اما این مسأله به دلیل قرار دادن پنجره‌ی زمانی برای واحد تجمیع در الگوریتم می‌باشد که موجب می‌شود تعداد هشدارهای نهایی سیستم، اندکی افزایش یابد؛ با این حال، همان طوری که در فصل قبل اشاره شد، بایستی توجه کرد که این افزایش، در راستای بهبود کیفیت هشدارهای نهایی است و در نتیجه، این مقایسه، نمی‌تواند برتری رویکرد پیشنهادی را به خوبی نشان دهد. در مقابل، در مقایسه‌ی نتایج ارزیابی بر روی شبکه‌ی واقعی، این پژوهش به نرخ کاهش کلی هشدارها برابر با 94.32% دست یافته است که در مقابل نتیجه‌ی مکاریان، 89.83%، بهبود قابل‌توجهی را نشان می‌دهد.

1-8 جمع‌بندی

این فصل، نتایج ارزیابی رویکرد پیشنهادی را ارائه نمود. در ابتدا، مجموعه‌های مختلف داده‌ی ارزیابی معرفی شد. سپس، معیارهایی برای ارزیابی رویکرد پیشنهادی تعریف شد. در نهایت، نتایج ارزیابی رویکرد پیشنهادی، با استفاده از مجموعه‌داده‌ی DARPA 1999 و ترافیک شبکه‌ی اداره‌ی بنادر و دریانوردی شهید رجایی، نشان داده شد. بر این اساس، رویکرد پیشنهادی به میانگین نرخ کاهش هشدارهای 93.50% و میانگین نرخ کاهش هشدارهای غلط 93.62% دست یافته است. مقایسه‌ی نتایج ارزیابی رویکرد پیشنهادی با کارهای قبلی در شبکه‌ی واقعی، بهبود قابل‌توجهی را نشان می‌دهد. به خصوص، میانگین نرخ کاهش هشدارها در این رهیافت، برابر 94.32% شده است که نسبت به کار مکاریان، 89.83%، بهبود قابل‌توجهی است.

 

فصل 2              نتیجه‌گیری و پیشنهادها

 

 

2-1 مقدمه

سرعت زیاد رشد و توسعه‌ی اینترنت و کاربردهای مبتنی بر آن، در سراسر دنیا و همچنین، در ایران، بر کسی پوشیده نیست. همچنان که تعداد و میزان استفاده از کاربردهای مبتنی بر اینترنت افزایش می‌یابد، میزان نیاز به استفاده از راهکارهایی برای محافظت در برابر حملات سایبری نیز افزایش می‌یابد. تلاش‌های بسیاری در دهه‌ی اخیر، برای مقابله با حملات سایبری انجام شده است؛ رمزنگاری، دیواره‌های آتش، و سیستم‌های تشخیص نفوذ، از جمله‌ی این تلاش‌ها می‌باشند. از میان این راهکارها، استفاده از IDS به منظور تأمین امنیت شبکه‌های کامپیوتری، بسیار مورد توجه قرار گرفته است. به‌کارگیری سیستم‌های تشخیص نفوذ از جمله راهکارهای محافظتی است که به عنوان یکی از اجزای ضروری معماری دفاع در عمق، برای تأمین امنیت شبکه‌های کامپیوتری، مورد استفاده قرار گرفته است. سیستم‌های تشخیص نفوذ، داده‌های مختلف را بررسی نموده و در صورت کشف شواهدی مبنی بر رفتارهای مشکوک و نفوذی، هشدارهایی را تولید کرده و به مدیر شبکه ارائه می‌کنند؛ بدین ترتیب فرصت عکس‌العمل سریع و به موقع را برای مدیر شبکه، فراهم می‌نمایند. واضح است که میزان تأثیرگذاری سیستم‌های تشخیص نفوذ بر امنیت شبکه‌های کامپیوتری، با عملکرد درست، کارامد و سریع این سیستم‌ها، گره خورده است.

اگرچه در سال‌های اخیر سیستم‌های تشخیص نفوذ، توسعه‌ی زیادی یافته و به طور گسترده‌ای در تأمین امنیت شبکه‌های کامپیوتری، به کار رفته‌اند، اما فناوری سیستم‌های تشخیص نفوذ، هنوز کامل نبوده و فاصله‌ی زیادی تا حالت ایده‌آل دارد و هنوز موضوعات بسیار مهمی در رابطه با آن‌ها، مطرح است. یکی از بزرگ‌ترین مشکلات سیستم‌های تشخیص نفوذ، تولید سیل هشدارهاست، هشدارهایی که اغلب آن‌ها هشدارهای غلط، تکراری، و بی‌اهمیت هستند. بدون شک، مدیر شبکه به سادگی در سیل هشدارها غرق می‌شود و در نتیجه، سیستم تشخیص نفوذ، کارایی خود را از دست می‌دهد. روش‌های مختلفی برای حل مشکلات این سیستم‌ها پیشنهاد شده است. در این میان، روش‌های داده‌کاوی به عنوان یک راه حل طبیعی برای حل این نوع مسائل، از سوی بسیاری از محققان پیشنهاد شده است.

[1] Dump

[2] Transmission Control Protocol

[3] Symbolic feature

[4] Slow Scan Attacks

[5] Data Exploration

[6] User Datagram Protocol

[7] History

[8] Confusion Matrix

[9] True Negative

[10] False Positive

[11] False Negative

[12] True Positive

[13] True Negative Rate

[14] Specificity

[15] True Positive Rate

[16] Detection Rate

[17] Sensitivity

[18] Information Retrieval

[19] Recall

[20] False Positive Rate

[21] False Alarm Rate

[22] False Negative Rate

[23] Accuracy

[24] Precision

[25] Reduction Rate

[26] False Positive Reduction Rate

[27] Open Source