NSL KDD Особенности от Raw Live Packets?

1

Я хочу извлечь необработанные данные с помощью pcap и wincap. Поскольку я буду тестировать его против нейронной сети, обученной с помощью набора данных NSLKDD, я хочу знать, как получить эти 41 атрибут из необработанных данных?.. или даже если это невозможно, можно получить такие функции, как src_bytes, dst host_same_srv_rate, diff_srv_rate, count, dst_host_serror_rate, wrong_fragment из сырых живых захваченных пакетов из pcap?

Теги:
data-mining
pcap

3 ответа

0

Кажется, я опоздал, чтобы ответить. Но, как уже ответили другие люди, набор данных KDD99 устарел.

Я не знаю о полезности набора данных NSL-KDD. Однако есть пара вещей:

  • При получении информации из сетевого трафика лучше всего получить статистическую информацию (обычно информация на основе содержимого зашифровывается). Что вы можете сделать, так это создать свой собственный набор данных для описания поведения, которое вы хотите считать "нормальным". Затем тренируйте нейронную сеть, чтобы обнаружить отклонения от этого "нормального" поведения.
  • Будьте осторожны, зная, что даже определение "нормального" поведения меняется от сети к сети и время от времени.

Вы можете взглянуть на эту работу, я был вовлечен в нее, в которой помимо использования статистических характеристик оригинального KDD используются дополнительные функции из реальной сетевой среды.

Программное обеспечение находится под запросом, и оно бесплатное для академических целей! Здесь две ссылки на публикации:

  1. http://link.springer.com/chapter/10.1007/978-94-007-6818-5_30
  2. http://www.iaeng.org/publication/WCECS2012/WCECS2012_pp30-35.pdf

Благодарю!

0

Если кто-то хочет экспериментировать с функциями KDD '99, несмотря на плохую репутацию набора данных, я создал инструмент с именем kdd99extractor для извлечения подмножества функций KDD из файла live или файла.pcap.

Этот инструмент был создан как часть одного университетского проекта. Я не нашел подробную документацию о функциях KDD '99, поэтому полученные значения могут быть битными по сравнению с оригинальным KDD. Некоторые источники используются в README. Также реализация не завершена. Например, функции контента, касающиеся полезной нагрузки, не реализованы.

Он доступен в моем репозитории github.

0

Данные Кубка 1999 года KDD имеют недостатки и больше не должны использоваться

Даже эта "очищенная" версия (NSL KDD) не реалистична.

Кроме того, многие из "чисток", которые они сделали, неразумно. Реальные данные имеют дубликаты, и частоты таких записей важны. Удаляя дубликаты, вы смещаете свои данные в сторону более редких наблюдений. Вы не должны делать это вслепую "только потому, что", или еще хуже: уменьшить размер набора данных.

Однако самая большая проблема остается:

KDD99 никак не реалистичен

Это было нереально даже в 1999 году, но с тех пор Интернет сильно изменился.

Нецелесообразно использовать этот набор данных для машинного обучения. Атаки в нем лучше всего обнаруживаются с помощью простых правил брандмауэра проверки пакетов. Атаки хорошо понятны, а соответствующие детекторы - высокоэффективные, со 100% -ным уровнем обнаружения и 0% -ными ложными срабатываниями - должны быть доступны во многих случаях на современных маршрутизаторах. Они настолько вездесущи, что эти атаки практически не существуют больше с 1998 года или около того.

Если вы хотите настоящие атаки, ищите инъекции SQL и тому подобное. Но они не будут отображаться в файлах pcap, но в значительной степени недокументированный способ использования функций KDDCup'99...

Прекратите использование этого набора данных.

Серьезно, это бесполезные данные. Маркированный, большой, часто используемый, но бесполезный.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню