Я хочу извлечь необработанные данные с помощью pcap и wincap. Поскольку я буду тестировать его против нейронной сети, обученной с помощью набора данных NSLKDD, я хочу знать, как получить эти 41 атрибут из необработанных данных?.. или даже если это невозможно, можно получить такие функции, как src_bytes, dst host_same_srv_rate, diff_srv_rate, count, dst_host_serror_rate, wrong_fragment из сырых живых захваченных пакетов из pcap?
Кажется, я опоздал, чтобы ответить. Но, как уже ответили другие люди, набор данных KDD99 устарел.
Я не знаю о полезности набора данных NSL-KDD. Однако есть пара вещей:
Вы можете взглянуть на эту работу, я был вовлечен в нее, в которой помимо использования статистических характеристик оригинального KDD используются дополнительные функции из реальной сетевой среды.
Программное обеспечение находится под запросом, и оно бесплатное для академических целей! Здесь две ссылки на публикации:
Благодарю!
Если кто-то хочет экспериментировать с функциями KDD '99, несмотря на плохую репутацию набора данных, я создал инструмент с именем kdd99extractor для извлечения подмножества функций KDD из файла live или файла.pcap.
Этот инструмент был создан как часть одного университетского проекта. Я не нашел подробную документацию о функциях KDD '99, поэтому полученные значения могут быть битными по сравнению с оригинальным KDD. Некоторые источники используются в README. Также реализация не завершена. Например, функции контента, касающиеся полезной нагрузки, не реализованы.
Он доступен в моем репозитории github.
Даже эта "очищенная" версия (NSL KDD) не реалистична.
Кроме того, многие из "чисток", которые они сделали, неразумно. Реальные данные имеют дубликаты, и частоты таких записей важны. Удаляя дубликаты, вы смещаете свои данные в сторону более редких наблюдений. Вы не должны делать это вслепую "только потому, что", или еще хуже: уменьшить размер набора данных.
Однако самая большая проблема остается:
Это было нереально даже в 1999 году, но с тех пор Интернет сильно изменился.
Нецелесообразно использовать этот набор данных для машинного обучения. Атаки в нем лучше всего обнаруживаются с помощью простых правил брандмауэра проверки пакетов. Атаки хорошо понятны, а соответствующие детекторы - высокоэффективные, со 100% -ным уровнем обнаружения и 0% -ными ложными срабатываниями - должны быть доступны во многих случаях на современных маршрутизаторах. Они настолько вездесущи, что эти атаки практически не существуют больше с 1998 года или около того.
Если вы хотите настоящие атаки, ищите инъекции SQL и тому подобное. Но они не будут отображаться в файлах pcap, но в значительной степени недокументированный способ использования функций KDDCup'99...
Серьезно, это бесполезные данные. Маркированный, большой, часто используемый, но бесполезный.