Искусственный интеллект научился языку даркнета и теперь может распознавать киберугрозы
Исследователи из Южной Кореи провели обучение языковой модели DarkBERT на текстах из даркнета, где люди общаются на сленге, отличающемся от языка обычного интернета. Они утверждают, что сейчас нейросеть DarkBERT справляется с задачами кибербезопасности лучше других моделей.
Даркнет — это скрытая от поисковых систем часть интернета. В нее нельзя попасть через обычный браузер. Авторы исследования для входа в даркнет использовали браузер Tor. Общение пользователей в «темной» части интернета происходит анонимно, поэтому их сложно отследить.
Из-за таких преимуществ даркнет стал платформой для любой незаконной деятельности, от утечки данных до торговли запрещенными вещами. Специалисты по кибербезопасности постоянно ищут способы мониторить и изучать тексты в даркнете.
Такие языковые модели, как нейросети, сейчас используются для изучения различных текстов. Они были обучены на большом объеме данных и успешно справляются с задачами, связанными с пониманием языка.
Они способны анализировать тексты, определять их смысл и выявлять важные аспекты. Это позволяет использовать языковые модели в таких областях, как автоматический перевод, синтез речи, анализ тональности текстов и в многих других.
Языковые модели обычно проводят обучение на выборках текстов из разных источников: интернета, книг, статей, новостей. Это позволяет им понимать и различать различные стили: художественный, научный, стиль сообщений в социальных сетях и т.д.
Однако в выборки не попадали материалы из даркнета, а они имеют свои особенности в лексике, распределении частей речи и синтаксисе. Исследователи из Южной Кореи решили устранить этот недостаток.
Группа ученых из Корейского института передовых технологий собрала корпус текстов из дакнета и научила его языку модель DarkBERT. Результаты своего исследования они представили на платформе arxiv.org.
Для предварительного обучения DarkBERT исследователи создали большой текстовый корпус из даркнета. Они начали собирать начальные адреса из поисковой системы Ahmia, которая работает в даркнете и предоставляет доступ к сайтам, не индексируемым обычными поисковыми системами, и общедоступным хранилищам со списком доменов с расширением «.onion».
Исследователи сканировали Dark Web, расширяя свой список доменов и сохраняя заголовок HTML и основные элементы каждой страницы в виде текстового файла. Затем они отобрали страницы на английском языке. В результате корпус документов составил около 6,1 миллиона страниц, которые позже были обработаны с целью удаления страниц с низким содержанием информации, дубликатов и конфиденциальных данных.
Для обучения использовали модель RoBERTa, основанную на архитектуре Transformer, выбранной из-за того, что не включает задачу предсказания следующего предложения (NSP). После обучения на текстах даркнета получилась готовая модель DarkBERT. Ее качество сравнивали со стандартными моделями RoBERTa и BERT, учившихся на обычных текстах в двух версиях: обработанной и необработанной.
А затем провели тестирование языковых моделей на различных сценариях киберугроз. Им необходимо было определить, содержит ли текст сайта украденные данные.
Известно, что иногда злоумышленники похищают конфиденциальные данные с сайтов и вымогают у их владельцев деньги. Если деньги не поступают, они публикуют украденные данные.
Нейросети получали текст сайта и решали задачу бинарной классификации.
Для этого исследователи изучали сайты утечки данных, на которых публикуются конфиденциальные данные организаций. В течение двух лет (с мая 2020 года по апрель 2022 года) они собрали данные из 54 популярных групп вымогателей, публикующих информацию об утечке.
Для положительного класса примеров случайным образом выбиралось не более трех страниц с разными названиями. Для отрицательного использовались страницы Dark Web с содержанием, похожим на сайты утечки, в частности, в категориях хакерство, криптовалюта, финансы. Окончательный набор данных для обучения состоял из 105 положительных и 679 отрицательных примеров.
DarkBERT продемонстрировал высокую производительность по сравнению с другими языковыми моделями в понимании языка, используемого на подпольных хакерских форумах в Dark Web.
Хотя DarkBERT использует RoBERTa в качестве базовой модели, производительность RoBERTa значительно снизилась по сравнению с другими моделями. Примечательно, что версия DarkBERT с использованием предварительной обработки ввода превзошла ту, которая использует необработанный ввод. Это подчеркивает важность предварительной обработки текста для сокращения ненужной информации.
Следующая задача, которую решали языковые модели — понимание сообщений из форумов даркнета, которые часто используются для незаконного обмена информацией и требуют контроля за потенциально вредными темами.
Проверка этих потоков вручную занимает много времени, поэтому автоматизация этого процесса может помочь экспертам по безопасности. Исследователи вновь сформулировали задачу как проблему бинарной классификации, чтобы предсказать, достойна ли внимания конкретная тема форума.
Нейросети выделяли ключевые слова в сообщениях о запрещенных веществах. Такие ключевые слова могут понадобиться сотрудникам правоохранительных органов, чтобы быстро искать сообщения о продаже веществ и определять продавцов.
Эту задачу протестировали на DarkBERT и модели BERT. Здесь DarkBERT снова обошел конкурента (точность определения топ-10 ключевых слов 60% в DarkBERT против 40% в BERT).
В целом результаты показывают, что предварительно обученная на текстах из даркнета нейросеть DarkBERT справляется с задачами кибербезопасности лучше, чем другие модели. Ее можно использовать для мониторинга нелегальной активности в даркнете, высчитывать преступников и предотвращать утечку данных.
Комментарии