З
Записки NLPшника
@yet_another_nlp_notes172 подп.
301просмотров
15 ноября 2025 г.
Score: 331
Сейчас буду бомбить. Как вы, возможно, знаете, мой диссер завязан на самоубийстве. Точнее на поисках тех, кто это собирается сделать, чтобы вразумить. В Пситехлабе мы сделали большой датасет, разработали модель этого мероприятия, сделали фреймворк, позволяющий выполнять базовые операции. Параллельно еще поисследовали парочку интересных вещей, которые нам облегчают работу. Бантиком диссера должен стать логичный эксперимент: показать, что наша система действительно эффективна для поиска таких несчастных людей. Чтобы это показать, нужны аккаунты людей, которые попытались (не важно, «удачно» или нет) совершить самоубийство. Как вы, возможно, понимаете, такие данные на дороге не валяются. Чтобы находить такие аккаунты, нужно вбухать нереальное количество бабла и/или времени. Но я же не первый, кто эту проблему решает, так? Надо просто найти людей, кто уже публиковал работы по этой теме и взять эти датасеты либо из работ, либо у них самих. Практика показывает, что надеяться на открытость таких данных не приходится, потому что исследователи держат эти данные закрытыми, даже если изначально они были собраны из паблика, объясняя это либо мутными вопросами этики, либо просто потому что. Поэтому можно надеяться только на то, чтобы попросить у них лично. Я нашел четыре таких работы, убив на это тонну времени. Каждая работа представляет датасет на своём языке: китайский, английски, русский и французский. Мне такая разноязычность очень на руку: мы активно исследуем трансфер датасетов с помощью машинного перевода и я планировал это тоже в диссер завернуть. Кроме поиска самих работ, мне нужно было еще понять, живы ли указанные почты. Некоторым работам под десяток лет уже. Человек из одной работы оказался литерали призраком: в исходной работе у него указана почта компании, которой давно не существует. Последняя свежая работа у него была в 2023 году, где почты у него нет, в более ранних работах также. Потом я нашел, что та компания была его и ее купила другая компания, где он продолжил работать. И еще потом случайно нашел, что в 2024 он перешел на новое место. Почты я все равно не нашел, но на сайте организации была форма обратно связи, которой я и воспользовался. Если бы в жизни был Стим, то я бы выбил ачивку Academia OSINTer. В минувший понедельник рано утром я отправил четыре письма. Как вы думаете, получил ли я хотя бы один ответ? Как вы, возможно, подозреваете — ни. хе. ра.
301
просмотров
2413
символов
Нет
эмодзи
Нет
медиа

Другие посты @yet_another_nlp_notes

Все посты канала →
Сейчас буду бомбить. Как вы, возможно, знаете, мой диссер за — @yet_another_nlp_notes | PostSniper