🛠 Ремонт и сбор датасета нельзя закончить, можно только приостановить. Сегодня в 4 часа утра, вычитав очередной текст Парвуса (еле сдерживаю себя, чтобы не замучить вас цитатами), решилась зафиксировать мои почти 150 текстов как СОБРАННЫЙ ДАТАСЕТ. Однозначно будут обновления и дополнения, но для дофаминового вознаграждения за проделанную большую работу пора настала! Уже сижу с нормализацией (читай: чисткой, правкой, тупым созерцанием данных). И это есть ХОРОШО!
Библиотека Парвуса 📕
Реконструкция библиотеки «Общества изучения социальных последствий войны» (1915-1920), созданного А.Л. Парвусом (наст. имя И.Л. Гельфанд) в Копенгагене , и хранящегося сегодня в фондах Центра социально-политической истории ГПИБ России.
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
18 из 18Началось самое интересное. «Влопались — подумал я — всех уже поймали, сейчас найдут и меня». (Парвус. По тюрьмам во время революции. 1908) Размечаю свой "искрящийся" корпус. Для начала выбрала из него весь «текст, заключённый в кавычки». Делю «цитаты» на категории: 1. Прямая цитата / речь 2. Условные обозначения / названия 3. Необычное / переносное значение 4. Ироническое / модальное (если успею, это сложно) Первая и вторая группа разметилась легко, на третьей немного зависла, но тут и самое инт...
🔔 До Парвуса я «копала» предков по другой, подмосковной ветке. Там нашлась династия Клинских ямщиков. Ямщики - это тоже, скажу я вам, тема совершенно не раскрытая. Только хрена хайпа ей не хватает.
ВСЕМ КРЕСТЬЯНКАМ! 🪴 Для датасета не пойдет, а для канала - вполне. Много годного! От «друга и спутника жизни Владимира Ильича Ленина…» (чувствуете махровый сексизм образца 1925 года?)
АГА! Обновление приложений - зло. Одно пофиксишь, другое перестает работать. Психанула, бросила скрипт в R, пошла в Python. Освежаю прошлогодние домашки, там ведь тоже было про Ленина! Вспомнила о чудесной визуализации кластеризации 2000 самых частотных слов Владимира Ильича. Удивительный силуэт! Будто кто-то словами как мячиком жонглирует. Как такое получилось, неизвестно... У меня был какой-то быстро на коленке сделанный ленинский датасет на 200 000 токенов. В заголовке к ячейке кода визуализа...
Еще немного 🤯 контента. Летом были в Псково-печерском монастыре, зачем-то купили там тематический настенный календарь на 2026 год (типа "кому-нибудь подарим"). Так получилось, что этот церковный календарь плавно пришел на смену прошлогоднему перекидному календарику от Страдающего средневековья (кстати ❤🔥). Теперь ежедневно изучаем поучительные истории из жизни церкви. Вот вчера, например, узнала еще одно новое слово (вчера не публиковала, чтобы от контаминации успеть оправиться). Новое слово ...
Как же ты собирала свой датасет, Венечка Настенька? — спросили у меня ангелы... Глобально упростил #датасетостроение мой/наш чудесный цифровой наставник, Борис Валерьевич Орехов, автор канала «Демонтаж красноречия», главный редактор научного журнала «Цифровые гуманитарные исследования». В своей статье Борис Орехов. Открытые компьютерные инструменты для решения задач оцифровки и анализа русскоязычного текста в области Digital Humanities он напомнил мне в формате незналнезнализабыл о существовании...
🎵 Перспективная тема для исследования. Давно хочу сделать исследование на тему (делала даже подходы здесь и здесь) революционных песен. И вот, контент сам меня находит. Выдали в хоре новую песню для конкурса, народную македонскую «Eleno kerko, Eleno». Любопытства ради полезла переводить текст и получилось примерно следующее: Элено, дочь моя единственная. Что ты делаешь, дочь моя, О чем ты думаешь, Что ты пишешь? Я пишу, мама, в город Эдрене Своему любимому. Купи, мама, купи мне Шляпу за триста ...
🎶 Если вы: 🤍 любите хоровую музыку 🤍 в Москве 🤍 не знаете чем занять себя 15 марта в 17:00 в районе Ясенево приходите на весенний концерт хора, в котором я пою. Билеты: https://v-v-v.ru/events/concert/makewayforspring Послушать наш первый акустический альбом!
Это страшное слово КОНТАМИНАЦИЯ! Моему миленькому, хрустящему-блестящему корпусу, видимо, поставлен диагноз «контаминация»! И конечно же, той его части, которая по идее должны быть самой железобетонной. По порядку. Что такое «контаминация корпуса»? К. — это ситуация, когда корпус, который по нашему убеждению состоит из текстов автора А, на самом деле содержит: 🎲 тексты других авторов 🎲 тексты, сильно отредактированные / компилированные 🎲 тексты коллективного авторства 🎲 тексты, где авторская...