Введение

В августе 2022 года авторами была опубликована аналитическая работа, посвященная анализу активности научных библиотек в социальной сети ВКонтакте (VK) в период с января 2020 года по июль 2022 года.

Лутай А.В. Анализ публикаций и цитирования официальных сообществ библиотек в социальной сети ВКонтакте (01.2020-07.2022)./ А.В. Лутай, Е.Э. Любушко; Российский фонд фундаментальных исследований. – Текст : электронный // РФФИ : [сайт]. – URL: https://podpiska.rfbr.ru/materials/2022_VK_RFBR_report/. – Дата публикации: 10.08.2022.

Результаты ниже получены воспроизведением методов, использованных для сбора и анализа данных в оригинальной работе, но уже для массива публикаций, размещенных на стенах библиотечных VK-сообществ в течение календарного 2022 года.


В исследование был включен перечень из 362 VK-сообществ библиотек, которые разбили на 5 групп:

Дизайн и данные

Публикации 2022 года со стен VK-сообществ были собраны с использованием публичного API сервиса ВКонтакте, дата последнего обновления – 09 января 2023 г.

При наличии у крупных библиотек нескольких VK-сообществ (например, для отдела комплектования, отдела иностранной литературы и т.п.) в исследование включалась только главное сообщество библиотеки.

В исследование включены несколько VK-сообществ библиотек филиалов вузов.

Неофициальные или закрытые группы библиотек в исследование не включались.

Активность в группах

Со стен 362 VK-сообщества было собрано 144214 публикаций.

На иллюстрации 1 для каждого сообщества (точки) показано количество месяцев, в которые на стене сообщества была опубликована хотя бы 1 запись и количество публикаций на стене за исследуемый Период.

Иллюстрация 1

Иллюстрация 1

Во всех группах медиана количества активных месяцев равна 12, что указывает на регулярное (ежемесячное) размещение публикаций на стенах большей части VK-сообществ.

В группах VK-сообществ региональных научных библиотек (РЕГН) и библиотек общего профиля (ББОП) в среднем за исследуемый было опубликовано в несколько раз больше сообщений (медиана – 700-800 сообщений), чем в 2-х других группах (ВУЗЫ, СПЕЦ).


Динамика активности сообществ

На иллюстрации 2 для каждой группы VK-сообществ показано суммарное количество публикаций за месяц.

Иллюстрация 2

Иллюстрация 2

Динамика появления публикаций в VK-сообществах демонстрировала предсказуемый спад в июле/августе, для групп СПЕЦ и ББОП менее заметен из-за масштаба.

Тематический анализ публикаций сообщества (метки)

ВКонтакте позволяется присваивать публикациям специальные метки, которые облегчают пользователям поиск и фильтрацию похожих публикаций. Метки внутри публикаций выглядят как слова или группы слов (без пробелов), предваренные знаком #.

Из исследуемого массива публикаций мы выделили свыше 280 тысяч меток, из которых отобрали те, что встречались в публикациях минимум 2-х сообществ из исследуемого перечня (всего – 6561 метка). Такой отбор позволяет исключить из анализа метки, которые специфичны для отдельных организаций и не появляются в публикациях других VK-сообществ (например, #клубфилателистовполитеха).

Метки отсортированы по убыванию количества сообществ, в которых они появлялись – такой рейтинг отражает популярность темы соответствующей метке для группы сообществ.

В таблице 1 представлены 2000 наиболее популярных меток по количеству сообществ (число напротив метки), в публикациях которых метки встречались в 2022 г.

Метки выполняют функцию обобщающих категорий, поэтому в их роли чаще всего используются широко распространенные слова, универсальные культурные коды и термины, имеющие прямое отношение к библиотечной деятельности – по этой причине на вершине рейтинга популярности: #книги, #библиотека, #деньпобеды, #литература, #библионочь, #история, #наука, #9мая, #8марта и т.д.

Очевидно, что некоторые из этих меток, относящиеся к памятным или праздничным датам появляются в большинстве сообществ лишь в определенный период времени и слабо характеризуют специфику сообщества. Другие метки, напротив, могут встречаться в меньшем количестве сообществ, но появляться в публикациях с более высокой регулярностью, таким образом, отражая направления деятельности и спектр интересов сообщества.

Описанные различия можно наблюдать на иллюстрации 3, на которой 250 наиболее популярных меток (т.е. тех, что упоминались в наибольшем количестве сообществ), распределены вдоль оси по значению условной метрики ОЧУ (относительная частота упоминаний), которую мы определили, как отношение квадратного корня от количества публикаций с упоминанием метки (во всех сообществах) к количеству таких сообществ. Метрика создана для иллюстрации различий между 10 метками с наиболее высокими и наименее низкими значениями ОЧУ.

Слева – праздники и даты, появляющиеся в публикациях раз в год, но практически во всех сообществах; справа – ингредиенты повседневности, которые регулярно используются, но в меньшем количестве сообществ.

Иллюстрация 3

Иллюстрация 3

В первых 2 тысячах строк рейтинга популярности меток (по количеству сообществ) обнаруживаются также и метки, связанные с централизованной (национальной) подпиской и электронными ресурсами – #нацподписка, #elsevier, #springernature, #wiley (в таблице выше их можно найти, воспользовавшись полем для поиска).

Количество сообществ, в которых появлялись метки, связанные с централизованной (национальной) подпиской, намного ниже количества научных библиотек в выборке, которые имеют доступ к данным ресурсам.

Ещё реже в качестве меток появлялись названия современных инструментов для работы с научной информацией – термины altmetric, anywhereaccess, arxiv, authorea, base, casa, citationchaser, citationgecko, citeseerx, citespace, coci, cocites, connectedpapers, core, cyberleninka, datacite, dblp, dimensions, doaj, dryad, figshare, getftr, github, i4oa, i4oc, ifla, inciteful, knowledgegraph, kopernio, leanlibrary, libkey, localcitationnetwork, mendeley, mesh, naver, openathens, opencitations, orcid, plum, publons, refcat, referencemanager, repec, researchgate, researchrabbit, ror, scholarcy, scholia, scholix, scilit, scinapse, sherpa, shibboleth, unpaywall, vosviewer, zenodo, zotero в 2022 году вообще не использовались в качестве меток к публикациям исследуемых VK-сообществ.

Подобно ключевым словам в научных публикациях, метки имеют ограниченную (низкую) информативность для поисковых запросов. Более широкие возможности для тематического анализа публикаций открывает поиск терминов в полном тексте публикаций.

Рейтинг меток из публикаций 2022 года с разбивкой по типам библиотечных VK-сообществ доступен для скачивания в виде csv-файла (размер, 6561 строк), файл с метками из исследования от 10.08.2022 доступен по ссылке csv-файл (1Мб, 26649 строк). Содержит только те метки, которые упоминались минимум в 2-х сообществах из изучаемого перечня.


Тематический анализ публикаций сообщества (текст)

Учитывая хрестоматийное разнообразие тем, о которых в силу специфики своей работы могут писать библиотеки, мы решили не применять сложные NLP-подходы к анализу текстов и выделению тематических направлений (topic modelling) и сосредоточиться на главном. А именно – как часто в библиотечных сообществах появляется информация об открытой науке, т.е. о той части мировой инфраструктуры научного знания, которая доступна всем, вне зависимости от формата участия в проекте централизованной (национальной) подписки. Для этой задачи мы сформировали собственный перечень меток: Google Scholar, Semantic Scholar, Lens.com, Open Access, Crossref, Unpaywall, Preprint, Cyberleninka, Wikidata, IFLA, АНРИ, OpenAlex, ORCID, Publons, Dimensions, Arxivs, Референс-менеджер, Kopernio, Удал.доступ, OpenScience, Data Repos, OpenAire, Altmetrics, DBLP, Scholia, Asian Search Engines, Pubmed, OSF, Researcher Tools, ROR, Открытый код, Sherpa, ResearchGate, Internet Archive, BASE, Authorea (далее – СПИСОК Х).

Некоторые метки содержали в себе группы терминов. Так, метка Arxivs содержит термины arxiv, biorxiv, socarxiv, agrirxiv, ssrn, medrxiv, chemrxiv, psyarxiv, eartharxiv, (searchrxiv) и repec. Если в публикации сообщества обнаруживался любой из этих терминов, то публикация получала метку Arxivs. Еще несколько примеров – метка Researcher Tools включает в себя перечень названий современных инструментов для анализа публикаций scholarcy, scilit, citationchaser, knowledgegraph, cocites, connectedpapers, scinapse, vosviewer, citespace, citationgecko, orkg, scholix, inciteful, researchrabbit, localcitationnetwork, а метка Удал.доступ – термины удалённый доступ, shibboleth, athens, getftr, google casa, libkey, nomad, anywhereaccess, leanlibrary. Все термины приведены в удобном для читателя виде, поиск же проводился с использованием различных вариантов написания, общих лексем и регулярных выражений, чтобы избежать ложноположительных результатов.

Выполнив таким образом, разметку всех 144214 публикаций, мы обнаружили 2919 упоминаний терминов из СПИСКА Х в 294 (из 362) VK-сообществе и найденные связи {сообщество – метка} представили в виде сетевой структуры (Иллюстрация 4).

Иллюстрация 4

Иллюстрация 4

Как можно видеть, наиболее часто в публикациях библиотечных VK-сообществ встречались термины, которым мы присвоили метки Open Science и Open Access (алгоритм укладки сети помещает такие метки в центр).

У вузовских библиотек в центре графа (Иллюстрация 5) к вышеупомянутым меткам добавились метри АНРИ, IFLA и Референс-менеджер.

Иллюстрация 5

Иллюстрация 5

Слева на графике видны расположенные рядом метки Т9 (Lens.com), Т11 (OpenAlex), Т20 (Semantic Scholar) – эти термины присутствуют в заголовке аналитического отчёта “Сравнение качества метаданных в БД CrossRef, Lens, OpenAlex, Scopus, Semantic Scholar, Web of Science Core Collection” / А.В. Лутай, Е.Э. Любушко; Российский фонд фундаментальных исследований. – Дата публикации: 21.02.2022., который был процитирован в нескольких VK-сообществах. Однако их близкое расположение в укладке графа указывает на то, что по отдельности эти поисковые системы в библиотечных сообществах не упоминались.

Мы также обнаружили метки, связанные с другими открытыми поисковыми системами T2 (BASE) и T6 (DBLP), но это лишь единичные появления в массиве 144 тысяч публикаций.

В таблице 2 приведены VK-сообщества вузовских библиотек, которые упоминали 5 или более терминов из СПИСКА Х.

В публикациях на стенах федеральных научных библиотек (СПЕЦ) общими терминами были те же самые Open Science, Open Access и Удаленный доступ (Иллюстрация 7), без которых сеть упоминаний превращается в небольшую группу разрозненных упоминаний. Удивляет отсутствие среди терминов идентификаторов ORCID и ROR, чья роль в открытой инфраструктуре мировой науки стремительно растёт.

Иллюстрация 6

Иллюстрация 6

В таблице 3 приведены VK-сообщества федеральных научных библиотек (СПЕЦ) с указанием количества упоминаний терминов из СПИСКА Х.

На иллюстрации 7 представлены упоминания терминов из СПИСКА Х на стенах региональных научных библиотек (РЕГН).

Иллюстрация 7

Иллюстрация 7

В таблице 4 приведены 5 VK-сообществ региональных научных библиотек (РЕГН), которые упоминали 3 или более терминов из СПИСКА Х.

В публикациях VK-сообществ федеральных и публичных библиотек, у которых в названии отсутствует слово “научная” (ББОП) термины из СПИСКА Х встречались совсем в небольшом количестве, но центральное место по-прежнему занимает Open Access (Иллюстрация 8).

Иллюстрация 8

Иллюстрация 8

В таблице 5 приведены 5 VK-сообществ из группы ББОП, которые упоминали наибольшее количество терминов из СПИСКА Х.

Так о чем всё же пишут в библиотечных сообществах?

Для того чтобы ответить на этот вопрос мы расширили СПИСОК Х до 141 метки, которые были объединены в 9 кластеров (тематически близких групп).

Для удобства читателей перечни терминов приведены ниже в упрощенном виде – поиск проводился с использованием регулярных выражений и учетом различных вариантов написаний.

Часть организаций (из списка исследуемых нами групп) получали доступ к вышеперечисленным ресурсам в рамках проекта централизованной (национальной) подписки, что могло обусловить упоминание терминов в публикациях VK-сообществ этих библиотек. Другие организации также могли иметь опыт работы с ресурсами (в рамках самостоятельно организованного доступа) или упоминать их в связи с материалами, имеющими открытую лицензию.

Разметив массив этими терминами, мы смогли оценить частоту упоминаний меток из каждого кластера в группах библиотечных VK-сообществ (Иллюстрация 9).

Иллюстрация 9

Иллюстрация 9

Основные наблюдения:


Цитирование в VK-сообществах

На стене VK-сообщества можно размещать публикации других сообществ (такие публикации далее мы будем называть процитированными, а ссылки на них – цитированиями). В рамках исследования было выделено 10625 цитирований, что позволило проанализировать существующую структуру влияний библиотечных сообществ друг на друга.

В 2022 году на стенах 326 (из 362) VK-сообществ были процитированы публикации из других сообществ (общее количество VK-сообществ, публикации которых в 2022 году цитировались на стенах библиотечных VK-сообществ – 4248).

На иллюстрации 10 показано соотношение процитированных публикаций по типам VK-сообществ. Доля цитирований публикаций из VK-сообществ, не включенных в исследуемый перечень (обозначены как ДРУГ), составили 95% от общего количества процитированных публикаций.

Иллюстрация 10

Иллюстрация 10

Большая часть процитированных сообществ за указанный период цитировались лишь 1-2 раза. Для дальнейшего анализа были отобраны (а) цитирования сообществ, не включенных в перечень, но процитированных не менее чем 5 сообществами из перечня и (б) взаимные цитирования библиотечных сообществ из перечня.

На иллюстрации 12 представлена визуализации сети цитирований между сообществ – кругами представлены сообщества, цвет круга передает подгруппу, связи между кругами указывают на факты цитирований в указанный период. Связи между сообществами представлены простыми линиями без указания, кто кого цитировал. Размер круга для сообщества Х пропорционален количеству уникальных сообществ из исследуемого перечня библиотечных VK-сообществ, которые процитировали публикации сообщества Х (то есть размер отражает степень влияния сообщества Х на библиотечные сообщества из перечня).

Такое представление позволяет избежать использования стрелок для указания ориентации цитирования, но может создавать ошибочное восприятие места сообщества в структуре цитирований в тех случаях, когда маленькая по размерам вершина имеет больше связей, чем более крупная. На иллюстрации 11 представлен подобный пример – расположенное слева сообщества с надписью (4) имеет меньше нарисованных связей, чем сообщество справа (1), но имеет больший размер, поскольку первое сообщество процитировали 4 сообщества из исследуемого перечня, а второе получило лишь 1 цитирование, хотя активно цитировало другие сообщества.

Иллюстрация 11

Иллюстрация 11

На иллюстрации 12 показаны сообщества из перечня и процитированные ими сообщества, в том числе и такие, которые не входят в перечень (обозначены как ДРУГ).

Иллюстрация 12

Иллюстрация 12

Можно обратить внимание на то, что на периферии сети видны лишь библиотечные группы (все цвета, кроме желтого). Это связано с тем, что мы исключили из сети огромное количество не-библиотечных сообществ, процитированных менее чем 5 сообществами из исследуемого перечня – такая фильтрация убрала с периферии тысячи маленьких желтых точек.

В таблице 6 приведен рейтинг VK-сообществ, не входящих в исследуемый перечень, но цитировавшихся за исследуемый период не менее чем 5 сообществами из перечня. Сообщества отсортированы по убыванию числа процитировавших VK-сообществ из перечня, из списка исключены несколько сообществ, прекративших существование (в выгруженных из Вконтакте данных у таких сообществ вместо названия было указано “DELETED”).

В рейтинге присутствуют сообщества 4 федеральных министерств (Минобрнауки, Минкульт, Минпросвет, Минздрав), Правительство РФ, НЭБ, проектов Межрегиональная Аналитическая Роспись Статей, ЛибИнформ и Библиотека нового поколения, компаний Современная библиотека, Лань, Юрайт, IPR MEDIA, ИНФРА-М, Эксмо, ЛитРес, а также профессиональные сообщества, названия которых варьируют от “Уютная библиотека” и “Свет в окне библиотеки” до “Циничный библиотекарь” и “Злой библиотекарь”.

Но является ли единственное цитирование свидетельством влияния одного сообщества на другое? Очевидно, что нет! На иллюстрации 13 показаны только такие связи между сообществами, в которых за исследуемый период наблюдалось минимум 5 цитирований.

Иллюстрация 13

Иллюстрация 13

Несмотря на то, что в общем объеме процитированных сообществ доля библиотечных сообществ из перечня составляет лишь 4%, взаимные цитирования библиотечных сообществ из исследуемого перечня представляют очевидный интерес. На иллюстрации 14 показаны все связи без фильтрации по количеству упоминаний.

Иллюстрация 14

Иллюстрация 14

Несколько обособленных групп узлов – это сообщества, которые цитируют друг друга, но не другие VK-сообщества из исследуемого перечня.

В таблице 7 приведен рейтинг цитирования библиотечных VK-сообществ другими библиотечными VK-сообществами из исследуемого переченя (всего – 362) в 2022 году. Показаны только те сообщества, чьи публикации на стенах были процитированы более, чем в 1 сообществе из перечня.

По количеству цитирующих сообществ библиотек лидерами оказались 2 сообщества – Российской государственной библиотеки и “Национальная подписка” РЦНИ – публикации из этих сообществ были процитированы в 28 сообществах библиотек из перечня. На втором месте – сообщество Президентской библиотеки, публикации из которого процитировали в 20 сообществах.

Напомним, что учитывались только публикации из официальных (основных) VK-сообществ РГБ и Президентской библиотеки, хотя у этих (и многих других библиотек) существуют VK-сообщества для некоторых подразделений и филиалов.


Сеть цитирования

В качестве примеров покажем сети цитирования VK-сообществ библиотек, имеющих тематическую специализацию, таких как медицинские и сельскохозяйственные библиотеки.

Медицинские библиотеки

На иллюстрации 15 показаны сообщества библиотек медицинских вузов и региональных медицинских научных библиотек, а также иные VK-сообщества из ранее полученной сети цитирования, в названии которых присутствуют фрагменты сочетания букв “фарм”, “здравоохр”, “меди”, “гму”, “клини”. К сети также добавлены VK-сообщества специализированных федеральных научных библиотек (СПЕЦ) и VK-сообщество “Национальная подписка” РЦНИ.

Иллюстрация 15

Иллюстрация 15


Сельскохозяйственные библиотеки

На иллюстрации 16 показаны сообщества библиотек аграрных вузов и региональных научных библиотек, а также иные VK-сообщества из ранее полученной сети цитирования, в названии которых присутствуют фрагменты сочетания букв “сельско”, “аграр”, “ветерин”. К сети также добавлены VK-сообщества специализированных федеральных научных библиотек (СПЕЦ) и VK-сообщество “Национальная подписка” РЦНИ.

Иллюстрация 16

Иллюстрация 16


Финальные ремарки

Данное исследование иллюстрирует лишь часть возможностей, которые предоставляет социальная сеть ВКонтакте. Авторы выражают надежду, что использованные подходы и сделанные наблюдения заинтересуют широкий круг читателей, в том числе и администраторов VK-сообществ.


Благодарности

Авторы выражают признательность разработчикам открытого ПО R v4.1.2, RStudio и программных пакетов:

Компании ООО «В Контакте» (191024, Санкт-Петербург, ул. Херсонская, д. 12-14, литер А, помещение 1-Н, ОГРН 1079847035179, ИНН 7842349892) за профессионально сделанный и доступный интерфейс API, позволяющий выполнять подобные исследования.


© РЦНИ, текст, дизайн, иллюстрации, 2023.

РЦНИ не несет ответственности за любые последствия, связанные с использованием приведенной выше информации.

Для обратной связи: написать письмо.

Информация для цитирования:

Лутай А.В. Анализ публикаций и цитирования официальных сообществ библиотек в социальной сети ВКонтакте в 2022 г./ А.В. Лутай, Е.Э. Любушко; Российский центр научной информации. – Текст : электронный // РЦНИ : [сайт]. – URL: https://podpiska.rfbr.ru/materials/2022_annual_VK_libs/. – Дата публикации: 26.01.2023.