Российские вузы, включенные в открытый Лейденский рейтинг 2023 года (CWTS, Лейденский университет), оцениваются по массивам публикаций, которые примерно в 2 раза меньше по объему, чем те, что доступны в OpenAlex или используются для построения рейтингов QS и THE.

Основные критерии для включения статей в открытый Лейденский рейтинг – английский язык публикации, заполненные поля с аффилиацией авторов в метаданных, наличие списков литературы.

Соответствие основным критериям не гарантирует включения статей в массив для ранжирования – до 38% статей исключены на основании других факторов, один из которых, очевидно, связан с существованием перечня core-изданий (также CWTS).

Значительное число отечественных научных журналов, а также “переводных” изданий Pleiades, не учитываются в построении рейтинга.


Лейденский открытый рейтинг

30 января 2024 года центр CWTS Лейденского университета выпустил открытую версию собственного международного рейтинга университетов (далее – открытый Лейденский рейтинг, ОЛР), рассчитанную на сведениях из базы данных OpenAlex. Рейтинг включает 1411 университетов, среди которых 14 – российских.

Риторика лейденской группы о важности распространения и использования открытых метаданных традиционно безупречна. Однако, изучение методологии свидетельствует о том, что замечательные идеи CWTS о необходимости более инклюзивного подхода в методиках сравненительной оценки и рейтингования, пока не реализованы. Первая версия открытого рейтинга является лишь попыткой воспроизведения старой методики на новом массиве данных.

И эта методика в отношении университетов из неанглоязычных стран имеет свою специфику – к учету принимаются только публикации, которые:

Core журналы – издания, которые привлекают международных авторов и в глобальной сети научного цитирования обнаруживаются в зонах с высокой интенсивностью цитирования (в противовес слабоцитируемым изданиям, формирующим “периферию”). На сайте можно найти ссылку на перечень core и non-core изданий, правда, без идентификаторов журналов. Можно предположить, что речь идёт о собственной методологии CWTS, на основании которой рассчитываются рейтинги журналов (CWTS Journal Indicators).

Открытый Лейденский рейтинг 2023 года – это рейтинг вузов на основании публикаций в англоязычных, хорошо цитируемых журналах, выпускаемых профессиональными издателями.

Поскольку данные ОЛР доступны для скачивания, мы решили самостоятельно провести экспресс-анализ и выяснить, какие статьи были учтены при оценке российских вузов, а какие – исключены.


Вопросы исследования

  1. Насколько отличается набор публикаций вуза в ОЛР от перечня статей в профиле организации в OpenAlex? Какая часть статей не вошла в рейтинг из-за несоответствия критериям отбора?

  2. Какие журналы исключены целиком?

  3. В какой степени отличается набор публикаций вуза в открытом рейтинге OpenAlex от статей в профиле организации в Scopus? Сколько статей российских вузов не учитывает CWTS Leiden Ranking Open Edition 2023 по сравнению с рейтингами, основанными на данных Scopus (THE, QS)?

Эксперименальные данные

Сравнение будет выполнено на массиве публикаций 2021 года с участием 14 российских вузов, присутствующих в ОЛР.

Доступный массив данных представлен в виде архива с tsv-файлами, которые в распакованном объеме занимают 33 Гб (файл с публикациями – 1.2 Гб).

Нажмите на кнопку Show, чтобы увидеть фрагмент кода (R) для извлечения публикаций российских университетов. В коде приведены ориганальные названия файлов. Библиотека Arrow позволяет удобно работать с файлами, размер которых превосходит объем оперативной памяти (примеры применения на R и Python, англ. яз). Выполнение кода ниже заняло примерно 10 секунд.

library(arrow)
library(dplyr)

# извлекаем список российских университетов
rus_orgs <- readr::read_tsv("university.tsv") |> dplyr::filter(country_code == "RU")

# извлекаем список статей университетов 
rus_pub_ids <- arrow::open_delim_dataset("pub_university.tsv", delim = "\t", 
                                         convert_options = arrow::csv_convert_options(check_utf8 = F)) |> 
  dplyr::filter(university_id %in% rus_orgs$university_id) |> 
  dplyr::collect()

# извлекаем сведения о статьях 2021 года 
rus_pubs <- arrow::open_delim_dataset("pub.tsv", delim = "\t", 
                                      convert_options = arrow::csv_convert_options(check_utf8 = F)) |> 
  dplyr::filter(work_id %in% rus_pub_ids$work_id) |>
  dplyr::filter(pub_year == 2021) |>
  dplyr::collect()

Публикации, использованные в Лейденском рейтинге

Из датасета ОЛР извлечены 19,997 уникальных статей 2021 года с участием 14 российских университетов.

Идентификаторы статей в датасете Лейденского рейтинга после добавлении слева символа W (4242643560 -> W4242643560) превращаются в идентификаторы публикаций в OpenAlex.


Публикации вузов в OpenAlex

Публикации с участием 14 российских университетов были выгружены из OpenAlex 31.01.2024. Лейденский рейтинг был построен с использованием данных OpenAlex, доступных в ноябре 2023 г. По предположению авторов разница в 2 месяца не должна существенно влиять на результаты сравнения публикаций 2021 года.

Всего в OpenAlex найдено 39,610 уникальных публикаций 2021 года, относящихся к указанным 14 вузам (на 49.5% больше, чем в ОЛР). В столбце ОЛР/OpenAlex (%) таблицы 1 показано соотношение объемов публикаций 2021 года с участием каждого вуза в ОЛР и в OpenAlex, которое варьирует от 42% до 71%.

Публикации OpenAlex разбили на подгруппы на основании 3 критериев:

На иллюстрации для каждой подгруппы показано количество публикаций (ниже) и доля публикаций, включенных в массив ОЛР (выше).

Сопоставляя полученные результаты и заявленные в методологии критерии отбора, можно сделать следующие выводы:


Core журналы и Лейденский рейтинг

В массиве ОЛР не приведены идентификаторы журналов, отсутствуют они также и в доступном перечне core журналов. Забыли, наверное 😏.

Выводы об отсутствии конкретных изданий можно получить только сопоставлением публикаций, присутствующих в ОЛР и в OpenAlex.

Из массива статей 2021 года с участием 14 российских вузов, выгруженных из OpenAlex, мы выделили 611 изданий типа “журнал”, статьи из которых в исследуемом массиве встречаются не менее 10 раз.

Журналы разделили на 3 группы:

Перечни журналов каждой группы приведены в таблицах 2-4, которые можно сохранить в формате CSV/Excel или скопировать для вставки в другой интерфейс.

Quasi-core журналы

Semi-core журналы

В этой группе с неожиданно низкими показателями оказались такие авторитетные издания, как Annals of the Rheumatic Diseases (BMJ), Journal of Hypertension (LWW), European Heart Journal (OUP). Проверка отдельных статей показывает, что исключены статьи из спецвыпусков, содержащих материалы конференций. Что интересно, в метаданных таких статей, публично доступных через OpenAlex API, указан тип journal-article и отсутствуют прямые указатели на то, что они являются материалами конференций. Например, о том, что статьи W3163978352 или W3152770451 являются материалами “конференций”, можно догадаться либо по названиям выпусков, содержащими фрагменты Suppl_1 и Supplement 1 (что не является правилом, которому можно доверить отбор статей), либо используя сведения из других источников (например, WoS и Scopus, которыми CWTS также располагает). В последнем случае получается, что рейтинг сделан не только на “открытых данных” 😲.

Non-core журналы

В таблице 4 много журналов Pleiades Publishing и российских издателей (Георесурсы, Сибирский онкологический журнал, Вестник Тюменского государственного университета, Высшее образование в России, Химия в интересах устойчивого развития, Университетское управление: практика и анализ, Медицинская иммунология, Казанский медицинский журнал, Вестник трансплантологии и искусственных органов, World Economy and International Relations и др.)


10 крупнейших издателей

Авторы находят довольно примечательным тот факт, что у составителей рейтинга не нашлось причин исключить хотя бы 1 статью из журналов MDPI.


Сравнение с массивом публикаций для рейтингов на основе Scopus

Некогда популярные в России рейтинги вузов THE и QS использовали для расчета метрик сведения из индекса цитирования Scopus. В таблице ниже показано сравнение количества публикаций 2021 года, аффилированных с выбранными 14 вузами, которые согласно публично доступным критериям (QS, THE) отбора должны попадать в массив для расчета показателей.

Всего в Scopus найдено 37,780 уникальных публикаций 2021 года, относящихся к указанным 14 вузам (на 47.1% больше, чем в ОЛР) и соответствующих критериям отбора THE/QS. В столбце ОЛР/Scopus (%) таблицы 1 показано соотношение объемов публикаций 2021 года с участием каждого вуза в ОЛР и в Scopus, которое варьирует от 45% до 88%.

Сопоставление метаданных для статей 2021 с участием выбранных университетов, выделенных из Scopus и OpenAlex, позволило получить любопытную оценку – в OpenAlex примерно для 8% публикаций был указан английский язык, тогда как по данным Scopus язык публикации – русский. Из этих публикаций лишь 7 (0.34%) статей (из единственного журнала “Молекулярная биология”) попали в открытый Лейденский рейтинг. Авторы убеждены, что составители ОЛР не смогли бы добиться подобной аккуратности исключения, используя лишь базу данных OpenAlex. Предположительно, для построения рейтинга они воспользовались данными, которые получили ранее от Web of Science и Scopus.


Благодарности

Авторы выражают признательность разработчикам открытого ПО R, RStudio и программных пакетов:

В иллюстрациях использованы шрифты, распространяемые на условиях открытой лицензии SIL Open Font License (OFL):


© Российский центр научной информации, текст, дизайн, иллюстрации, 2024.

РЦНИ не несет ответственности за любые последствия, связанные с использованием приведенной выше информации.

Для обратной связи: написать письмо.

Информация для цитирования:

Лутай А.В. Анализ особенностей оценки российских вузов в открытой версии Лейденского рейтинга. / А.В. Лутай, О.В. Черченко; Российский центр научной информации. – Текст: электронный // РЦНИ: [сайт]. – URL: https://podpiska.rfbr.ru/materials/2023_leiden_rank/. – Дата публикации: 05.02.2024.