Российские вузы, включенные в открытый Лейденский рейтинг 2023 года (CWTS, Лейденский университет), оцениваются по массивам публикаций, которые примерно в 2 раза меньше по объему, чем те, что доступны в OpenAlex или используются для построения рейтингов QS и THE.
Основные критерии для включения статей в открытый Лейденский рейтинг – английский язык публикации, заполненные поля с аффилиацией авторов в метаданных, наличие списков литературы.
Соответствие основным критериям не гарантирует включения статей в массив для ранжирования – до 38% статей исключены на основании других факторов, один из которых, очевидно, связан с существованием перечня core-изданий (также CWTS).
Значительное число отечественных научных журналов, а также “переводных” изданий Pleiades, не учитываются в построении рейтинга.
30 января 2024 года центр CWTS Лейденского университета выпустил открытую версию собственного международного рейтинга университетов (далее – открытый Лейденский рейтинг, ОЛР), рассчитанную на сведениях из базы данных OpenAlex. Рейтинг включает 1411 университетов, среди которых 14 – российских.
Риторика лейденской группы о важности распространения и использования открытых метаданных традиционно безупречна. Однако, изучение методологии свидетельствует о том, что замечательные идеи CWTS о необходимости более инклюзивного подхода в методиках сравненительной оценки и рейтингования, пока не реализованы. Первая версия открытого рейтинга является лишь попыткой воспроизведения старой методики на новом массиве данных.
И эта методика в отношении университетов из неанглоязычных стран имеет свою специфику – к учету принимаются только публикации, которые:
написаны на английском языке
содержат сведения об аффилации авторов и списки литературы
опубликованы в журналах “ядра” (core journals)
Core журналы – издания, которые привлекают международных авторов и в глобальной сети научного цитирования обнаруживаются в зонах с высокой интенсивностью цитирования (в противовес слабоцитируемым изданиям, формирующим “периферию”). На сайте можно найти ссылку на перечень core и non-core изданий, правда, без идентификаторов журналов. Можно предположить, что речь идёт о собственной методологии CWTS, на основании которой рассчитываются рейтинги журналов (CWTS Journal Indicators).
Открытый Лейденский рейтинг 2023 года – это рейтинг вузов на основании публикаций в англоязычных, хорошо цитируемых журналах, выпускаемых профессиональными издателями.
Поскольку данные ОЛР доступны для скачивания, мы решили самостоятельно провести экспресс-анализ и выяснить, какие статьи были учтены при оценке российских вузов, а какие – исключены.
Насколько отличается набор публикаций вуза в ОЛР от перечня статей в профиле организации в OpenAlex? Какая часть статей не вошла в рейтинг из-за несоответствия критериям отбора?
Какие журналы исключены целиком?
В какой степени отличается набор публикаций вуза в открытом рейтинге OpenAlex от статей в профиле организации в Scopus? Сколько статей российских вузов не учитывает CWTS Leiden Ranking Open Edition 2023 по сравнению с рейтингами, основанными на данных Scopus (THE, QS)?
Сравнение будет выполнено на массиве публикаций 2021 года с участием 14 российских вузов, присутствующих в ОЛР.
Доступный массив данных представлен в виде архива с tsv-файлами, которые в распакованном объеме занимают 33 Гб (файл с публикациями – 1.2 Гб).
Нажмите на кнопку Show, чтобы увидеть фрагмент кода (R) для извлечения публикаций российских университетов. В коде приведены ориганальные названия файлов. Библиотека Arrow позволяет удобно работать с файлами, размер которых превосходит объем оперативной памяти (примеры применения на R и Python, англ. яз). Выполнение кода ниже заняло примерно 10 секунд.
library(arrow)
library(dplyr)
# извлекаем список российских университетов
rus_orgs <- readr::read_tsv("university.tsv") |> dplyr::filter(country_code == "RU")
# извлекаем список статей университетов
rus_pub_ids <- arrow::open_delim_dataset("pub_university.tsv", delim = "\t",
convert_options = arrow::csv_convert_options(check_utf8 = F)) |>
dplyr::filter(university_id %in% rus_orgs$university_id) |>
dplyr::collect()
# извлекаем сведения о статьях 2021 года
rus_pubs <- arrow::open_delim_dataset("pub.tsv", delim = "\t",
convert_options = arrow::csv_convert_options(check_utf8 = F)) |>
dplyr::filter(work_id %in% rus_pub_ids$work_id) |>
dplyr::filter(pub_year == 2021) |>
dplyr::collect()
Из датасета ОЛР извлечены 19,997 уникальных статей 2021 года с участием 14 российских университетов.
Идентификаторы статей в датасете Лейденского рейтинга после добавлении слева символа W (4242643560 -> W4242643560) превращаются в идентификаторы публикаций в OpenAlex.
Публикации с участием 14 российских университетов были выгружены из OpenAlex 31.01.2024. Лейденский рейтинг был построен с использованием данных OpenAlex, доступных в ноябре 2023 г. По предположению авторов разница в 2 месяца не должна существенно влиять на результаты сравнения публикаций 2021 года.
Всего в OpenAlex найдено 39,610 уникальных публикаций 2021 года, относящихся к указанным 14 вузам (на 49.5% больше, чем в ОЛР). В столбце ОЛР/OpenAlex (%) таблицы 1 показано соотношение объемов публикаций 2021 года с участием каждого вуза в ОЛР и в OpenAlex, которое варьирует от 42% до 71%.
Публикации OpenAlex разбили на подгруппы на основании 3 критериев:
pub type – в OpenAlex публикация имеет тип article или book-chapter
in english – в OpenAlex указан английский язык публикация
with refs – в OpenAlex присутствует список пристатейной литературы
На иллюстрации для каждой подгруппы показано количество публикаций (ниже) и доля публикаций, включенных в массив ОЛР (выше).
Сопоставляя полученные результаты и заявленные в методологии критерии отбора, можно сделать следующие выводы:
невыполнение любого из 3 критериев исключало публикации из оценки ОЛР. Так, из оценки была исключена группа англоязычных статей типа article/book chapter, у которых в OpenAlex отсутствуют списки литературы (6,546 публикаций, 16,5% от общего объема).
соблюдение всех 3-х критериев не является достаточным условием для учета публикаций – 38% публикаций были исключены из оценки ОЛР. Можно предположить, что это статьи из изданий, которые не входят в “ядро” (non-core journals).
В массиве ОЛР не приведены идентификаторы журналов, отсутствуют они также и в доступном перечне core журналов. Забыли, наверное 😏.
Выводы об отсутствии конкретных изданий можно получить только сопоставлением публикаций, присутствующих в ОЛР и в OpenAlex.
Из массива статей 2021 года с участием 14 российских вузов, выгруженных из OpenAlex, мы выделили 611 изданий типа “журнал”, статьи из которых в исследуемом массиве встречаются не менее 10 раз.
Журналы разделили на 3 группы:
Группа “quasi-core” – 257 журналов, для которых 95 или более процентов публикаций были включены в массив ОЛР. Авторы не проверяли, входя ли все эти журналы в список core-изданий CWTS, поэтому название quasi-core.
Группа “semi-core” – 58 журналов, публикации из которых избирательно включены в ОЛР (частота включения более 5% и менее 95%).
Группа “non-core” – 296 журналов, для которых более 95% не попали в ОЛР.
Перечни журналов каждой группы приведены в таблицах 2-4, которые можно сохранить в формате CSV/Excel или скопировать для вставки в другой интерфейс.
Quasi-core журналы
Semi-core журналы
В этой группе с неожиданно низкими показателями оказались такие авторитетные издания, как Annals of the Rheumatic Diseases (BMJ), Journal of Hypertension (LWW), European Heart Journal (OUP). Проверка отдельных статей показывает, что исключены статьи из спецвыпусков, содержащих материалы конференций. Что интересно, в метаданных таких статей, публично доступных через OpenAlex API, указан тип journal-article и отсутствуют прямые указатели на то, что они являются материалами конференций. Например, о том, что статьи W3163978352 или W3152770451 являются материалами “конференций”, можно догадаться либо по названиям выпусков, содержащими фрагменты Suppl_1 и Supplement 1 (что не является правилом, которому можно доверить отбор статей), либо используя сведения из других источников (например, WoS и Scopus, которыми CWTS также располагает). В последнем случае получается, что рейтинг сделан не только на “открытых данных” 😲.
Non-core журналы
В таблице 4 много журналов Pleiades Publishing и российских издателей (Георесурсы, Сибирский онкологический журнал, Вестник Тюменского государственного университета, Высшее образование в России, Химия в интересах устойчивого развития, Университетское управление: практика и анализ, Медицинская иммунология, Казанский медицинский журнал, Вестник трансплантологии и искусственных органов, World Economy and International Relations и др.)
Авторы находят довольно примечательным тот факт, что у составителей рейтинга не нашлось причин исключить хотя бы 1 статью из журналов MDPI.
Некогда популярные в России рейтинги вузов THE и QS использовали для расчета метрик сведения из индекса цитирования Scopus. В таблице ниже показано сравнение количества публикаций 2021 года, аффилированных с выбранными 14 вузами, которые согласно публично доступным критериям (QS, THE) отбора должны попадать в массив для расчета показателей.
Всего в Scopus найдено 37,780 уникальных публикаций 2021 года, относящихся к указанным 14 вузам (на 47.1% больше, чем в ОЛР) и соответствующих критериям отбора THE/QS. В столбце ОЛР/Scopus (%) таблицы 1 показано соотношение объемов публикаций 2021 года с участием каждого вуза в ОЛР и в Scopus, которое варьирует от 45% до 88%.
Сопоставление метаданных для статей 2021 с участием выбранных университетов, выделенных из Scopus и OpenAlex, позволило получить любопытную оценку – в OpenAlex примерно для 8% публикаций был указан английский язык, тогда как по данным Scopus язык публикации – русский. Из этих публикаций лишь 7 (0.34%) статей (из единственного журнала “Молекулярная биология”) попали в открытый Лейденский рейтинг. Авторы убеждены, что составители ОЛР не смогли бы добиться подобной аккуратности исключения, используя лишь базу данных OpenAlex. Предположительно, для построения рейтинга они воспользовались данными, которые получили ранее от Web of Science и Scopus.
Авторы выражают признательность разработчикам открытого ПО R, RStudio и программных пакетов:
В иллюстрациях использованы шрифты, распространяемые на условиях открытой лицензии SIL Open Font License (OFL):
© Российский центр научной информации, текст, дизайн, иллюстрации, 2024.
РЦНИ не несет ответственности за любые последствия, связанные с использованием приведенной выше информации.
Для обратной связи: написать письмо.
Информация для цитирования:
Лутай А.В. Анализ особенностей оценки российских вузов в открытой версии Лейденского рейтинга. / А.В. Лутай, О.В. Черченко; Российский центр научной информации. – Текст: электронный // РЦНИ: [сайт]. – URL: https://podpiska.rfbr.ru/materials/2023_leiden_rank/. – Дата публикации: 05.02.2024.