Индекс научного цитирования – ценный аналитический инструмент, возможности которого выходят за рамки традиционных практик расчета показателей и рейтингования. В статье приведен сравнительный анализ показателей цитируемости по данным различных информационных систем. Значения метрик, полученных с помощью индекса цитирования, разрабатываемого в Российском центре научной информации, сопоставимы со значениями из зарубежных информационных систем. Дальнейшее развитие сервиса позволит обеспечить российских ученых единым источником сведений о цитируемости и данными, необходимыми для прикладного анализа мирового научно-технологического развития.


Введение

Индексы научного цитирования Web of Science и Scopus ассоциируются в первую очередь с метриками и рейтингами, которые имеют колоссальное влияние на международные рынки, связанные с высшим образованием, научными исследованиями и разработками. Несмотря на многие десятки научных работ, указывающих на несостоятельность таких метрик, как импакт-фактор или индекс Хирша, компании Clarivate и Elsevier продолжают их рассчитывать и публиковать, стимулируя таким образом, спрос на их коммерческие сервисы.

С начала 2010-х индексы научного цитирования Scopus и Web of Science оказывали все более серьезное влияние на развитие российской науки, определяя целевые показатели и стратегии ряда программ развития. Отказ компаний Clarivate и Elsevier предоставлять российским ученым доступ к этим сервисам актуализировал вопросы как о возможностях открытых зарубежных онлайн-сервисов, так и о необходимости создания отечественных сервисов для решения задач, связанных с поиском и анализом сведений о международных научных публикациях. Важно подчеркнуть, что возможности применения базы данных, лежащей в основе индекса научного цитирования, выходят далеко за рамки расчета примитивных популярных метрик.

В интересах развития отечественной науки Российский центр научной информации (далее – РЦНИ) приступил к разработке национального индекса цитирования (далее – ИЦ РЦНИ), который будет доступен всем российским исследователям. В предлагаемой статье приведены результаты проведенного исследования, в котором сравниваются значения метрик, полученные в ИЦ РЦНИ и других информационных сервисах.

Поиск научных публикаций

Сведения о научных публикациях в международных изданиях могут быть найдены в базах данных Semantic Scholar, Lens, OpenAlex, Dimensions, Scilit, а также в Google Scholar. Все названные онлайн-ресурсы, как минимум, не уступают Scopus и Web of Science по охвату индексируемых научных источников и скорости индексации и на текущий момент доступны российским пользователям без оплаты и даже без регистрации.

Существуют и другие онлайн-ресурсы, которые позволяют российским авторам отслеживать выход новых научных публикаций по заданным темам – BASE, Baidu Scholar, CNKI Scholar, NAVER Academic, а также тематические реферативные базы данных MEDLINE, DBLP и др.

Таким образом, на текущий момент российские исследователи имеют достаточный выбор инструментов для мониторинга интересующих научных направлений, причем эти сервисы зарегистрированы в разных странах.

Анализ сети цитирований

В предыдущее десятилетие сведения о цитируемости научных публикаций, доступные в Scopus и Web of Science, использовались в России преимущественно как инструмент для оценки отдельных объектов – авторов (индекс Хирша), журналов (метрики цитируемости), реже для анализа наборов публикаций (рейтинги вузов).

Вместе с тем информация о цитируемости может использоваться для анализа научных сообществ, тенденций развития отдельных направлений, выделения «горячих» тем, идентификации лидеров направлений. Возможности решения подобных задач с помощью веб-интерфейсов Scopus и Web of Science, доступ к которым предоставлялся в рамках централизованной подписки, весьма ограничены, поскольку оба правообладателя (Elsevier, Clarivate) предлагают наборы данных и аналитические отчеты как отдельные продукты.

Развитие парадигмы Открытой науки (подробные сведения можно найти на сайтах cwts.nl (англ.яз), wikipedia (рус.яз), lib-os.ru (рус.яз)) привело к успеху отдельных инициатив, среди которых Open Metadata, нацеленная на перевод списков процитированных источников в режим распространения на условиях открытой лицензии. Результатом стало раскрытие крупными издателями списков процитированных источников в БД CrossRef, возникновение сервиса CrossRef Open Citation Index и появление функционала для анализа цитирования в базах данных, которые самостоятельно не индексируют научные издания (Lens, Semantic Scholar и др.).

При наличии производительного оборудования и квалифицированных специалистов сегодня любая организация может сформировать свой собственный индекс цитирования на основе доступных данных с открытой лицензией, но необходимость регулярной актуализации полученного массива данных связана с дополнительными расходами. Неизбежным следствием станут расхождения в показателях цитируемости. Более эффективным решением является формирование единой, общедоступной базы данных, которая бы поддерживалась одной командой и могла бы без ограничений использоваться всеми участниками для развития российской науки.

Индекс цитирования РЦНИ

В целях создания собственной версии мирового индекса научного цитирования в Российском центре научной информации начато создание индекса научного цитирования (ИЦ РЦНИ), объединяющего доступные сведения из открытых источников.

На 01 апреля 2023 года ИЦ РЦНИ содержал сведения о 1.923.568.452 уникальных цитированиях.

Ниже приведены результаты сравнительного исследования, в рамках которого из ИЦ РЦНИ и других общедоступных источников для тестовой выборки статей были собраны перечни цитируемых и цитирующих публикаций и выполнено их сопоставление.

Дизайн сравнительного исследования

Тестовая выборка включала в себя 10 наборов статей (по 250 документов типа “journal-article” в каждом) из журналов 3-х групп издательств:


Сбор сведений о цитированиях

Сведения о цитирующих и цитируемых публикациях собирали с помощью API-интерфейсов ИЦ РЦНИ и баз данных (далее – БД) CrossRef, COCI, OpenAlex, Dimensions, Semantic Scholar и Scopus. API Lens является платным сервисом, поэтому перечень из 2500 DOI был импортирован в БД Lens и затем выгружен вместе с метаданными и доступными показателями, среди которых количество цитирующих публикаций и идентификаторы источников в списках пристатейной литературы.

Все запросы были выполнены в период с 30 по 31 марта 2023 года.

В таблицах 1-8 приведены фрагменты собранных данных.

ИЦ РЦНИ

Текущая конфигурация API-интерфейса ИЦ РЦНИ в ответ на отправку DOI возвращает JSON-структуру со списком DOI цитирующих и процитированных публикаций, а также отметкой о наличии искомого DOI в ИЦ РЦНИ.


CrossRef


COCI


OpenAlex


Lens


Dimensions


Semantic Scholar


Scopus

В БД Scopus сбор сведений о количестве цитирований выполняли с помощью Scopus Citation Count API, который для 1103 статаей вернул ошибку 403 x-els-status : AUTHENTICATION_ERROR - Requestor configuration settings insufficient for access to this resource. Смена ключа API не изменила ситуацию.

В виду немногочисленности статей, найденных в Scopus по идентификаторам DOI, показатели этой БД были исключены из сравнительного анализа.


Доля статей, не найденных в базах данных

Запросы к API CrossRef вернули сведения обо всех статьях, что объясняется дизайном исследования (статьи отбирались из БД CrossRef).

Все статьи также были найдены в БД Lens, что указывает на регулярный импорт сведений из CrossRef. Однако, было бы неверным считать, что сведения в Lens являются копией CrossRef – так, для 13 статей из тестового массива описания в Lens содержали по 2 DOI, указывающие на их различные языковые версии.

В COCI не найдена лишь 1 статья (DOI 10.1007/s41906-020-0784-x).

В OpenAlex не удалось найти сведения о 16 статьях – все они относятся к подгруппе C:2022 (статьи из журналов российских издателей 2022 года).

Статьи из этой же тестовой группы не найдены и в ИЦ РЦНИ (19 статей).

Количество статей, для которых запросы к API Dimensions Metrics вернули ошибку (404: Not Found) было ощутимо выше – 121, при этом большая часть из них относилась к группам А (статьи из журналов крупных зарубежных издателей). Выборочный анализ статей, не найденных в базах данных, показал присутствие среди них таких документов, как Book Reviews, Index, Calendar, Inside Back Cover, In This Issue, Issue Editorial Masthead, Content of Volume, Instructions to Authors.

Вероятнее всего, политика отбора публикаций в Dimensions исключает перечисленные типы публикаций из индексации.

Фильтр type:journal-article, который использовали в запросах к API CrossRef с целью получения массива статей, позволил исключить из выборки DOI, относящиеся к выпускам, монографиям, главам книг, тезисам конференций, но оказался малоэффективен против документов, которые не являются научными статьями (обзоры книг, оглавления, предметные указатели, страницы обложек и т.п.).

Запросы к API Semantic Scholar не вернули ответ для 281 статьи.

Для дальнейшего сравнения использовали набор статей (2151 документ), который был найден во всех базах данных.


Сравнительный анализ. Списки пристатейной литературы

Идентификаторы в списках процитированных источников

Присутствие в списках пристатейной литературы идентификаторов публикаций – главное требование для создания сети и индекса цитирования. В БД CrossRef не все источники в списках литературы содержат идентификатор DOI, некоторые записи представлены в виде текстовых строк без идентификаторов. Для включения подобных записей в индекс цитирования необходимо сначала найти в базе данных идентификаторы соответствующих документов. Такую работу выполняют все разработчики индексов научного цитирования, но полное распознавание со 100%-ной точностью является чрезвычайно трудоемкой задачей.

Как следствие, в различных базах данных для одной и той же статьи количество процитированных источников, имеющих сопоставленный идентификатор, может существенно варьировать. В таблице 10 можно обнаружить многочисленные примеры таких расхождений.

Например, статья “Integral representation for the sum of a power series and polynomial expansions”(в таблице 10 можно найти по DOI 10.1007/bf00971504), опубликованная в 1990 году в Сибирском математическом журнале, содержала 12 процитированных источников. Из 12 источников в БД CrossRef и COCI идентификаторы DOI известны только для 3, в БД OpenAlex – только для 2, в БД Semantic Scholar – для 6, в Lens – для 7. Но и в Semantic Scholar, и в Lens в списке процитированных источников появляется публикация, которая отсутствует в оригинальной статье 1990 года, причем по названию полностью совпадает с одной из процитированных работ. В результате этого вместо ссылки на русскоязычное учебное пособие “Александров И.А., Соболев В.В. Аналитические функции комплексного переменного.” 1984 года появляется ссылка на монографию профессора D.R. Curtis из Северо-Западного университета (г. Эванстоун, США) 1926 года.

На иллюстрации ниже для каждой пары баз данных (БД 1 и БД 2) показано сравнение количества статей, для которых число процитированных источников, имеющих идентификатор в одной из баз данных, выше чем в другой базе данных. Для наглядности результаты сгруппированы в 6 блоков, внутри которых показаны сравнения БД, чье название указано в заголовке блока, со всеми остальными источниками. База данных с большим количеством статей в паре находится справа от вертикальной оси, с меньшим – слева. Сравнение проводили на массиве статей из всех тестовых групп (А-С), которые были найдены во всех БД (2151 статья).

Пример прочтения: в блоке CrossRef первая пара рядом со столбцами содержит надписи CR:213 и S2:1036, что означает следующее:

  • 213 статей в CrossRef имеют в списках литературы больше источников с идентификаторами, чем в Semantic Scholar;

  • 1036 статей в Semantic Scholar имеют в списках литературы больше источников с идентификаторами, чем в CrossRef.

Количество статей, которые имеют одинаковое число процитированных источников с идентификаторами в CrossRef и Semantic Scholar, на иллюстрации не приведено, но может быть вычислено следующим образом: 2151-1036-213=902.

Приблизительно в половине статей из тестового массива БД Semantic Scholar (и для трети – Lens) предлагали большее число идентификаторов в списках процитированных источников, чем OpenAlex, CrossRef, COCI и ИЦ РЦНИ. Но аккуратность идентификации цифровых объектов, которые поставлены в соответствие процитированным источником, требует дополнительной оценки.

ИЦ РЦНИ предлагал больше идентификаторов для списков процитированной литературы в сравнении с CrossRef для 311 статей, с COCI – для 386, с OpenAlex – для 235, с Semantic Scholar – для 251, с Lens – для 127 статей.


Суммарное количество процитированных источников с идентификаторами

В таблице 11 показано суммарное количество идентификаторов в списках пристатейной литературы для статей из 10 тестовых групп. В крайнем правом столбце “Всего” приведена сумма значений по всем группам.

Эти же данные приведены в виде иллюстрации.

Статьи из журналов группы B содержали существенно больше процитированных источников с идентификаторами в списках пристатейной литературы, что связано с двумя факторами:

  • длина списка пристатейной литературы (в т.ч. и без идентификаторов) в изданиях группы B в среднем существенно больше (43), чем в группах А (17) и С (13);

  • группа B была сформирована из издателей, выпускающих преимущественно журналы открытого доступа. В группах А и С некоторые издатели все еще не открыли в CrossRef списки пристатейной литературы и не позволяют роботам собирать эти сведения со своих веб-платформ.


Доля статей без идентификаторов в списках пристатейной литературы

В массиве статей тестовых групп B:2020 и B:2022 доля статей, у которых в списках пристатейной литературы отсутствуют идентификаторы, варьирует от 2 до 7%, тогда как аналогичный показатель в группах А – от 31 до 48%, а в группах C – от 55 до 78% (Таблица 12).

Эти же данные представлены в виде иллюстрации

Частота присутствия идентификаторов в списках пристатейной литературы зависит не столько от базы данных, сколько от политик и практик конкретных издательств. Молодые издательства группы B, которые стремятся отвоевать часть международного рынка у издателей группы А, сделали ставку на использование современных технологий издания и распространения контента (модернизация платформ, использование идентификаторов цифровых объектов, современных схем метаданных и открытых лицензий), что позволяет им повышать лояльность клиентов (авторов научных работ) и повышать свой доход.


Сравнительный анализ. Цитирующие публикации

В таблице 13 для каждой статьи тестового массива показано количество цитирующих публикаций в рассматриваемых базах данных.

Первая же строка (DOI: 10.2307/2065522) демонстрирует негативные последствия практик распознавания процитированных источников с присвоением наиболее подходящего цифрового идентификатора. Упомянутая публикация с названием “Review: [Untitled]” была опубликована K.L.Scheppele в 1980 году в журнале Contemporary Sociology и является рецензией на книгу 1978 года “Woman and Nature” S.Griffin). В БД CrossRef метаданные рецензии и оригинальной работы причудливо перемешались, что, по всей видимости, стало причиной ошибочного приписывания рецензии цитирований, которые относятся к оригинальной книге. Если в БД CrossRef публикация K.L.Scheppele имеет 0 цитирований, то в БД OpenAlex – 151, в БД Lens – 253, а в БД Semantic Scholar – 377 цитирований. Аналогичный пример – полустраничный обзор книги “Advances in carbohydrate chemistry and biochemistry” из журнала Carbohydrate Research (DOI: 10.1016/0008-6215(80)90021-x), который в OpenAlex, Lens и CrossRef имеет 0 цитирований, а в Semantic Scholar – 79!

В столбце Х таблицы 13 отмечены 10 статей с наибольшими значениями среднего квадратичного отклонения для показателей цитируемости.

На иллюстрации ниже для каждой пары баз данных (БД 1 и БД 2) показано сравнение количества статей, для которых число цитирований в одной базе данных выше, чем в другой базе данных. Для наглядности результаты сгруппированы в 7 блоков, внутри которых показаны сравнения БД, чье название указано в заголовке блока, со всеми остальными источниками. База данных с большим количеством статей в паре находится справа от вертикальной оси, с меньшим – слева. Сравнение проводили на массиве статей из всех тестовых групп (А-С), которые были найдены во всех БД (2151 статья).

Пример прочтения: в блоке CrossRef первая пара рядом со столбцами содержит надписи CR:112 и S2:499, что означает следующее:

Количество статей, которые имеют одинаковое число цитирующих публикаций в CrossRef и Semantic Scholar на иллюстрации не показано, но может быть вычислено следующим образом: 2151-112-499=1540.

От 10 до 25% статей из тестового массива в БД Lens и БД Semantic Scholar имеют большее число цитирований, чем в OpenAlex, CrossRef, COCI и в ИЦ РЦНИ. Аккуратность идентификации цифровых объектов, которые определяют цитирования, требует отдельной оценки.

ИЦ РЦНИ предлагал больше цитирований в сравнении с CrossRef для 297 статей, с COCI – для 305, с Dimensions – для 141, с OpenAlex – для 88 статей.


Суммарное количество цитирующих публикаций

По суммарному количеству цитирующих публикаций ИЦ РЦНИ превосходит CrossRef и COCI, но уступает БД OpenAlex, Lens, Dimensions и Semantic Scholar.

Приведем несколько примеров, указывающих на то, что показатели Lens и Semantic Scholar могут быть завышены из-за применения ими алгоритмов объединения записей.

Статья “Базовый доход. Радикальный проект для свободного общества и здоровой экономики”, вышедшая в журнале “Экономическая социология” в 2020 году (DOI: 10.17323/1726-3247-2020-1-44-59), представляет из себя первую главу из переводного издания книги “Basic Income: A Radical Proposal for a Free Society and a Sane Economy”, выпущенной в свет в 2017 году издательством Harvard University Press. Англоязычная версия метаданных для публикации 2020 года содержит оригинальное название и имена авторов книги 2017 года. Возможно, по этой причине статья в БД CrossRef и OpenAlex имеет всего 1 цитирование, в Dimensions – 6, а в Semantic Scholar – 176!

Публикация об ошибке (erratum) с DOI 10.3389/fped.2019.00521/ в БД CrossRef, COCI, OpenAlex и Semantic Scholar имеет 1 цитирование, но в БД Lens – 52 (именно столько цитирований имеет оригинальная статья по версии Altmetrics)!

Публикация “Male condition and group heterogeneity predict extra-group paternity in a Neotropical bat” в журнале (DOI: 10.1007/s00265-020-02919-9) в CrossRef и в OpenAlex не имеет цитирований, в Lens и Semantic Scholar имеет 1 цитирование, а в Dimensions – 25, при этом все они приписаны разным главам одной монографии (а также прологу, предисловию и фронтиспису).

Подобные примеры показывают как алгоритмы, применяемые при наполнении и актуализации БД Lens, Dimensions и Semantic Scholar, могут влиять на интегральные показатели публикационной активности.


Доля статей с ненулевым цитированием

Для большинства групп в ИЦ РЦНИ доля статей, имеющих хотя бы 1 цитирование, была выше, чем в БД CrossRef и БД COCI, но ниже, чем в остальных базах данных. Исключением стали группы B:2022 и C:2022 по причине того, что момент исследования приходился на период между обновлениями ИЦ РЦНИ (ежемесячно), поэтому свежие данные с цитирующими статьями еще не были загружены.

Различия показателя “Доля статей, имеющих хотя бы 1 цитирование” в исследуемых базах данных можно оценить как “умеренные” – так, для группы A:1990 показатель варьировал от 63 до 69%, для группы А:2010 – от 50 до 58%, для B:2020 – от 55 до 62%.

Эти же данные представлены в виде иллюстрации.

Ограничения исследования

Процедуры дедупликации и присвоения наиболее вероятного цифрового идентификатора, очевидно, используемые разработчиками баз данных Dimensions, Lens и Semantic Scholar, повышают количество ошибок в этих базах данных. За исключением нескольких примеров авторы не проверяли точность соотнесения идентификаторов с цифровыми объектами и существования цитирований.

ИЦ РЦНИ включает сведения о всех доступных цитированиях, в том числе о таких, которые исключаются при расчете показателей цитируемости публикационных массивов в Scopus или Web of Science (например, цитирование между Erratum и оригинальной публикацией). Этот недостаток присутствует во всех открытых инструментах и его необходимо иметь в виду при планировании применения. В будущих релизах ИЦ РЦНИ будет включен дополнительный фильтр.


Об ИЦ РЦНИ

Дальнейшее развитие ИЦ РЦНИ позволит:

Хранение данных на серверах РЦНИ позволит обеспечивать доступность сервиса, что приобретает дополнительную значимость в условиях ухудшения работоспособности многих зарубежных ресурсов.

Доступ к функционалу ИЦ РЦНИ

Актуальную информацию о доступных API-интерфейсах ИЦ РЦНИ и вариантах получения доступа к тестовой версии сервиса Вы можете получить, отправив запрос координатору проекта – Лутай Алексею Валериевичу (отправить email).


Благодарности

Авторы выражают признательность разработчикам открытого ПО R v4.1.2, RStudio и программных пакетов:

В иллюстрациях использованы шрифты, распространяемые на условиях открытой лицензии SIL Open Font License (OFL):


© Российский центр научной информации, текст, дизайн, иллюстрации, 2023.

РЦНИ не несет ответственности за любые последствия, связанные с использованием приведенной выше информации.

Для обратной связи: написать письмо.

Информация для цитирования:

Лутай А.В. Индекс цитирования РЦНИ v.1.0 – анализ данных / А.В. Лутай, О.В. Черченко, И.Н. Чернова; Российский центр научной информации. – Текст : электронный // РЦНИ : [сайт]. – URL:https://podpiska.rfbr.ru/materials/citation_index_v1/. – Дата публикации: 18.04.2023.