Введение

В 2022 году в Российском центре научной информации (РЦНИ) были начаты работы по созданию индекса научного цитирования (ИЦ РЦНИ). Первая версия API ИЦ РЦНИ (/api/doi/), доступная с апреля 2023 года, позволяет для публикации получить перечень цитирующих и цитируемых статей. Этого достаточно, чтобы для набора публикаций построить сеть цитирования. Результаты самообследования, опубликованные на сайте РЦНИ (читать статью), продемонстрировали возможности использования данных ИЦ РЦНИ для оценки и анализа цитируемости массивов статей.

На 21 декабря 2023 г. ИЦ РЦНИ содержал 1.98 млрд уникальных цитирований.

При анализе цитируемости статей одно из ограничений связано с некорректностью сравнения показателей для публикаций разных лет. Большинство публичных API-сервисов возвращают суммарное количество цитирований, накопленных за весь период существования статьи. По этой причине исследователям приходится идти на ухищрения – например, разбивать исследуемый массив на подгруппы по году публикации и, затем, пытаться сравнивать результаты ранжирования внутри подгрупп. Проблема исчезает при появлении возможности анализировать для публикаций разных лет показатели цитируемости, рассчитанные за одинаковый период (окно цитирования).

Настоящая статья посвящена появлению нового API ИЦ РЦНИ (/api/year/), который по запросу, вместе с перечнем цитирующих и цитируемых статей, возвращает годы их публикации. Теперь, при необходимости сравнения статей разных лет, исследователь может легко рассчитать метрики на основе цитирований, полученных в течение N лет после года публикации. Например, для публикаций 2010 и 2015 года можно выбрать 3-хлетнее окно цитирования и рассчитать для первой группы показатели, учитывая цитирования в статьях 2010-2013 гг., а для второй группы – цитирования в статьях 2015-2018 гг.

Добавление временной характеристики в сеть цитирования позволяет рассчитывать метрики цитирования, накопленного в течение определенного периода времени, и открывает широкие возможности для аналитических исследований.

В тексте ниже показаны базовые возможности использования API ИЦ РЦНИ (/api/year/) для расчета метрик.


Тестовая выборка публикаций

Для демонстрации возможностей использования API-интерфейса ИЦ РЦНИ (/api/year/) авторы сформировали выборку статей 2010-2015 гг. из 9 научных журналов по химии и проанализировали их цитируемость.

Для каждого издания отобрали по 100 публикаций каждого года типа “article” (по сведениям в базе данных OpenAlex), всего – 5400 статей. Набор фильтров для запроса к OpenAlex API: primary_location.source.issn:{issns}, publication_year:{year}, type:article, has_doi:true.

Данные о количестве цитируемых и цитирующих публикаций для cтатей из тестового массива были выгружены с помощью API ИЦ РЦНИ 26 января 2024 г., всего – 431.139 пар DOI-DOI (табл. 2).


Использование API для расчёта N-летних метрик

1. Удельная цитируемость для публикаций в первые N лет

Простейшей метрикой, которую можно рассчитать на основе цитирований, является N-летняя удельная цитируемость – количество цитирований, накопленных в следующие N лет после года публикации. Для исследуемых подгрупп (100 статей в каждой) были рассчитаны средние значения показателя для N от 2 до 5 лет.

2. H-index первых N лет

Одной их метрик для оценки цитируемости набора публикаций является индекс Хирша. Для описания цитируемости публикаций в группах равного размера, накопленных за одинаковый период времени, индекс Хирша является достаточно выразительной метрикой, более устойчивой к “статистическим выбросам” по сравнению с предыдущим показателем. На рисунке проиллюстрировано изменение индекса Хирша для выбранных подгрупп в зависимости от окна цитирования (N).

3. Динамика доли процитированных статей в первые N лет

Сведения о распределении цитирующих статей по годам позволяют оценить снижение доли публикаций, не получающих цитирований.


Использование API для изучения возраста ссылок

4. Анализ возраста цитируемых статей

Возраст публикаций в списке процитированной литературы отражает сложившиеся в предметной области практики цитирования и, конечно, политику журнала. В исследуемой выборке в статьях ANGEWANDTE CHEMIE IE самое низкое медианное значение возраста процитированных публикаций (5 лет), у RUSSIAN CHEMICAL BULLETIN – самое высокое (9 лет).

5. Анализ возраста цитируемых статей (сравнение с Scopus)

Поиск статей из исследуемого массива был выполнен в базе данных Scopus 28 января 2024 г. По идентификаторам DOI в Scopus удалось найти только 5207 публикаций из 5400 статей.

Распределение не найденных статей по году публикации относительно равномерно – от 2.5 от 4.5%, распределение по журналам – для 8 журналов от 0% (SCIENCE CHINA CHEMISTRY) до 4.6% (CHEMISTRY LETTERS), за исключением журнала ANGEWANDTE CHEMIE IE, для которого процент ненайденных статей составил 14.2%. Дальнейшие сравнения проводили на массиве из 5207 статей, найденных в обеих базах данных.

API ИЦ РЦНИ возвращает источники, имеющие идентификаторы DOI, тогда как экспорт из Scopus позволяет получить все процитированные источники.

Не все процитированные источники, возвращаемые Scopus, привязаны к проиндексированным статьям!

Тем не менее, наличие полной библиографической записи позволяет извлечь из результатов экспорта год публикации каждого источника. Мы включили эти данные в сравнение, чтобы оценить различия в анализируемых базах данных.

Доля процитированных источников, возвращаемых API ИЦ РЦНИ, для ANGEWANDTE CHEMIE IE и JACS достигает 95-96% от количества ссылок в Scopus, но для журналов MENDELEEV COMMUNICATIONS и RUSSIAN CHEMICAL BULLETIN составляет лишь 76% и 66%, соответственно. Причины того, что треть источников, процитированных в статьях RUSSIAN CHEMICAL BULLETIN, отсутствует в выгрузке API ИЦ РЦНИ, разнообразны:

  • наличие в списках литературы публикаций, вообще не имеющих DOI;

  • отечественные практики цитирования;

  • сложность получения метаданных для статей из отечественных научных журналов (отсутствие реестров, практики разметки веб-сайтов).

Для ряда журналов дополнительные источники, присутствующие только в выгрузках из Scopus, сместили границу третьего квартиля в сторону более старых ссылок, при этом граница нижнего квартиля осталась без изменений, а медианное значение изменилось только для журналов MENDELEEV COMMUNICATIONS и RUSSIAN CHEMICAL BULLETIN.

Ссылки старше 10-15 лет, без сомнения, представляют большую значимость для изучения развития научной мысли, но верно и то, что для многих других задач, к примеру, связанных с оценкой продуктивности и влиятельности существующих научных коллективов, настолько старые ссылки представляют весьма ограниченную ценность.


Ошибки и причины их появления

По разным причинам сведения о годе публикации в разных базах данных могут быть некорректны. В случаях, когда сведения из разных источников очевидным образом противоречат друг другу, ошибку можно идентифицировать, а иногда даже исправить с помощью процедур отбора и проверки.

Некоторое количество статей с ошибочным годом публикации всегда присутствует в любой базе данных.

В рамках данного исследования было принято решение считать ошибкой случаи, когда цитируемый документ Х на 1 год (или более) старше, чем цитирующий его документ Y, т.е. Y цитирует X, но год(Х) - год(Y) >= 1.

Частота ошибок варьировала от 0 до 0.027%. Средняя частота ошибок по всем журналам составила 0.010% от общего количества найденных цитирований (примерно 10 ошибок на 100 тысяч цитирований).

В 7 случаях (17% от 41) DOI с ошибочным годом относятся к изданиям IUPAC Standards Online и Pure and Applied Chemistry (оба – издательство Walter de Gruyter GmbH), в номерах которых повторно опубликованы давно вышедшие статьи. Такие статьи называются репринтами и при должном оформлении ссылки на оригинальную версию публикации не нарушают никаких правил, но могут создавать путаницу с определением года статьи. Так, оригинальная версия статьи The exciton model in molecular spectroscopy была опубликована в 1965 году и содержала 26 процитированных источников. Репринтная версия была опубликована в 2009 году с расширенной библиографией, содержащей более 1000 процитированных источников.

В 12 случаях (29% от 41) DOI относились к главам из книжных серий издательства Springer, и сведения об этих публикациях в CrossRef и OpenAlex содержали ошибочный год публикации. Так, глава Asymmetric Processes Catalyzed by Chiral (Salen)Metal Complexes, которая в исследуемой выборке цитировалась в статьях 4 из 9 журналов, была опубликована в серии Topics in Organometallic Chemistry в 2004 году, но в метаданных самая ранняя из дат указывает на 2012 год.


Получение доступа к API ИЦ РЦНИ

Доступ к API предоставляется по запросу (для резидентов РФ – бесплатно).

Направьте на email-адрес письмо со следующей информацией:

  1. ФИО, должность, место работы;

  2. Для каких целей Вы планируете использовать ИЦ РЦНИ;

  3. Количество обращений в месяц, которое Вы предполагаете делать;

  4. Желаете ли Вы в будущем получать от РЦНИ информацию о появлении новых интерфейсов.

Мы будем рады ответить на Ваши вопросы и, если сможем, помочь Вашим исследованиям.


Благодарности

Авторы выражают признательность разработчикам открытого ПО R, RStudio и программных пакетов:

В иллюстрациях использованы шрифты, распространяемые на условиях открытой лицензии SIL Open Font License (OFL):


© Российский центр научной информации, текст, дизайн, иллюстрации, 2024.

РЦНИ не несет ответственности за любые последствия, связанные с использованием приведенной выше информации.

Для обратной связи: написать письмо.

Информация для цитирования:

Лутай А.В. API-интерфейс РЦНИ для анализа динамики цитирования / А.В. Лутай, О.В. Черченко; Российский центр научной информации. – Текст: электронный // РЦНИ: [сайт]. – URL: https://podpiska.rcsi.science/materials/citation_index_year/. – Дата публикации: 30.01.2024.