УДК 001.38 ББК 72.4+73.4
ОБ ОДНОМ ПОДХОДЕ К ТИПИЗАЦИИ УЧЕНЫХ ПО БИБЛИОМЕТРИЧЕСКИМ ДАННЫМ
Васильев И. И.1,
(Московский физико-технический институт, Москва) Чеботарев П. Ю.
(ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва)
Предложен набор показателей для решения задачи типизации ученых по библиометрическим данным методами кластерного анализа. Алгоритм иерархической кластеризации Уорда применен к множествам математиков, физиков и психологов с высокими показателями цитируемости. Анализ полученных результатов позволяет не только выделить устойчивые типы ученых, но и исследовать отличия разбиений ученых на группы в различных научных дисциплинах.
Ключевые слова: типизация ученых, наукометрия, библиометрия, индексы цитирования, кластерный анализ, Google Scholar.
1. Введение
Количество ученых в мире продолжает расти быстрыми темпами. Еще быстрее растет число публикуемых научных работ. Однако прирост количества не означает прирост качества, представляющего в науке главную ценность.
Критерий качества исследований должен быть центральным при принятии решений в области научной политики [5, 6].
1 Илья Игоревич Васильев, бакалавр, студент магистратуры ([email protected]).
2 Павел Юрьевич Чеботарев, доктор физико-математических наук, заведующий лабораторией (Москва, ул. Профсоюзная, д. 65,
тел. (495) 335-18-05; [email protected]).
Для получения адекватного представления о ситуации в науке необходимо уметь решать задачи оценки влиятельности ученых и их научного вклада, типизации ученых и др. [3, 9, 10, 13].
В данной работе мы сосредоточимся в основном на последней задаче. Можно ли выделить отчетливые «типы» ученых, характеризующиеся стилем их работы, динамикой восприятия их научным сообществом, влиянием их публикаций и т.п.? Каковы доли ученых, относящихся к каждому из типов? Сильно ли эта типизация зависит от области науки?
Цель статьи - выяснить, могут ли осмысленные ответы на эти вопросы быть получены на основании простейшей информации о цитировании, предоставляемой библиографическими базами данных, такими как Web of Science, Scopus, Microsoft Academic Search, Google Scholar. В качестве источника данных в статье используется Google Scholar - открытая база с самым широким охватом исследователей и источников.
Применяемый подход основан на следующей идее. Типы ученых могут не описываться «из головы», а выявляться в результате кластеризации (т.е. машинного обучения без учителя) множества исследователей по показателям цитируемости и интерпретации найденных кластеров.
Анализу научной активности на основании библиометриче-ской информации посвящено большое и быстро растущее число работ (см., например, [1, 3, 5-8]). Для оперативного отслеживания потока публикаций по наукометрии может быть использован интернет-ресурс Sciencemetrics.
Одной из наиболее близких к данной статье по постановке задачи является работа [14]. В ней для кластеризации ученых используется евклидово расстояние между индивидуальными профилями цитируемости, нормализованное делением на общие количества ссылок в каждом профиле. Эта метрика относится к интегральным. Для более тонкого учета особенностей зависимости цитируемости от времени в настоящей работе используется ряд дифференциальных характеристик. Сравнимый подход был применен в [9], где в дополнение к общему числу ссылок и индексу Хирша для характеристики кривых цитируемости использовался так называемый индекс перфекционизма, штрафующий за низкоцитируемые статьи, причем кластеризация проводилась
в группах ученых, однородных по академическому стажу, и отдельно для разных периодов времени. Однако фокусом исследования в [9] была не типизация ученых, как в настоящей статье, а оценка их влиятельности. Рафинированную дифференциальную меру, а именно фрактальную размерность кривой цитируемости, те же авторы предлагают и исследуют в следующей своей статье [10], но эта мера пока не использовалась для кластеризации ученых.
Отметим интересный содержательный подход к ранжированию ученых, предложенный в [4, 13] и использующий метод Linstrat. Определенным ограничением, связанным с этой методикой, является относительная сложность первичной подготовки данных об ученых. А именно, требуется специальное «кодирование» трудов каждого автора с использованием общих или специальных таксонометрических справочников (таких как ACM CCS 2012).
В отличие от этого, подход, используемый в данной работе, не требует никакой специальной (и не полностью формализованной) подготовки данных.
2. Основные понятия и используемые показатели
Под библиометрией понимается применение математических и статистических методов к изучению печатных изданий разного рода. В данной работе используются лишь библиомет-рические показатели [1, 7, 8], характеризующие цитирование работ ученых (и косвенно - их публикационную активность). Источником данных является платформа Google Scholar, предоставляющая открытый доступ к информации о научных публикациях и их цитировании. Каждый ученый, зарегистрированный в этой системе, указывает до пяти ключевых слов («тегов»), характеризующих область его научной работы. К профилю ученого в Google Scholar подключены библиографические описания его публикаций, для каждой публикации - информация о работах, где имеются ссылки на нее, а также ряд интегральных показателей: гистограмма ссылок на работы ученого по годам, индекс Хирша [11], индекс Хирша за последние пять лет, индекс i10 (число работ, цитируемых не менее десяти раз),
общее число ссылок на работы автора, количество ссылок за последние 5 лет.
В число используемых для кластеризации показателей могут быть включены, в частности, следующие показатели, которые можно назвать кумулятивными, поскольку они являются неубывающими функциями от времени:
1. Индекс Хирша - наибольшее число h публикаций автора, на каждую из которых имеется не менее чем h ссылок;
2. Индекс i10 - число публикаций автора, на которые имеется не менее десяти ссылок;
3. Число ссылок на работы автора.
Кроме классических индексов цитируемости, в работе используются несколько производных показателей, которые будем называть структурными.
Идея их введения состоит в следующем. Одной из целей исследования является идентификация тех черт научной активности и реакции на нее, которые долгое время могут сохраняться на протяжении исследовательской карьеры - даже при заметном росте кумулятивных показателей. Естественным при этом является свойство масштабируемости, т.е. сохранения значения показателя при пропорциональном изменении годовых количеств ссылок на работы автора за весь рассматриваемый период.
Воспользуемся следующей терминологией. Под убыванием годовой цитируемости будем понимать уменьшение числа ссылок на работы автора за год по сравнению с числом ссылок за предыдущий год, составляющее более 4%. Аналогично прирост годовой цитируемости - это увеличение годового числа ссылок на работы автора более чем на 4%. Использование этих терминов позволяет незначительные колебания цитируемости трактовать как стабильность. Порог неразличения (здесь - 4%) может варьироваться.
Ниже описанию каждого из предлагаемых структурных показателей предшествует его обозначение.
1. Add (от «addition») - сумма приростов годовой цитируемости с 2000 по 2015 г., отнесенная к среднегодовому числу ссылок. Если имеется начальный отрезок этого периода, за который работы автора не цитировались, то он исключается из периода усреднения: этот отрезок, скорее всего, предшествует профессиональной «инициации» ученого.
Данный показатель характеризует относительный рост цити-руемости за исследуемый период, достигнутый за счет «существенных» (более 4%) годовых увеличений.
2. Ded (от «deduction») - аналогичный предыдущему показатель, измеряющий относительную величину убывания за рассматриваемый период. Он равен сумме годовых убываний ци-тируемости с 2000 по 2015 г., отнесенной к среднегодовому числу ссылок автора. Если имеется начальный отрезок этого периода, за который работы ученого не цитировались, то он исключается из периода усреднения.
3. Ssc («sign switching count») - количество смен знака разности смежных «существенных» годовых приращений цитируе-мости в течение зафиксированной карьеры ученого (не ранее чем с 1977 г.) до 2015 года. Указанную смену знака можно также охарактеризовать как локальный экстремум годовой цитируемости.
4. Mis (от «maximal increasing series») - максимальное число лет, идущих подряд, за период исследования, на протяжении которых наблюдался прирост годового числа цитирований.
5. Mds (от «maximal decreasing series») - аналогично предыдущему показателю, максимальная длина последовательности убываний годовой цитируемости.
3. Постановка задачи
Далее в работе решается следующая задача: используя представленный набор библиометрических показателей, провести иерархическую кластеризацию нескольких множеств ученых (относящихся к разным наукам), предложить интерпретацию полученных кластеров и выяснить, выявляет ли кластеризация существенные различия между рассматриваемыми множествами ученых (и науками).
Полученная кластеризация должна давать возможность «на лету» относить ученых, не входящих в исходные кластеризуемые множества, но специализирующихся в тех же науках, к определенным классам и, тем самым, формулировать гипотезы об их роли в научном сообществе.
4. Применяемые методы
4.1. ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ МЕТОДОМ УОРДА
Напомним, что под кластеризацией понимают разбиение множества на подмножества схожих элементов. Каждое такое подмножество называют кластером. В отличие от классификации, при кластеризации подмножества не имеют ни априорных описаний, ни заранее известных представителей.
Среди алгоритмов иерархической кластеризации [2, 12] выделяются два типа: «восходящие» и «нисходящие» алгоритмы. Нисходящие алгоритмы работают по принципу «сверху вниз»: вначале все объекты помещаются в один кластер, который затем разделяется на все более мелкие подкластеры. Более распространены восходящие алгоритмы, которые вначале помещают каждый объект в свой индивидуальный кластер, а затем объединяют кластеры во все более крупные, пока число кластеров не уменьшится до двух. В обоих случаях строится система вложенных разбиений. Результаты таких алгоритмов обычно представляют в виде дерева, которое называют дендрограммой. Пример дендрограммы, полученной в данном исследовании, показан на рис. 1.
Важный элемент любого алгоритма иерархической кластеризации - выбор метрики - функции, определяющей расстояние между кластерами на каждой итерации. Примеры таких метрик:
1. Евклидово расстояние: р(х, х) = (хг- - х,') .
2. Квадрат евклидова расстояния: р(х, х)= ЕП (хг- - х,) .
3. Манхэттенская метрика (расстояние «городских кварталов»): р(х, х) = ЕП^г - х1 .
4. Расстояние Чебышева: р(х, х1) = тах{ |хг- - х1 '|}.
В работе используется метод Уорда [15] - достаточно признанный и обоснованный метод иерархической кластеризации. В нем в качестве расстояния между кластерами берется прирост суммы квадратов евклидовых расстояний объектов до центров кластеров, получаемый в результате объединения этих кластеров. На каждом шаге алгоритма объединяются два кластера, самые близкие в указанной метрике. В методе Уорда важную
роль играет так называемая «стоимость слияния», которая для двух множеств A и B рассчитывается по формуле
A(A, B) = —A В \\гпл - mB\\2, где mj - центр кластера j.
пА + пв ■ J
Cluster Dendrogram
.■¿ДкгСй.
Рис. 1. Пример дендрограммы иерархической кластеризации.
Вертикальные линии соответствуют выделенным кластерам
На первой итерации сумма квадратов равна нулю, так как каждый объект образует отдельный кластер. Затем по мере объединения кластеров эта сумма растет: на каждом шаге объединяются два кластера, «стоимость слияния» которых минимальна.
Кластеризация сродни выработке понятий. Для оценки их четкости мы варьируем множество объектов и набор показателей. На следующем этапе исследования для этой цели будут использованы также математические индексы качества кластеризации.
4.2. ИСПОЛЬЗУЕМЫЕ СРЕДСТВА РАЗРАБОТКИ
Анализ данных разделяется в работе на два этапа. Первый -сбор и первичная обработка данных, второй - кластеризация и интерпретация результатов.
Модули сбора данных реализованы на языке программирования Python с использованием библиотек BeautifulSoap и Sele-
¿JIti rd гЬ-^Г^цкГ^ск.
nium. Хранение организовано в базе данных Postgre, находящейся в свободном доступе.
Анализ данных проводится с использованием языка программирования R со встроенными библиотеками кластеризации, построения диаграмм и др.
5. Методика исследования
Для исследования отобраны четыре множества ученых. Они составлены из наиболее цитируемых ученых - тех, которые образуют начальные фрагменты выдачи при поиске в системе Google Scholar по тегам «Mathematics», «Physics» и «Psychology». Таким образом получены следующие множества:
а. «Математики» - первые 500 авторов при поиске по тегу «Mathematics».
б. «Математики+» - 543 ученых, полученных поиском по тегу «Mathematics» со сдвигом на 198 позиций. Тем самым это множество включает 302 «последних» ученых из множества «Математики» и отличается от него примерно на 45%.
в. «Физики» - 515 ученых с тегом «Physics». 99,2% из них не входят в множество «Математики».
г. «Психологи» - 556 ученых с тегом «Psychology». Все, кроме одного, не входят в множество «Математики».
Данные были получены из системы Google Scholar с помощью скрипт-файла на языке Python. Имена ученых не анализировались и не сохранялись; записи, идентифицированные индивидуальными кодами, заносились в базу данных Postgre.
Отметим, что полученные выборки пригодны для типизации не всех ученых, а лишь весьма успешных - тех, чьи работы получили заметное признание. Более тонкая особенность этих выборок: в них входят ученые, в числе тегов указавшие не только частные разделы своей науки, но и название науки в целом.
Для работы с данными использовался язык R. Выбранные показатели имели существенно разные шкалы, поэтому для сопоставимости преобразованием масштабирования они были приведены к единичной дисперсии. При представлении профилей цитируемо-сти на диаграммах годовые значения цитируемости ученых нор-
мировались на их средние значения по индивидуальным профилям.
Далее методом Уорда выполнялась иерархическая кластеризация для каждого из множеств ученых. Она строилась в двух вариантах: 1) по трем кумулятивным и пяти структурным показателям; 2) только по 5 структурным показателям. Поскольку индекс Хирша имеет довольно высокую корреляцию с показателем ПО, использовался лишь первый. Таким образом, кумулятивные показатели включали индекс Хирша (обозначение: «Ь_т<!ех»), индекс Хирша за период1 2011-2015 гг. («Ь_т<1ех_1а81;») и число цитирований за тот же период («ОМ^ай», на диаграммах - «ОМ»).
Сначала строилась кластеризация с тремя кластерами, затем их число последовательно увеличивалось до шести. Особое внимание уделялось интерпретации результатов и сравнению разных множеств и кластеризаций с разными наборами показателей.
6. Результаты и их интерпретация
Ниже приведены результаты кластерного анализа для рассмотренных множеств авторов. Читатель, интересующийся лишь выводами исследования, может сразу перейти к следующему разделу 7.
6.1. КЛАСТЕРИЗАЦИЯ МАТЕМАТИКОВ
Методом Уорда множество «Математики» было разделено на три группы (рис. 2).
1 Отметим, что если бы последний пятилетний период рассматривался в работе как «плавающий», то индексы за этот период нельзя было бы считать кумулятивными, так как они допускали бы убывание.
Первый1 кластер, составляющий примерно половину множества «Математики», характеризуется следующими признаками.
1. Давнее начало карьеры (в 2000 г. уже достаточно высокий уровень цитируемости).
2. Рост цитируемости в среднем не очень быстрый и по преимуществу линейный, у некоторых - с насыщением. Средние значения ряда показателей по этому кластеру2:
а. h_index_last/h_index = 0,62;
б. ^^^ = 740.
3. Убывание годовой цитируемости встречается регулярно и имеет заметную амплитуду:
а. ssc = 13,25;
б. ded/add = 0,5 (существенное убывание составляет половину от существенного прироста);
в. mds/mis = 0,68 (максимальные последовательности убывания составляют чуть более 2/3 от максимальных последовательностей возрастания).
Второй кластер включает чуть менее четверти множества и характеризуется следующими признаками.
1. Также достаточно давнее начало карьеры.
2. Рост годовой цитируемости более быстрый, чем в первом кластере, и нелинейный - функция выпукла вниз; средние:
а. h_index_last/h_index = 0,67 - несколько выше, чем для первого кластера; 2/3 текущего значения индекса Хир-ша накоплены3 за последнюю пятилетку;
б. Citat_last = 2490 - в 3,4 раза выше, чем для первого кластера.
3. Убывание цитируемости встречается реже, чем в первом кластере и имеет существенно меньшую амплитуду:
1 Не всегда «первый» - это кластер, расположенный на диаграмме слева.
2 Знак «=» используем как для точных, так и для приблизительных равенств.
3 Отметим, что индекс Хирша, в отличие от общего числа цитирований, не аддитивен по времени.
а. 880 = 11,55;
б. аеа/ааа = 0,26;
в. md8/mi8 = 0,47.
Оставшаяся четверть множества «Математики» (кластер 3) - достаточно молодые и весьма успешные ученые.
1. В 2000 г. их цитируемость еще незначительна, а чаще отсутствует.
2. Рост цитируемости быстрый и ускоряющийся;
а. Ь_^ех_1а81;/Ь_^ех = 0,81 - существенно большая доля накоплена за последние годы;
б. Сйа1;_1а81 = 1450 - по общему числу цитирований они вдвое обгоняют кластер 1 и постепенно приближаются к более опытным ученым из кластера 2.
3. Убывание годовой цитируемости встречается редко и
несравнимо по амплитуде с возрастанием:
а. 880 = 4,78;
б. ded/add = 0,14;
в. mds/mis = 0,26 - все эти показатели примерно вдвое ниже, чем в предыдущем кластере.
Для краткости выделенные три группы ученых можно охарактеризовать следующим образом.
Кластер 1 - «пахари»: ученые, добившиеся высоких показателей многолетним результативным трудом, не принесшим, однако, широко признанных достижений (для последних характерен ускоряющийся, «вирусный» рост цитируемости).
Кластер 2 - «лидеры»: опытные ученые, имеющие достаточно известные достижения, обеспечившие им рост годовой цитируемости, опережающий публикационную активность автора и, как правило, ускоряющийся (функция выпукла вниз).
Кластер 3 - «смена», будущие лидеры, уже имеющие яркие достижения, позволившие в среднем обогнать «пахарей» по общему числу цитирований.
Cluster 1 22.2 %
Cluster mean value 1 II
2000 2001 2002 2003 2004 200S 200« 2007 2008 2009 2010 2011 Year Cluster iraw parameters 1.2 J?08 ^^7 ><M ВййЙйЙ 2012 2013 2014 2015 1
ч % ч ч 4 % V V 'о ''а, Ч> V X, ''<, '0 » Parameter
Лидеры
Cluster 2 25 8 % .1
____..mill II
2000 2001 2002 2003 2004 2005 200« 2007 2008 2009 2010 2011 Year Cluster 2raw parameters |»l 2012 2013 2014 2015 li
ч % ч ч 4 \ * \ * \ ч % Parameter V ъ V »
Смена
Рис. 2. «Математики»: три кластера
Cluster 3 52 % ■1
i.iiilH 1 1
2000 2001 2002 2003 2004 2005 200« 2007 2008 2009 2010 2011 Year Cluster 3raw parameters 1.0 Lm - 1 Q Q7 M Щ^Ш 2012 2013 » 2014 2015 1
V % V U \ % * X * \ \ * '<b Parameter X 4
Пахари
Анализ значений индексов по кластерам свидетельствует в пользу осмысленности введенных условных наименований. Но, строго говоря, последние служат лишь мнемоническими метками разных типов профилей показателей. Вопрос, насколько словарная семантика меток соответствует этим профилям, может быть предметом обсуждения. Однако основных результатов работы такая дискуссия не затронет, поскольку при интерпретации результатов метки могут быть заменены номерами кластеров, и останутся лишь четкие утверждения о соотношении исследуемых показателей для полученных кластеров.
6.2. ДРОБЛЕНИЕ КЛАСТЕРОВ МАТЕМАТИКОВ
Метод Уорда позволяет «продолжить» кластеризацию, в результате чего полученные кластеры в определенном порядке «разделяются»1 на компактные подкластеры. В работе проводились три итерации такого дробления.
Для множества «Математики» на первой итерации кластер «пахарей» разделился на два подкластера в количественном соотношении 2,6:1 (рис. 3). Меньший подкластер (примерно 1/7 исходного множества) объединяет математиков, у которых было высокое цитирование еще в 2000 г., в 2008-2011 гг. - в среднем наблюдается стабилизация годовой цитируемости, в 2012 г. - некоторый рост, а затем намечается спад. Часть из них, по-видимому, завершает карьеру, причем влияние их результатов со временем снижается. У них фактически ded = add, ssc = 18,12. После выделения их в подкластер у оставшихся -более высокое по сравнению с ними цитирование на конец периода исследования.
Далее разделяется кластер «смена» (рис. 4). Из него выделяются 4,2% (здесь и далее проценты указываются от всего исследуемого множества) самых молодых и успешных. В 20002002 ни у кого из них еще не было цитирований. Им абсолютно незнакомо убывание цитируемости: ded = mds = ssc = 0. Не
1 Кавычки напоминают, что логика метода Уорда обратна логике изложения: кластеры не разделяются, а объединяются, что полезно учитывать и далее.
претендуя на буквальность, эту группу можно назвать «акселераты».
Наконец, на третьей итерации разделяется (рис. 5) кластер «лидеров» (исходно он составлял 22,2%). Из него выделяются 6,2% ученых, у которых почти не было убывания цитируемости: ded/add = 0,09; ssc = 6,19 (лишь немногим больше, чем в исходном кластере молодых и высоко успешных и его менее «взрывной» части). В случае яркого продолжения карьеры в этот под-кластер по прошествии лет попадут ученые из кластера «4,2% самых молодых и успешных», выделившегося на предыдущем шаге.
А по показателям он похож на менее «взрывную» часть молодых, но заметно обгоняет ее по общему числу ссылок и индексу Хирша - в силу большего научного стажа.
6.3. КЛАСТЕРИЗАЦИЯ «МАТЕМАТИКОВ» БЕЗ УЧЕТА ОБЩЕГО ЧИСЛА ССЫЛОК И ИНДЕКСА ХИРША
Для краткости мы называем общее число ссылок и индекс Хирша кумулятивными показателями (сокращенно к.п. ). Представляет большой интерес вопрос о сравнении кластеризации, полученной выше, с кластеризацией без учета кумулятивных показателей - на основе лишь структурных показателей.
В таблицах 1 и 2 собраны значения показателей по трем начальным кластерам для выборок математиков, физиков и психологов, а именно, для «top-списков» тех, кто включил название одной из этих дисциплин в набор своих тематических тегов.
Можно заметить, что присутствие кумулятивных показателей помогает классифицировать ученых с характерным возрастающим трендом на более и менее опытных авторов (таблица 1, кластеры 1 и 3 соответственно).
Смена Пахари1
Рис. 3. «Математики»: четыре кластера
Смена1 Смена2 Пахари1
С1из1ег 1 6 2 %
Ч V ч ч ч ч ч \ \ %
Рагат^ег
Лидеры!
Лидеры2
Пахари1
При отсутствии кумулятивных показателей (рис. 6) самым большим из исходных кластеров оказывается кластер «лидеров». Он пополняется теми, кто похож на лидеров скорее структурно (по форме зависимости цитируемости от времени), чем количественно. В кластере «пахарей» теперь в среднем наблюдается не просто насыщение, а даже небольшой спад цитируемости в конце. Более того, их средний тренд цитируемости имеет характерную особенность: насыщение к 2009-2011 г., затем заметный рост в 2012 г. и новое насыщение со спадом в 2015 г. Таким образом, отказ от кумулятивных показателей приводит к кластерам, для которых отличия профилей проявляются более рельефно.
При иерархической кластеризации первым разделяется кластер «лидеров» - в пропорции 4:3 (рис. 7). Его подкластеры объединяют соответственно авторов с медленнее и быстрее растущей цитируемостью. У первых этот рост фактически линейный. При кластеризации с кумулятивными показателями эти ученые попадали в кластер «пахарей» - теперь же они вошли в кластер «лидеров». У вторых рост ускоряется; цитируемость растет быстрее, чем число собственных работ, поскольку количество труда переходит в более высокое качество результатов.
Тем самым без кумулятивных показателей в кластер «пахарей» попадают лишь те, чье влияние со временем в среднем не растет. К таким должны, в частности, относиться ученые, переставшие производить существенно новое; некоторые из них «исписались» - продолжают выдавать рутинную продукцию, не вызывающую высокого интереса коллег. Их можно условно назвать «инерционными».
Затем разделяется кластер «смены» (рис. 8): из него выделяются 4,4% самых молодых и «взрывных» (аналогично кластеризации с кумулятивными показателями) и 12,0% ученых, чья работа в среднем началась раньше, а динамика цитируемости в последние пять лет сменила ускоряющийся рост на линейный.
Лидеры
Рис. 6. «Математики»: три кластера без к.п.
Лидеры1 Лидеры2
Рис. 7. «Математики»: четыре кластера без к.п.
Смена2 Лидеры1 Лидеры2
Рис. 8. «Математики»: пять кластеров без к.п.
Наконец, третьим разделяется не кластер «пахарей», как можно было ожидать, а подкластер «лидеров с ускоряющимся ростом», составлявший 28,6% (рис. 9). Из него выделяются ученые (16,6%) с самым быстрым ускоряющимся ростом и 12,0% с несколько более высоким показателем неустойчивости роста (ssc) и всплеском роста лишь в последний год периода наблюдения.
Таким образом, приходим к выводу, что отказ от кумулятивных показателей изменяет распределение ученых по кластерам, иначе устанавливая линии разграничения между ними. Это приводит к выделению уже на первом этапе кластера «инерционных», который в присутствии кумулятивных показателей выделялся лишь на втором шаге. Ученые с быстрым линейным ростом цитируемости в отсутствие кумулятивных показателей попадают в кластер «лидеров», а в присутствии их - в кластер «пахарей». Тем самым в конечном итоге выделяются примерно те же подгруппы ученых (что свидетельствует в пользу их действительной компактности), но в ином порядке.
6.4. КЛАСТЕРИЗАЦИЯ НАБОРА «МАТЕМАТИКИ+»
«Математики+» - это множество «Математики», рассмотренное ранее, к которому добавлено чуть больше половины его численности - ученые, стоящие далее в списке, упорядоченном по убыванию годовой цитируемости, - и несколько меньший начальный отрезок множества исключен из рассмотрения. Тем самым набор данных обновлен на 48,5%.
Средний научный стаж в этом множестве ниже, чем в исходном: примерно 40% в 2000 г. имели нулевые либо пренебрежимо малые значения цитируемости. Как изменятся типы ученых, выделяющиеся в этом множестве?
При кластеризации множества «Математики+» на три группы (рис. 10) доля кластера «лидеры» выше, чем для исходного множества математиков, а доля «пахарей» ниже. Фактически размеры кластеров здесь - средние между значениями при кластеризации множества «Математики» с учетом и без учета кумулятивных показателей.
Лидеры1_2
Cluster 1 36 5 %
Cluster 1 raw parameters
Щ о.цзв
V V
i«il
X Л
%
% %
Пахари
з 2 1 5 1 III Cluster 2 43.3 % ..mill 4
200» 2001 20 1.00 0.75 •={ 0.50 0.25 В 2 200? 200« 2005 2006 200? 200S 2009 2010 2011 20 Year Cluster 2raw parameters aaAaaI 12 20132014 2015 il
\ V v \ \ \ X % \ \ ' % Parameter % % 7o 7o
Cluster 3 20.1 % 2.0 ■I
Cluster mean valu i l и T i i ■ ■ N 1
2000 2001 2002 2003 200« 2005 20052007 2006 2009 20102011 Year Cluster 3raw parameters 20122013 201-4 2015
II a
\ w x%;-» % Parameter % \
Лидеры
Рис. 10. «Математики+»: три кластера
Смена
При кластеризации «Математиков+» без кумулятивных показателей (рис. 11 ) более половины элементов кластера «пахарей», полученного с учетом кумулятивных показателей, переходят в кластеры «лидеров» и «смены». Остаются лишь те, у кого показатель годовой цитируемости характеризуется насыщением.
6.5. РАЗДЕЛЕНИЕ КЛАСТЕРОВ НАБОРА «МАТЕМАТИКИ+»
Первым разделяется кластер «лидеры» (рис. 12), из которого выделяется подкластер опытных авторов со средним ростом, близким к линейному (2/3 «лидеров»), и дополняющий его подкластер, объединяющий наиболее молодых лидеров с быстрым ускоряющимся ростом цитируемости (одна треть).
Далее происходит разделение кластера «пахарей» (рис. 13). В обоих подкластерах, как и в совокупном кластере, в последние годы наблюдается насыщение показателя цитируемости.
Первый подкластер объединяет чуть более трети авторов с очень большим стажем: у них почти вдвое выше значения показателей add и ded, чем в дополняющем подкластере, куда входят также опытные, но более молодые. Кроме того, в первом подкластере в 1,6 раз выше показатель ssc, т.е. заметно чаще меняется знак приращения годовой цитируемости.
Наконец, на третьем шаге разделяется не кластер «смена», а выделившийся ранее 15-процентный подкластер «наиболее молодых лидеров» (рис. 14). Из него выделяются 3,9% самых молодых и «взрывных» (h^dgx /h^dgx = 0,95), не знакомых с убыванием цитируемости. Дополняющая его часть в 2,8 раза больше, в ней стаж ученых выше (hindexiast/hindex = 0,81), а показатели убывания (ded, mds, ssc) хотя и малы, но достаточны, чтобы сделать рост цитируемости менее крутым. Показатель mds здесь равен 2,19, т.е. в среднем участник этой подгруппы имел хотя бы один двухлетний период убывания цитируемости. Эта подгруппа также состоит из достаточно молодых авторов, и профиль ее похож на профиль кластера «смена», выделившегося вначале. Вместе с тем эти авторы более опытны, чем «смена», и кумулятивные показатели цитируемости у них выше. Именно различие кумулятивных показателей в основном отличает эти две подгруппы.
Смена
Рис. 11. «Математики+»: три кластера без к.п.
Лидеры1 Смена
Рис. 12. «Математики+»: четыре кластера
Лидеры1 Смена Лидеры2
Интересно отметить, что подкластер «самых молодых и взрывных лидеров» выделился из кластера «лидеры», а не из кластера «смена». Это значит, что в случае учета кумулятивных показателей у авторов из этого подкластера качества «лидеров» проявляются сильнее, чем отличительные особенности «смены».
В отсутствие кумулятивных показателей первым разделяется кластер «смена» (рис. 15). Как и при к.п., он образует подкла-стеры авторов, не знакомых с убыванием годовой цитируемости и авторов с более медленным ростом цитируемости. Однако соотношение размеров этих подкластеров в данном случае равно примерно 1:6,5 против 1:3 ранее.
Далее происходит разделение кластера «лидеров» как обычно: на более молодых с быстрым ростом и более опытных с умеренным ростом (рис. 16). Другое заметное отличие образовавшихся подкластеров - в разнице средних показателей ssc: он в 1,4 раза выше для группы, которая в 1,6 раза меньше.
Наконец, больший подкластер кластера «смена» разделяется почти пополам (рис. 17). В чуть большей подгруппе рост более быстрый и быстрее ускоряющийся. Цитируемость в ней до 2013 г. была ниже, чем во второй, а затем становится выше.
Подробный анализ полученных результатов проводится в разделе 7.
6.6. КЛАСТЕРИЗАЦИЯ МНОЖЕСТВА «ФИЗИКИ»
Исходные кластеры физиков (рис. 18) «пахари», «лидеры» и «смена», полученные при кластеризации по полному набору показателей, составляют соответственно 48,5%, 19,8% и 31,7%, что достаточно близко к значениям для исходного множества математиков (52,0%, 22,2%, 25,8%). Характеристики групп тоже вполне сравнимы с полученными для математиков.
При кластеризации без учета кумулятивных показателей (рис. 19) результат также структурно похож на полученный для математиков, но если для последних соотношение численностей было 1:4:1, то для физиков - 1:1,7:1, иными словами, среди физиков, кластеризуемых структурно (без к.п.), «пахарей» и «молодых» больше, чем среди математиков за счет меньшего количества «лидеров». Это подтверждает представление о физике как о более «коллективной» науке, чем математика.
Смена1 Смена2
Рис. 15. «Математики+»: четыре кластера без к.п.
Смена1 Смена2 Лидеры2
Cluster 3 13 3%
1 -..Hllllll
Year
Cluster з raw parameters
Смена2 1
Смена2_2 Лидеры2 Пахари
Рис. 18. «Физики»: три кластера
Смена
Рис. 19. «Физики»: три кластера без к.п.
6.7. РАЗДЕЛЕНИЕ КЛАСТЕРОВ ФИЗИКОВ
Несмотря на разницу в пропорциях кластеров, «разделение» кластеров физиков происходит в целом аналогично случаю математиков.
Первым разделяется кластер «пахарей» (рис. 20): на устойчиво наращивающих годовую цитируемость и «насыщающихся». Последних в 2,5 раза меньше.
Далее кластер «смена» распадается (рис. 21) на тех, чей профиль цитируемости растет медленнее и даже демонстрирует признаки насыщения, и ученых, чей профиль продолжает расти с ускорением; первых в 1,5 раза больше.
Наконец, из кластера «лидеров» выделяется 4,3% сравнительно молодых, добившихся быстрого роста цитируемости с 2010 г., и тех, у кого цитируемость в последние годы растет значительно медленнее, порой с насыщением (рис. 22). Последних в 3,6 раза больше.
При кластеризации без кумулятивных показателей сначала, как и в случае математиков, делится кластер «смена» (рис. 23): на 11,5% (от общего множества) тех, у кого цитируемость в среднем растет с ускорением и практически не убывает, и 16,1% тех, у кого после 2012 г. - явное насыщение, хотя убывание случается редко.
Далее разделяется кластер «лидеров» (рис. 24): на тех, у кого после 2010 года наблюдаются признаки насыщения и тех, у кого рост цитируемости после 2010 г. имеет высокий темп. Соотношение численности этих групп: 1,8:1
Наконец, кластер «пахари» делится в соотношении 2:1 на тех, чей профиль цитируемости в среднем сохраняет линейность роста на протяжении исследуемых 15 лет и ученых, чей профиль показывает тенденцию к снижению (рис. 25). Анализ - в разделе 7.
Лидеры Пахари1
Рис. 20. «Физики»: четыре кластера
Лидеры Смена2 Пахари1
Cluster 1 46 % 16 Cluster 2 11.5% Cluster 3 16 1 % 20 ■■I Cluster 4 26 4 % ■III
.■llllllllllllll .....■■Hill й ........nil i ■■Mlllll
2ooo 2001 гзз з 200« :эа< го и 20 J-: oos гззз го > о 20 ■■ ■■ 201 г го i з га i* га it Cluster 1 raw parameters 01 :oaa 203 1 газ г 2аоз гзз« го о; газе гоо? го о з гооэ го io го тi Year Cluster 2 raw parameters . J гонг гаи гоигои L гам 2oai 2002 гаоз гоо« гоо; гозг газ? гозз гаа» гою гои Year Cluster 3 raw parameters . J 20122013 201*2019 L 2000 2001 2002 »33 203« 203! 203«233" :SOS 2039 2010 23:l 2312 2013 201 *20i1 Cluster 4 raw parameters
Parameter Parameter Parameter Parameter
Лидеры Смена! Смена2 Пахари
Рис. 23. «Физики»: четыре кластера без к.п.
Лидеры2 Смена1 Смена2
6.8. КЛАСТЕРИЗАЦИЯ ПСИХОЛОГОВ
При иерархической кластеризации ученых с тегом «Psychology» на первом этапе наблюдаем выделение трех типов авторов, описанных выше: «пахари» (47,7% / 37,2%), «лидеры» (34,0% / 42,4%) и «смена» (18,3% / 20,3%) - в скобках сначала приведены данные кластеризации с к.п., потом - без них (рис. 26, 27). Кластер «смена» в данном случае выделяется необычайно ярко: нулевыми значениями показателей убывания годовой цитируемости - как в присутствии, так и в отсутствие к.п. Размер этого кластера во втором случае лишь незначительно больше. А вот кластер «лидеры» оказывается без к.п. больше на четверть.
Данное отличие может быть объяснено тем, что выбранные кумулятивные показатели помогают точнее выделить опытных ученых с нелинейным (ускоряющимся) ростом цитируемости в последние 10 лет (к.п. проясняют, насколько давно автор стал известен и как изменилась его «плотность цитируемости» в последний период). На основе этой информации в кластер «лидеры» включаются лишь наиболее успешные, а не достигшие соответствующего порога попадают в кластер «пахари».
Кластер «смена» здесь соответствует группе «акселераты» у математиков: в него входят молодые ученые с ускоряющимся ростом годовой цитируемости, не знакомые с ее убыванием. Но акселераты-психологи оказываются старше акселератов-математиков: первых начинают «точечно» цитировать в 20012002 г., а последних - только в 2004 г. Это подтверждает репутацию математики как области, где успеха часто добиваются уже в юности. В кластере «смена» ^jndexiast/^jndex = 0,9 (у «акселератов»-математиков это значение равно 0,92).
Достигнутый в 2015 г. уровень цитирования «смены» обгоняет уровень «пахарей» и приближается к уровню «лидеров».
6.9. РАЗДЕЛЕНИЕ КЛАСТЕРОВ ПСИХОЛОГОВ
При кластеризации по полному набору показателей первым разделяется самый большой кластер «пахари»: на треть самых опытных и две трети более молодых (рис. 28). У последних гораздо меньше случаев убывания годовой цитируемости.
Затем делится кластер «лидеры» - почти пополам: на более молодых и более опытных (рис. 29). В остальном больших отличий между ними нет.
На третьем шаге разделяется подкластер «опытных лидеров» (рис. 30): из него выделяется треть очень опытных ученых, чья годовая цитируемость в последние годы уже почти не растет. После их вычленения у оставшихся двух третей наблюдается ускоряющийся рост цитируемости с малым числом случаев убывания.
Таким образом, в отличие от предыдущих результатов кластеризации, группа «смена» в случае психологов остается цельной после трех шагов разделения кластеров.
Без кумулятивных показателей первым разделяется кластер «пахари» (рис. 31): из него выделяется одна шестая часть очень опытных авторов, у которых в 2009-2010 гг. заметно насыщение цитируемости, а позже вновь восстанавливается рост.
После ее вычленения у оставшихся 5/6 в среднем наблюдается линейный рост цитируемости с различимой тенденцией к насыщению в конце.
Затем кластер «смена», куда входят молодые авторы, не знакомые с убыванием цитируемости, делится (рис. 32) на схожие по форме профиля подкластеры (в соотношении 1:2), где в первом стаж работы выше на 60%, а цитируемость - на треть.
Наконец, последним почти поровну делится кластер «лидеры» (рис. 33). Чуть больший подкластер показывает ускоряющийся рост цитируемости, чуть меньший - почти линейный рост.
Cluster mean value ■ g rtf
2000 2001 2002 20 03 200 4 20 0 5 200 в 2007 2008 2009 2010 2011 Year Cluster 1 raw parameters 1 00 0.75 2012 20132014 2016 '1
"1 0 50 > 0.343 HHH 0.258 0 Z"
я
V V V ч ч 4 *%> v % v \ % ъ % \ Parameter Ъ X 7o
Пахари
Cluster 3 18.3%
2000 2001 2002 2003 200S 2005 2006 2007 200S 2009 2010 2011 2012 2013 20 К 2015
Year
Cluster 3raw parameters
Смена
Рис. 26. «Психологи»: три кластера
Cluster 2 34 % I I
.......Illll II I 1
2000 2001 2002 2003 2004 2005 2006 2007 2003 2009 2010 2011 Year Cluster 2raw parameters 0.75 2012 2013 ■ 2014 2016
^¡M^lNI«! I
v v V ч Ч 4 ъ \ ъ \ \ % % % % 70
Parameter
Лидеры
Cluster 1 37 2% шиШ Cluster 2 20.3 % ■ Cluster 3 42 4 %
УмЛИ Cluster mean value 1 1 ■ ■
_______.llllllll
2000 2001 2002 2003 200« 2005 200С 2007 2004 2009 2010 2011 2012 2013 2014 2015 Year Cluster 1 raw parameters 2000 2001 2002 2003 2004 2005 2000 2007 2008 2009 2010 2011 2012 2013 2014 2015 Year Cluster 2 raw parameters 1.2 г 0.3 ^^^^^ 2000 2001 2002 2003 2004 2005 2000 2007 2008 2009 2010 2011 2012 2013 2014 2015 Year Cluster 3 raw parameters ■fa Ф э 0 50 "'ИЁ^виШ
add/10 ded/10 mdsnO miiHO исЛО Parameter 30 »dd/10 ded/10 mdi'10 mitflO моПО Parameter ■dd/10 ded/10 mds'10 mitflO мсИО Parameter
Пахари Смена Лидеры
Рис. 27. «Психологи»: три кластера без к.п.
Cluster mean value ■ 1 Cluster mean value I ■ О £ II Cluster 3 308% 1......ullllll Cluster 4 18.3 % !________..mill
Cluster 1 raw parameters ^«ий^йЙ î Cluster 2raw parameters M Cluster 3raw parameters ^йкйш^ймйВЙ Cluster 4raw parameters I mm,mm,■,
Ч Ч ч Ч ч ч ч \ % Parameter \ ч \ч w4 ч Parameter ч Parameter 4 \ч \\4 4 4 Parameter
Пахари1 Лидеры Пахари2 Смена
Рис. 28. «Психологи»: четыре кластера
Лидеры1 Пахари2 Смена
i г Hill Cluster 116 Hill 9% I I
■ « Mflf »09 2007 »0» МО» М1 fear Cluster 1 raw parameters 1 1
1 ШЛи 4 \ 4 \ % Paiamete \ \ 4 ■ \ 4
Пахари!
Cluster 4 30 8%
|ia.iiiiiii!l|
Cluster 4raw parameters
4 \ 4 V ч ч 4 s
ч ч
Parameter
Пахари2
Смена Лидеры
Рис. 31. «Психологи»: четыре кластера без к.п.
Смена1 Смена2 Лидеры
Лидеры2
7. Анализ результатов
Анализу результатов предпошлем табличное описание исходной типизации ученых, которая далее будет уточнена.
7.1. РАЗДЕЛЕНИЕ НА ТРИ КЛАСТЕРА: ТАБЛИЧНОЕ ПРЕДСТАВЛЕНИЕ
В таблицах 1 и 2 представлены разделения рассмотренных множеств ученых на три кластера и приведены средние значения ряда численных показателей по кластерам.
Таблица 1. Результаты разделения на три кластера с кумулятивными показателями (рис. 2, 10, 18, 26)
Кластеры: условные названия и размеры Фактор научного стажа Динамика годовой цитируемости Колебания цитируемости
^тНех 88С ded анн тН8 т18
«Математики» (500 ученых)
«Пахари» 52,0% Давнее начало (в 2000 г. уже довольно высокая цитируемость) Рост годовой цитируемости в среднем линейный и достаточно медленный, у многих с насыщением Убывание годовой цитируемости встречается нередко и имеет заметную амплитуду
0,62 740 13,25 0,5 0,68
«Лидеры» 22,2% Давнее начало, заметная цитируемость в 2000 г. Рост цитируемости быстрее, чем у «пахарей» и ускоряется Убывание - реже и имеет существенно меньшую амплитуду, чем у «пахарей»
0,67 2490 11,55 0,26 0,47
«Смена» 25,8% В 2000 г. цитируемость низкая либо нулевая Рост годовой цитируемости быстрый и ускоряющийся Убывание встречается редко и несравнимо с возрастанием
0,81 1450 4,78 0,14 0,26
Таблица 1 (продолжение)
«Математики+» (543 ученых)
«Пахари» 36,5% Довольно высокая цитиру-емость в 2000 г. Рост цитируемости близкий к линейному, с насыщением в конце Убывания чаще и интенсивнее, чем для «пахарей» в множестве «Математики»
0,62 360 14,54 0,62 0,70
«Лидеры» 43,3% Средняя цитиру-емость в 2000 г. Рост ускоряющийся Убывания чуть больше по относительной амплитуде и чуть менее продолжительны, чем для «лидеров» в множестве «Математики»
0,72 860 8,53 0,30 0,43
«Смена» 20,1% Низкая либо нулевая цитиру-емость в 2000 г. Рост ускоряющийся, более быстрый, чем у «лидеров» Редкие колебания; убывания по размаху и времени несколько больше, чем для «смены» в множестве «Математики»
0,83 500 4,7 0,26 0,41
«Физики» (515 ученых)
«Пахари» 48,5% Давнее начало, много ссылок в 2000 г. Рост линейный; в 2014 г. признаки насыщения Довольно частые колебания с существенной амплитудой
0,58 3280 9,8 0,34 0,52
«Лидеры» 19,8% В 2000 г. немалое число ссылок До последних лет рост ускоряющийся Колебания реже и с меньшей амплитудой, чем у «пахарей»
0,65 11010 6,45 0,22 0,399
«Смена» 31,7% В 2000 г. ссылок очень мало Ускоряющийся рост годовой цитируемости Редкие колебания, убывание несущественно
0,799 9140 1,59 0,04 0,12
Таблица 1 (продолжение)
«Психологи» (556 ученых)
«Пахари» 47,7% Много ссылок в 2000 г. Почти линейный рост, признаки насыщения в 2014 г. Колебания реже и слабее, чем у «пахарей» в точных науках
0,70 1490 8,71 0,29 0,40
«Лидеры» 34,0% В 2000 г. цитиру-емость ниже, чем у «пахарей» Ускоряющийся рост Колебания реже и слабее, чем у «пахарей»; убывания меньше, чем у «смены» в множестве «Математики»
0,75 4980 5,23 0,09 0,25
«Смена» 18,3% В 2000 г. цитиру-емость ничтожная Быстрый ускоряющийся рост, много цитат в поздние годы Строго возрастающее годовое цитирование
0,90 3240 0 0 0
Таблица 2. Результаты разделения на три кластера без кумулятивных показателей (рис. 6, 11, 19, 27)
Кластеры: условные названия и размеры Научный стаж и динамика Колебания цитируемости
88С ¿еН анн тН8 т18
«Математики»
«Пахари» 17,2% Много ссылок в 2000 г., насыщение в 2007-11, затем скачок и спад Частые колебания, убывания сравнимы с приростами
18,36 0,66 0,77
«Лидеры» 66,4% Достаточно известны в 2000 г., далее ускоряющийся рост Колебания реже, приросты доминируют над убываниями
10,44 0,34 0,55
«Смена» 16,4% Низкая или нулевая цитируе-мость в 2000 г., затем быстрый ускоряющийся рост Редкие колебания, убывания незначительны
3,66 0,08 0,18
Таблица 2 (продолжение)
«Математики+»
«Пахари» 15,0% Высокий уровень цитирований в 2000 г.; рост годовой цитиру-емости с насыщениями и убыванием в конце Частые колебания, убывания почти не отстают от приростов
18,83 0,71 0,82
«Лидеры» 52,9% Заметный уровень цитирований в 2000 г.; рост слабо-ускоряющийся Колебания реже, приросты вдвое превосходят убывания
11,07 0,44 0,61
«Смена» 32,1% Очень низкая цитируемость в 2000 году; быстрый ускоряющийся рост Редкие колебания, убывания в профилях годовой цитируемости незначительны
3,96 0,18 0,31
«Физики»
«Пахари» 26,4% Много цитирований в 2000 г., далее медленный практически линейный рост Довольно частые колебания, убывания лишь вдвое отстают от приростов
13,65 0,46 0,56
«Лидеры» 46,0% Заметная цитируемость в 2000 г., слабо-ускоряющийся рост, приближаемый сплайном двух линейных участков Редкие колебания, убывания малозначимы
5,58 0,19 0,42
«Смена» 27,6% Низкая цитируемость в 2000 г., затем ускоряющийся рост Колебания пренебрежимо малы
1,3 0,05 0,1
«Психологи»
«Пахари» 37,2% Высокая цитируемость в 2000 г., затем линейный рост Приросты доминируют над убываниями; показатели колебаний примерно на уровне «лидеров» в множестве «Математики»
11,6 0,31 0,50
«Лидеры» 42,4% В среднем невысокая цитируемость в 2000 г., затем слегка ускоряющийся рост Редкие колебания, убывания незначительны; показатели -на уровне групп «смена» в множествах математиков
3,8 0,09 0,25
«Смена» 20,3% Крайне низкая цитируемость в 2000 г., быстрый ускоряющийся рост Участков убывания годовой цитируемости нет
0 0 0
Дальнейший анализ позволит уточнить эти кластеризации с помощью ранее полученных разделений ученых на 4-6 групп.
7.2. «МАТЕМАТИКИ» И «МАТЕМАТИКИ+»
При кластеризации математиков на шесть групп во всех случаях выделяется небольшая группа «самых молодых и взрывных». Без претензии на буквальность она была названа группой «акселератов». Их начинают цитировать не ранее 2004 г., но благодаря нелинейному (ускоряющемуся) росту цитируемости они быстро догоняют по этому показателю значительно более опытных ученых. Им незнакомо убывание годовой цитируемости. В исходном множестве математиков размер этой группы 4,2% при кластеризации с кумулятивными показателями и 4,4% при кластеризации без них. В множестве «Математи-ки+» - соответственно 3,9% и 4,3%. Наличие кумулятивных показателей «отрывает» от этой группы некоторых авторов, чье текущее значение цитируемости ниже, чем у остальных.
Наиболее удаленный от «акселератов» кластер - очень опытные авторы, которых активно цитировали еще в 2000 г., затем их годовая цитируемость линейно и не слишком быстро росла, но в последние годы у них наметилось насыщение или снижение этого показателя. Эта группа была условно названа «инерционные». Она составляет 14,6% (17,2%) от исходного множества математиков и 13,1% (15,0%) от множества «Мате-матики+», где первое число относится к кластеризации с кумулятивными показателями, а второе - к кластеризации без них. Мы видим, что данная крайняя группа, как и предыдущая, при отсутствии кумулятивных показателей (к.п.) показывает большую численность, однако эта разница не принципиальна. Последнее свидетельствует о том, что границы этих групп достаточно отчетливы: в «буферные зоны» попадают немногие.
Оставшиеся четыре кластера объединяют ученых с устойчивым, но не самым быстрым ростом цитируемости. В каждом случае можно выделить группу довольно молодых (впрочем, часть из них цитировалась уже в 2000 г.), но не самых «взрывных». Убывание годовой цитируемости у них случается редко. Данные по численности групп будем далее приводить в формате
(«Математики» с к.п. / «Математики» без к.п. / «Математики+» с к.п. / «Математики+» без к.п.): (27,8% / 28,6% / 30,9% / 27,8%). Эта группа (назовем ее «молодые»), как показывают приведенные цифры, достаточно устойчива, и она всегда делится на две подгруппы А и В, характеризующиеся: (A) меньшим опытом и более быстрым ускоряющимся ростом цитируемости; (В) более значительным стажем и более медленным ростом цитируемости. Границы этих подгрупп более размыты, чем границы объединяющей группы. Численности их приведем в том же формате, где первое слагаемое - размер подгруппы А: (21,6% + 6,2% / 16,6% + 12,0% / 20,1% + 10,8% / 14,5% + 13,3%). Легко заметить, что при учете к.п. более динамичная подгруппа А больше (21,6%, 20,1%) против соответственно 16,6% и 14,5% без учета к.п.
Наконец, последняя группа объединяет опытных ученых с достаточно устойчивым ростом цитируемости. Назовем их «корифеями». Численность ее в указанном выше формате составляет (53,4% / 49,8% / 52,1% / 52,9%). Как и предыдущая, эта группа делится на подгруппы А (более динамичная) и В, границы которых менее четки, чем границы группы. Их численности: (А + В) = = (16,0% + 37,4% / 12,0% + 37,8% / 28,7% + 23,4% / 32,8% + 20,1%). Здесь впервые заметно существенное отличие множеств «Математики» и «Математики+». Если в первом компактно отделяется небольшая подгруппа А более динамичных ученых (16%, 12%), то во втором она насчитывает более половины группы «корифеев».
Главный вывод: в обоих множествах каждым из методов кластеризации выделяются четыре группы с достаточно четкими естественными границами и очень небольшими транзитными зонами: «акселераты», «молодые», «корифеи» и «инерционные». Их приблизительные размеры составляют соответственно 4%, 29%, 52% и 15% и практически не зависят ни от выбранного множества, ни от способа кластеризации. Они получаются группировкой подкластеров исходных трех групп, которые были названы «лидеры», «пахари» и «смена». Исходные группы также представляют интерес, но, по-видимому, они менее «сущност-ны»: их относительные размеры и границы довольно сильно
отличаются для множеств математиков и разных способов кластеризации.
7.3. «ФИЗИКИ»
Как уже было отмечено, кластеризация физиков имеет много общего с кластеризацией математиков.
Рассмотрим аналоги групп «акселераты», «молодые», «корифеи» и «инерционные», которые в случае математиков имеют весьма четкие границы.
При кластеризации на шесть групп по полному набору показателей выделяются 14,0% «инерционных» (у математиков их было от 13,1 до 17,2 процентов). Их характеризует высокая цитируемость еще в 2000 г., затем медленный линейный рост и убывание цитируемости в последние два года рассматриваемого периода.
Группа «корифеи» составляет 50,1% (у математиков в среднем 52%) и состоит из подгрупп А (более динамичные авторы) -их 34,6% и В - 15,5%.
Группа «молодые» составляет 31,7% (у математиков -от 27,8% до 30,9%) и состоит из подгрупп А (более динамичные) и В численностью соответственно 12,8% и 18,8%. В отличие от математиков, подгруппа А меньше подгруппы В.
В то же время мы не видим здесь явной группы «молодых и взрывных», имевших нулевую цитируемость в начале 2000-х и совершенно не знакомых с убыванием цитируемости. Наименьшие средние показатели убывания имеет подкластер «смена-2», составляющий 12,8% (выше он упомянут как подгруппа А группы «молодые»). Кроме того, выделяется не встречавшийся ранее подкластер в 4,3% (размер, характерный для математиков-«акселератов»), состоящий из ученых, имевших заметную, но довольно низкую и почти не растущую годовую цитируемость до середины 2000-х, а с тех пор показывающих быстрый, хотя и замедляющийся рост. Наличие этого кластера гипотетически может быть объяснено следующим отличием физики от математики. В физике меньше ярких одиночек, которые могут прославиться 2-3 достижениями. Работа здесь чаще выполняется командно, порой в больших коллаборациях. Авторы, вошедшие в
указанный подкластер, не очень молоды, они добились определенных результатов уже к началу 2000-х. После этого им посчастливилось войти в сильные команды, и дела у них «пошли в гору». Разумеется, подтверждение этой гипотезы требует дополнительных исследований.
Таким образом, главный вывод из полученной кластеризации физиков состоит в следующем. Среди физиков, как и среди математиков, выделяются группы «молодые» (32%), «корифеи» (50%) и «инерционные» (14%). В множестве математиков средние доли этих групп были соответственно 29%, 52% и 15%. Группа «акселераты» (самые молодые, но уже добившиеся больших успехов) среди физиков не выделяется (вероятно, она «растворена» в группе «молодые»-А и может проявиться при росте числа кластеров). Вместо них выделяется группа не очень молодых авторов, имевших заметную, но невысокую и почти не растущую цитиру-емость в начале 2000-х и быстрый, но замедляющийся рост цити-руемости с конца 2000-х. Эта группа (которую можно назвать «попавшие в струю»), как и «акселераты»-математики, составляет примерно 4%. Данная «подмена группы» может быть объяснена отличием физики от математики: в первой больше удельный вес командной работы и коллабораций, во второй - ярких одиночек.
Оценим теперь, меняется ли картина при кластеризации физиков без к.п. Здесь мы видим группу «молодые» (27,6%), состоящую из подгрупп А (более динамичные, с очень низкими показателями убывания) и B численностью соответственно 11,5% и 16,1%, что весьма похоже на кластеризацию без к.п. Но на этом сходство заканчивается. Далее мы видим подкластер «лидеры»-2, куда входят сравнительно молодые, но добившиеся максимального среди всех кластеров признания. Эту группу можно назвать «молодые корифеи»; ее размер 16,3%. Далее идет группа «корифеи» (47,2%) с подгруппами «корифеи-А» (29,7%) и «корифеи-В» (17,5%). Первая из них характеризуется более устойчивым ростом цитируемости (показатель ssc у нее вдвое ниже), у второй же выше средняя цитируемость на протяжении всего периода наблюдений 2000-2015 гг. В последние годы в подгруппе «кори-феи-В» видны признаки насыщения. Наконец, оставшаяся группа - это «инерционные» (8,9%). Тем самым в данной кластеризации наблюдается сдвиг границ групп: между группами
«молодые» и «корифеи» вклинились «молодые корифеи» в результате чего «корифеи», почти сохранив размер группы (47,2%), включили в себя часть авторов с насыщением цитируемости, в результате чего группа «инерционные» уменьшилась в 1,6 раза.
7.4. «ПСИХОЛОГИ»
В множестве «Психологи» выделяется отчетливый кластер «смена», аналогичный группе «акселераты» у математиков. Это молодые ученые, имеющие в среднем ускоряющийся рост годовой цитируемости и не знакомые с ее убыванием. Но если у математиков эта группа составляла лишь 4%, то у психологов в нее с/без к.п. входит 18,3% / 20,3%. Ее участники имеют в среднем больший научный стаж, чем «акселераты»-математики.
При кластеризации без к.п. эта группа делится на две подгруппы: более молодую (13,3%) и более опытную с более высокой цитируемостью (7,0%). При кластеризации с к.п. после трех «разделений» кластеров она остается цельной, но выделяется объемная группа более или менее молодых ученых, которую можно назвать «в расцвете сил» (59,2%). По успешности она делится на три подгруппы А (11,9%), В (16,5%) и С (30,8%): отношение их среднего индекса Хирша - как 2:1,3:1, отношение числа цитирований за последние 5 лет - как 5:2,2:1. Отношение значений показателя ssc (количество смен знака годовых приращений цитируемости) - как 1:1,7:2,1. При кластеризации без к.п. этой группе соответствует кластер «лидеры» (42,4%), имеющий две подгруппы: А (22,4%) и В (19,9%). Для первой характерен ускоряющийся рост годовой цитируемости, для второй -линейный. Их средние показатели add относятся как 3:2.
Психологи, у которых была довольно высокая цитируемость еще в 2000 г., образуют группу «опытные», которая с/без к.п. составляет 22,5% / 37,2%. Она разделяется на подгруппы А (5,6% / 31,8%) и В (16,9% / 5,4%). Отношения показателей add и ssc для этих подгрупп составляют соответственно 2,3:1 / 1,2:1 и 1:1,1 / 1:1,8.
В множестве психологов не выделяется группа «инерционные», где средняя цитируемость заметно снижалась бы в по-
следние годы. Такие ученые есть, но они «спрятаны» в кластерах, где в той или иной мере проявляется тенденция к насыщению. При кластеризации с к.п. кластер такого рода имеет размер 5,6%, без к.п. 5,4%, но в последнем заметен рост в 2015 г.
Отметим, что после выделения кластеров любой ранее не учтенный ученый может быть отнесен к одной из групп методом ближайших соседей или иным методом классификации.
8. Общие выводы
Результаты кластеризации рассмотренных множеств ученых обсуждались в разделе 7. Здесь приведем наиболее общие выводы.
Иерархическая кластеризация математиков (два множества, два набора параметров кластеризации) показала наличие четырех устойчивых групп: «акселераты» (4%), «молодые» (29%), «корифеи» (52%) и «инерционные» (15%) - указаны примерные размеры, разброс относительно этих значений невелик (раздел 7.2). Действительно, при четырех сюжетах кластеризации размеры этих групп составляют (в %) (4,2; 4,4; 3,9; 4,3); (27,8; 28,6; 30,9; 27,8); (53,4; 49,8; 52,1; 52,9); (14,6; 17,2; 13,1; 15,0).
При кластеризации с к.п. среди физиков, как и среди математиков, выделяются группы «молодые» (31,7%), «корифеи» (50,0%) и «инерционные» (14,0%) - относительные численности их примерно такие же, как у математиков. Вместо группы «акселераты» выделяется группа «попавшие в струю» размером 4,3%.
При кластеризации физиков без к.п. выделяются группы: «молодые» (27,6%) - состоит из двух подгрупп разной успешности; «молодые корифеи» (16,3%); «корифеи» (47,2%) - состоит из двух подгрупп разной успешности; «инерционные» (8,9%).
Психология - наука более гуманитарная, и для нее результат кластеризации несколько иной. Здесь выделяется группа «смена-акселераты» (18,3% / 20,3% при кластеризации с / без к.п.), аналогичная группе акселератов-математиков, но не такая молодая. Кроме того, выделяется группа «в расцвете сил» (59,2% / 42,4%), разделяющаяся на три / две подгруппы разной успешности, и группа «опытные» (22,5% / 37,2%), разделяющая-
ся на две подгруппы разной успешности. И здесь случай, когда границы групп существенно зависят от того, используются ли кумулятивные показатели. В множестве психологов не выделяется группа «инерционные», где средняя годовая цитируемость заметно снижалась бы в последние годы. Вообще рост цитируе-мости показывает в психологии большую стабильность, чем в математике и физике.
В целом математика во многом похожа на физику (другую точную науку): также выделяются группы «молодые», «корифеи» и «инерционные» с примерно одинаковой численностью. Но наличие группы «акселераты» роднит ее с психологией. Действительно, математика, согласно одной из точек зрения, есть наука, занимающая промежуточное положение между естественными и гуманитарными дисциплинами.
9. Заключение
В статье предложен набор библиометрических показателей для типизации успешных ученых посредством иерархической кластеризации. Набор включает три стандартных индекса цитирования и пять структурных показателей, характеризующих динамику цитируемости ученого.
Годовое число ссылок есть разностное приближение первой производной зависимости общего числа ссылок от времени. Используемые структурные показатели определяются в терминах приращений годовой цитируемости, т.е. второй производной числа ссылок, характеризующей выпуклость этой функции.
Особенность структурных показателей - их масштабируемость: пропорциональное изменение цитируемости не меняет их величины. Таким образом, стандартные индексы цитируемости выражают масштаб, структурные показатели - особенности роста числа ссылок.
Один из результатов работы состоит в том, что кластеризации, полученные с использованием индексов масштаба и без них часто дают близкие результаты. Это не может быть объяснено однородностью выборки по индексам масштаба: средняя цитируемость в некоторых кластерах отличается почти на порядок.
Другой результат: группы, слабо чувствительные к способу кластеризации (и отчасти к выборке), могут формироваться объединением кластеров более дробной кластеризации. Для двух множеств математиков эти группы были названы «акселераты», «молодые», «корифеи» и «инерционные», для физиков -«молодые», «корифеи» и «инерционные» (причем доли этих групп для физиков и математиков близки), для психологов -«смена-акселераты», границы же групп «в расцвете сил» и «опытные» при отказе от индексов масштаба меняются. Для физиков при учете индексов масштаба выделяется группа «попавшие в струю», а без их учета - «молодые корифеи».
Исследование показало, что методы кластерного анализа, примененные к библиометрическим данным, помогают не только при решении задачи типизации ученых, но и при исследовании отличий между научными дисциплинами.
Литература
1. БОРОВСКИИ А. Основные библиометрические показатели для оценки эффективности научной работы. - Пермь: Изд-во Пермского национального исследовательского политехнического университета, 2012.
2. ВОРОНЦОВ К.В. Алгоритмы кластеризации и многомерного шкалирования. - М.: МГУ, 2007.
3. МИРКИН Б.Г. О понятии научного вклада и его измерителях // Управление большими системами. - 2013. - Вып. 44. -С. 292-307.
4. МИРКИН Б., ОРЛОВ М. Методы многокритериальной стратификации и их экспериментальное сравнение / Препринт WP7/2013/06. - М.: ВШЭ, 2013.
5. ЧЕБОТАРЕВ П.Ю. Наукометрия: как с ее помощью лечить, а не калечить? // Управление большими системами. -2013. - Вып. 44. - С. 14-31.
6. ЧЕБОТАРЕВ П.Ю. Оценка ученых: пейзаж перед битвой // Управление большими системами. - 2013. - Вып. 44. -С. 506-537.
7. CRONIN B., SUGIMOTO C.R. (eds.) Scholarly Metrics under the Microscope: from Citation Analysis to Academic Auditing. -Medford, NJ: ASIS&T, 2014.
8. DE BELLIS N. Bibliometrics and Citation Analysis: From the Science Citation Index to Cybermetrics. - Lanham, MD: Scarecrow Press, 2009.
9. GOGOGLOU A., SIDIROPOULOS A., KATSAROS D., MANOLOPOULOS Y. A Scientist's impact over time: The predictive power of clustering with peers // Proc. of the 20th International Database Engineering & Applications Symposium. -ACM, 2016. - P. 334-339.
10. GOGOGLOU A., SIDIROPOULOS A., KATSAROS D., MANOLOPOULOS Y. The fractal dimension of a citation curve: quantifying an individual's scientific output using the geometry of the entire curve // Scientometrics. - 2017. - Vol. 111, No. 3. - P. 1751-1774.
11. HIRSCH J.E. An index to quantify an individual's scientific research output // Proc. of the National Academy of Sciences. -2005. - Vol. 102, No. 46. - P. 16569-16572.
12. JAIN A.K., MURTY M.N., FLYNN P.J. Data clustering: a review // ACM Computing Surveys (CSUR). - 1999. - Vol. 31, No. 3. - P. 264-323.
13. MIRKIN B., ORLOV M. Research impact: level of results, citation, merit // Working paper WP7/2014/09. - Moscow: HSE, 2014.
14. OSBORNE F., PERONI S., MOTTA E. Clustering citation distributions for semantic categorization and citation prediction // Proc. of the 4th International Conference on Linked Science - Making Sense Out of Data (LISC2014), CEUR-WS.org. - 2014. - Vol. 1282. - P. 24-35.
15. WARD JR J.H. Hierarchical grouping to optimize an objective function // J. of the American Statistical Association. - 1963. -Vol. 58, No. 301. - P. 236-244.
MAKING A TYPOLOGY OF SCIENTISTS ON THE BASIS OF BIBLIOMETRIC DATA
Ilya Vasilyev, Moscow Institute of Physics and Technology, Moscow, student ([email protected]).
Pavel Chebotarev, Institute of Control Sciences of RAS, Moscow, Doctor of Science, head of laboratory (Moscow, Profsoyuznaya st., 65, (495) 335-18-05, [email protected]).
Abstract: In this paper, we propose a set of indicators for solving the problem of differentiation and stratification of scientists on the basis of bibliometric data using cluster analysis. The indicators include three standard citation indexes and five structural indexes characterizing the citation curve of a researcher. The latter indicators are defined in terms of increments of the annual citation rate, which characterize the time convexity of the total number of references. Ward's hierarchical clustering algorithm is applied to some sets of mathematicians, physicists, and psychologists with high citation rates. The analysis of the obtained results allows one not only to describe several stable types of scientists, but also to study the differences between distinct groups of scientists in various scientific disciplines. For mathematicians and physicists, three groups, "youth", "luminaries", and "inertial", can be clearly distinguished, regardless of the way of clustering. The proportions of the corresponding groups are relatively stable and similar. In addition, among the mathematicians, a group "precocious" manifests itself, while among physicists, we observe a group of scholars who "caught the wave". For psychologists, the clusters are essentially different. In many cases, the cluster structures revealed with and without standard citation indexes turn out to be similar.
Keywords: typology of scientists, scientometrics, bibliometrics, citation indices, cluster analysis, Google Scholar.
Статья представлена к публикации членом редакционной коллегии А.Г. Чхартишвили.
Поступила в редакцию 29.05.2017.
Опубликована 31.03.2018.