THE STRUCTURE OF THE CITATION NETWORK OF
SCIENTIFIC JOURNALS
S.V. Bredikhin, V.M. Lyapunov, N.G. Shcherbakova
Institute of Computational Mathematics and Mathematical Geophysics SB RAS
630090, Novosibirsk, Russia
The idea of determination of a scientific journal reputation by measurement of its citations, was for the first time offered in the work P. Gross & E. Gross (1927). Before the second half of the 20th century metrics like the impact factor ignored the network when ranking scholarly journals and only counted incoming links. In the pioneer work D. Price. (1965) a network structure is considered as a basis of the bibliometric analysis. It was shown that the distributions of citation frequencies (in and out) approximately follow a power law. This observation let to formulate the hypothesis that the network growth can be modelled as a preferential attachment process.
Modern tools of the citation network analysis are grounded in graph and social networks theories, for example, node centrality measures for finding out of influential persons or key players. Technique of spectral ranking of scientific journals introduced in F. Pinski & G. Narin (1976) and C. Be.rgstrom k J. West. (2008) uses the dominant eigenvector of an adjacency matrix of a citation network. Thus the foundation for identification of authoritative journals and the structure of scientific fields in terms of network have been established.
Now the journal is considered as a set of articles published in a certain period. This work studies different variants of networks consisting of scientific journals archived in the bibliographic database. A journal citation network is modelled by valued digraph G — (V,E), journals correspond to vertices V = {v\,v<2,...,vn}, and citations to arcs E C V x V, e = (Vi,Vj) E E if a journal i contains articles that have references to articles (cite) of a journal j. Edge weights are represented by a function w : E —>■ which assigns each edge the number w(e) = Wij that indicates the number of references from the articles of i journal to the articles of j journal.
In accordance with M. Ke.ssler, (1963), two journals are said to be bibliographically coupled if at least one cited source appears in the bibliographies or reference lists of articles published in both journals. So, coupling states the similarity between journals. On the base of the bibliographical coupling relation RMc a network can be constructed that is modelled by the valued undirected graph G = (V,E), with journals corresponding to vertices V = {vi,v2,...,vn}. and edges EeVxV, e = (i,j)eE, MiR^j. A vector-space model G. Salton k M. Mc.Gill (1983) is used for defining edge weights. Co-citation relation Rcoc H. Small (1973) and independently I. V. Marshakova (1973) can be seen as the counterpart of bibliographic coupling. Co-citation of two journals means that both are cited together by other journals. Thus co-citation network can be constructed on the base of Rcoc.
Three bibliometric networks of journals retrieved from the bibliographic DB RePEc were analyzed. The average distance D. Watts (1999), the edge density S. Wasserman & K. Faust (1994), the radius and diameter F. Harary (1973) were calculated. The results are presented in the form of tables and diagrams.
Key words: valued digraph, valued average distance, valued density, valued radius and diameter.
References
1. Gross P. L. K., Gross E. M. College Libraries and Chemical Education // Science. 1927. V. 66, iss. 1713. P. 385-389.
2. Price D. Networks of scientific papers // Science. 1965. V. 149, N 3683. P. 510-515.
3. Garfield E., Sher I. H. New factors in the evaluation of scientific literature through citation indexing // Amer. Document. 1963. V. 14, N 3. P. 195-201.
4. Pinski G., Narin F. Citation influence for journal aggregates of scientific publications: Theory with application to literature of physics // Inform. Processing and Management. 1976. V. 12. P. 297-312.
5. Bergstrom C. T., West J. D. Assessing Citations with the Eigenfactor Metrics // Neurology.
2008. V. 71. P. 1850-1851.
6. Freeman L. C. Centralitv in social networks. Conceptual clarification // Soc. Networks. 1978/79. V. 1. P. 215-239.
7. Levdesorff L., Rafols R. Indicators of the interdisciplinaritv in journals diversity, centralitv and citations // J. of Informetrics. 2011. V. 5, iss. 1. P. 87-100.
8. Structural analysis of complex networks. (Dehmer M. Ed.) Birkhauser, 2011. 486 p.
9. RePEc. General principles. [Electron, resource], http://repec.org/.
10. Bredikhin S. V., Lvapunov V. M., Shcherbakova N. G., Yurgenson A. N. Parametrv "tsentrarnosti"seti tsitirovaniva nauchnvkh statev // Problemv informatiki. 2016. No 1. P. 39-57.
11. Kessler M. M. Bibliographic coupling between scientific papers // American Documentation. 1963. V. 14. P. 10-25.
12. Salton G., MacGill M. J. Introduction to modern information retrieval. N. Y.: McGraw-Hill, 1983. 448 p.
13. Small H. Co-citation in the scientific literature: A new measure of the relationship between two documents //J. of the American Society for Information Science. 1973. V. 24. P. 265-269.
14. Marshakova I. System of document connections based on references // Scientific and Technical Information Serial of VINITI. 1973. N 6(2). P. 3-8.
15. Watts D. J. Networks, dynamics and the small-world phenomenon // Amer. J. of Sociology. 1999. V. 105, iss. 2. P. 493-527.
16. Milgram S. The small world problem // Psychol. Today. 1967. V. 2. P. 60-67.
17. Newman M. E. J. Scientific collaboration networks. II. Shortest paths, weighted networks, and centralitv. // Physical Review E 64, 016132. 2001.
18. Brandes U. On variants of shortest-path betweenness centralitv and their generic computation // Social Networks. 2008. V. 30. P. 136-145.
19. Opsahl T. Shortest paths in weighted network. [Electron. resource], https: //toreopsahl .com/tnet/ weighted-networks/shortest-paths/
20. Wasserman S., Faust K. Social network analysis: Methods and applications. Cambridge, ENG, New York: Cambridge University Press, 1994.
21. Barrat A., Barthelemv M., Pastor-Satorras R., Vespignani A. The architecture of complex weighted networks // Proc. of the National Acad, of Sci. 2004. V. 101, iss. 11. P. 3747-3752.
22. Guimei L., Wong L., Chua H. Complex discovery from weighted PPI networks // Bioinformatics.
2009. V. 25, iss. 15. P. 1891-1897.
23. Hararv F. Graph theory. Addison-Wesley, 1969.
24. Borassi M., Crescenzi P., Habib M., Kosters W. A., Marino A., Takes F. WT. Fast diameter and radius BFS-based computation I (weakly connected) real-world graphs: WTith an application to the six degrees of separation games // Theoretical Comput. Sci. 2015. V. 585. P. 59-80.
25. Cormen T. et.al. Introduction to algorithms. MIT Press and McGraw-Hill, 2001.
26. Csardi, Nepusz. Network analysis with igraph, 2006.
СТРУКТУРА СЕТИ ЦИТИРОВАНИЯ НАУЧНЫХ
ЖУРНАЛОВ
C.B. Бредихин, В.М. Ляпунов, Н.Г. Щербакова
Институт вычислительной математики и математической геофизики СО РАН
630090, Новосибирск, Россия
УДК 001.12—303.2
Идея определения важности научшнх) журнала путем измерения ei'o цитируемое™ возникла в 19271'. Идея получила развитие: на основе информации о цитировании журналов, статей и других научных единиц строятся сети цитирования, а структура сетей рассматривается как основа для библиометрическохх) анализа. При этом применяются концепции и методы, используемые в теории графов и социальных сетей. В статье рассматривается сеть цитирования научных журналов, моделируемая взвешенным ориентированным графом, а также модели производных сетей коцитирования и библширафичеекхих) сочетания. Исследованы методы, позволяющие вычислять параметры среднее расстояние, плотность, радиус и диаметр для случая слабой связности и/или взвешенности графа. На основе реальной информации, извлеченной из распределенной библиографической базы данных RePEc, вычислены значения указанных параметров для графа цитирования и производных сетей. Результаты анализа представлены в виде таблиц и рисунков.
Ключевые слова: сеть цитирования научных журналов, взвешенный ориентированный храф, взвешенное среднее расстояние, взвешенная плотность, взвешенные радиус и диаметр.
Введение. Научный журнал (НЖ) представляет читателю коллекцию научных статей (НС) и является доминирующим инструментом распространения результатов исследований. НЖ различаются но тематике, репутации и производительности (объему), т. е. числу опубликованных статей за время своего существования. Эмпирический закон С. Брэдфорда (Samuel Bradford, 1878-1948) устанавливает закономерность распределения НС, согласно которой в списке НЖ, расположенных в порядке убывания числа статей но заданной теме, можно выделить три зоны, содержащие равное число НС. Принимая во внимание гипотезу о том, что все опубликованные статьи имеют одинаковую вероятность быть процитированными, будем считать, что чем больше статей журнал опубликует, тем чаще он будет упоминаться при цитировании.
Идея определения важности НЖ путем измерения его цитируемое™ впервые была предложена в работе |1|. Авторы нуждались в критерии ранжирования журналов химического профиля. Они проанализировали 27 наиболее цитируемых журналов, для которых подсчитали число цитирований на пятилетних интервалах в период 1871-1925 гг. В результате было выявлено неравномерное распределение цитирований но журналам: пять наиболее цитируемых журналов получили 47% от общего числа цитирований. Отметим, что авторы анализа не учитывали самоцитирование журналов.
Количественным исследованиям цитирования НС посвящена работа |2|, автор которой обнаружил, что исходящие и входящие цитирования НС имеют степенной закон распределения. На основе этого наблюдения было сформулировано предположение о том, что
темп приобретения новых цитат пропорционален числу уже имеющихся, подтверждающее закон предпочтительного присоединения, В этой пионерской работе сетевая топология рассматривается как основа для определения важности журналов и структуры научных областей, что, в свою очередь, позволяет определить состав фронта исследований. До второй половины XX в, индикаторы научного влияния, приписываемые журналам, не учитывали структуру сети (например, импакт-фактор [3]),
Современный инструментарий для исследования сетей цитирования базируется на концепциях и методах, используемых в теории графов и социальных сетей, например, при оценке центральности узлов для определения важных сетевых акторов, В работах [4, 5] были предложены спектральные методы ранжирования НЖ, опирающиеся на вычисление собственного вектора матрицы смежности графа цитирования. Значения элементов вектора трактуются как весовые коэффициенты, определяющие "влияние" каждого журнала. Одна из основополагающих работ [6] содержит базовые понятия и определение измерительных мер, которые могут применяться не только для ранжирования сетевых объектов, но, как показано в работе [7], могут служить для выявления особенностей сети цитирования журналов. Актуальный обзор на эту тему опубликован в книге [8],
1. Сети цитирования журналов. В данной работе изучаются структуры библио-метрических сетей, образованных размещенными в БД RePEc НЖ [9]. Будет выделена главная сетевая компонента сети цитирования НЖ и определена ее структура. Далее на ее основе будут построены модели сетей коцитирования и библиографического сочетания и представлены алгоритмы вычисления параметрических характеристик сетей. На основе реальной бнблиометрнческой информации будут вычислены значения сетевых параметров: среднее расстояние, плотность, радиус и диаметр. Результаты оформлены в виде таблиц и рисунков.
Научная статья представляет описание результата научного исследования либо обзор статей, связанных общей темой. Обычно НС цитируют другие публикации, в том числе другие статьи, в результате возникает связь между "цитирующим" и "цитируемым" объектами, построенная на информации, содержащейся в пристатейпых списках литературы, НЖ — это периодическое издание, представляющее собой множество НС, посвященных, как правило, одной научной дисциплине, НЖ, помимо названия, имеет международный стандартный серийный номер (ISSN), позволяющий идентифицировать его,
1,1, Сеть цитирования журналов (СЦЖ), Пусть J = {ji,j2, ■ ■ ■ ,jn} — непустое множество журналов, опубликованных за некоторый период Т. Журнал рассматривается как агрегированное множество всех статей, опубликованных за этот период. На J задано бинарное отношение R:
jk R ji = jk цитирует jh (1.1)
определяющее сеть N = (J,R), в которой журналы являются узлами, а цитирования — связями между ними. Естественным способом моделирования сети N является представление ее в виде орграфа G = (V, Е). в котором журналы соответствуют вершинам V = {^1,^2,... ,г>п}, а отношения цитирования — дугам Е С V х V, е = (V{,Vj) G Е. если выполняется (1.1). Если г = j. то отношение (1.1) называется самоцитированием, обозначим его jff. На множестве дуг определена функция w : Е —> такая что w(e) = Wij равна числу цитирований, полученных журналом j от журнала г. По построению СЦЖ является взвешенным орграфом (ориентированным мультиграфом), Если исключить самоцитирования, это будет граф без петель. Далее не будем различать понятия "сеть" и "граф", а вершины графа занумеруем.
Рис. 1.1. Пример взаимодействия журналов jf~ и ji
Обратный граф G' — (V,E') имеет то же множество вершин, при этом е = (i,j) £ Е тогда и только тогда, когда е' = (j,i) £ Е'. Это преобразование эквивалентно замене направления дуг на обратное. Таким образом, дуга (г, j) G Е' означает, что j цитирует г. Пути в обратном графе отражают распространение информации от цитируемого к цитирующему. Дня орграфов выполняется принцип двойственности-, свойства орграфа G изменяются на соответствующие (двойственные) свойства орграфа G': входящая степень вершины — исходящая степень вершины; источник — сток; изолированность — изолированность и т. д.
Пример взаимодействия журналов jk и ji, цитирующих друг друга, представлен на рис. 1.1. Здесь Wki — число цитирований, полученных ji от jk, w^ — число цитирований, полученных jk от ji, а Wu и Wkk ~ число самоцитировапий.
Заметим, что в отличие от сети цитирования статей (СЦС) |10|, которая моделируется ациклическим орграфом без петель, СЦЖ не обладает этими свойствами. В большинство случаев дуги орграфа G являются двунаправленными, поскольку в период Т журналы могут цитировать друг друга. Динамика роста СЦС и СЦЖ также имеет существенные отличия: например, в СЦЖ дуги могут исчезать со временем, поскольку какой-либо журнал может перестать выпускаться.
Граф G = (V,E), моделирующий СЦЖ, будем представлять с помощью двух матриц: матрицы связей А размера |У|, каждый элемент которой:
1.2. Сеть библиографического сочетания журналов (СБСЖ). В работе |11| представлен метод "библиографического сочетания", основанный на принципе выделения взаимосвязи между научными публикациями, цитирующими один и тот же документ. Этот подход распространим на множество журналов. На основании отношения библиографического сочетания Rblb СЦЖ преобразуется в СБСЖ, которая моделируется взвешенным неориентированным графом
Пусть Mi — множество идентификаторов различных журналов, на которые имеются ссылки в агрегированном множестве статей журнала г. Если дня журналов г и j выполняется Mi П Mj ф 0, то говорят, что журналы библиографически сочетаются, т. е.
1, если iRj,
О, в противном случае,
и матрицы весов W размера |У|, каждый элемент которой:
(
Wij, если iRj,
О, в противном случае.
гЯыь2 = (Зк) гЯк к ]Як. (1.2)
В СБСЖ журналы представляются множеством вершин V = {г>1, г>2,..., ьп}, а отношения Яыъ между ними выступают в роли неориентированных связей (ребер) Е С У х V, е = (Л з) £ Е. если имеет место Для определения веса ребер графа Сыь. т. е. сте-
пени подобия журналов, применяется векторная модель [12], согласно которой журнал г представляется вектором, а степень подобия ЫЬ(г,_7) интерпретируется как косинус угла между векторами, соответствующими г н j. В данном случае журналу г соответствует вектор, состоящий из элементов строки г матрицы \¥. и степень подобия определяется как:
X) Щк™]к
ЫЪ{г,з) = ^_ /=-, (1.3)
Таким образом, па множестве ребер определена функция (рыь : Е —> срыъ(е) = ЫЬ(гМатрицу смежности взвешенного графа СБСЖ обозначим ЦГЫЪ. Заметим, что при вычислении (1.3) учитывается не только мощность пересечения \MiC\Mj\, но и число ссылок на каждый из журналов. Без учета числа цитирований между журналами журналу % соответствует вектор, состоящий из элементов строки г матрицы А; нормированная степень подобия определяется формулой, аналогичной (1.3).
1.3. Сеть коцитирования журналов (СКЦЖ). В работах [13, 14] предложен метод анализа библиометрической информации, основанный на отношении коцитирования Ясос. состоящего в том, что один документ одновременно цитирует два других. Этот метод также перенесен на множество журналов. Журналы г ъ ] находятся в отношении коцитирования Я™с. если за рассматриваемый период хотя бы один журнал содержит ссылки одновременно на журналы г и т. е.
1ЯсосЗ = (ЗА;) кШ к кЩ. (1.4)
На основании отношения коцитирования Ясос СЦЖ преобразуется в СКЦЖ, которая моделируется взвешенным неориентированным графом Ссос. Журналы представляются его вершинами, а отношение коцитирования — неориентированными ребрами Е С V х V, е = (1.3) Е Е. если имеет место гЯ'™'^. Как и в случае Яыь. журнал г представляется вектором, в данном случае столбцом матрицы У\1. и степень подобия сос(г,3) определяется как:
£
соф,.з) = , к (1.5)
к у к
Таким образом, на множестве ребер определена функция <рсос : Е —> ^^(е) = сос(г,3). Матрицу смежности взвешенного графа СКЦЖ обозначим Ц^000. Без учета числа цитирований между журналами журналу г соответствует вектор из элементов столбца г матрицы А, нормированная степень подобия определяется формулой, аналогичной (1.5).
2. Общие параметры. В этом параграфе приведены методы измерения следующих параметров СЦЖ: среднее расстояние, плотность, радиус и диаметр.
2,1, Среднее расстояние. Согласно работе [15], среднее расстояние между вершинами связного графа G = (V, Е) определяется как арифметическое среднее всех расстояний в графе, т, е.:
WG9 = mv\-i) (2Д)
где d(i,j) — расстояние от вершины г до вершины j. Далее определения приведены для графов без кратных ребер и петель. Если граф несвязен, то измеряются параметры максимальной связной компоненты. Для случая, когда не все пары G связны, рассмотрим два варианта:
а) для связных пар Lavg(G) вычисляется по формуле:
WG9 = у Е (2-2)
г/jev,
0<d(i,j)<oo
где I — число связных пар;
б) если из г в j нет пути, то будем считать, что d(i,j) = 0, и Lavg(G) вычислять по формуле
WG9 = mv\-i) (2'3)
Параметр Lavg в работе [15] позиционируется как одна из характеристик "малого мира" [16], для которого характерно малое значение Lavg при достаточно большом значении п и небольшом значении степени вершин k п = |V|.
Отметим, что для взвешенной сети приведенные выше формулы вычисления Lavg не имеют смысла, поскольку в подобных сетях понятие кратчайшего пути претерпевает изменение, Традиционно длина пути во взвешенном графе равна сумме весов ребер, В таком случае между двумя сильно-связными вершинами расстояние будет больше. Поэтому, когда речь идет о кратчайших путях, в которых вес отражает силу связи узлов, вместо расстояния d(i,j), (i,j) 6 Е будем использовать обратную величину 1 /d(i,j) [17], т, е.:
dw(i,j) = min [ — + • •• + — ), (2.4)
'¿По 1МпоП\
где vno, vni,... ,vnk — промежуточные вершины на пути из г в j (минимизируется сумма обратных весов дуг). Другие варианты преобразования можно найти в работе [18], Обобщенная формула расстояния, учитывающая число промежуточных вершин, приведена в работе [19]:
dwa(i,j) = min 1 +... + —L-), (2.5)
\(Win0) (Wnom) К«) J
где а — регулирующий положительный параметр, позволяющий адекватно выбирать кратчайшие пути. Если а = 0, то уравнение (2,5) задает расстояние в невзвешенном графе, если а = 1, то значение совпадает со значением, определяемым уравнением (2,4),
Приведем пример влияния параметра а на выбор путей между вершинами а и Ъ с различными суммами весов и разным числом промежуточных узлов (рис, 2,1, табл. 2,1),
С
Таблица 2.1 Длины путей для сети (рис. 2.1)
Путь сГа [а, Ъ)
а = 0 а = 0,5 а = 1 а = 1,5
м [а, с, Ь] [а, (1, е, Ъ] 1 2 3 1,0 1,4 1,8 1 1 1 1,0 0,7 0,5
Дня всех трех путей (1™{а,Ъ) = 1, т.е. согласно (2.4), все пути одинаковы. В табл. 2.1 указаны расстояния (1ша(а,Ь) между вершинами а и Ъ, рассчитанные согласно (2.5) дня различных значений а.
Из табл. 2.1 видно, что при а = 0,5 кратчайшим путем является [а, Ь]. а при а = 1,5 кратчайшим является путь [а,с1,е,Ь]. Таким образом, если 0 < а < 1, то короткие нуги (с меньшим числом промежуточных вершин) со слабыми связями (малыми весами дуг) будут предпочтительнее длинных путей (с большим числом промежуточных вершин) с сильными связями. Если а > 1, то, поскольку число промежуточных вершин играет меньшую роль но сравнению с силой связей, путь с большим числом сильных связей будет предпочтительным.
Чтобы сравнить средние расстояния взвешенных сетей, имеющих разные диапазоны значений весов ребер, воспользуемся способом нормализации, предложенным в работе |19|. Вес каждого ребра делится на средний вес ребер графа:
Щ чоц х \Е\ мц = -7Г77ГГ = -' (2-6)
13 у
это значение использовано в (2.4), (2.5). Среднее расстояние, определенное таким образом, обозначим Ь™.
и и у
2.2. Плотность. Пусть йед{%) — степень вершины г иевзвешешюго графа (7; оиЬйед{%) — исходящая степень вершины г; тйед{%) — входящая степень вершины г; теап(.) — среднее значение соответствующей переменной. Параметр реберная плотность графа определен в монографии |20|. Для орграфа без кратных дуг и петель этот параметр вычисляется но формуле:
АЧП = = = теап((паёед(.))
{) \V\i\V\-l) \V\i\V\-l) \V\-1 '
дня неориентированного графа
АЧГЛ = 21Е1 = ^^^ = гпеап(ёед(.)) {) \V\i\V\-l) \V\i\V\-l) \V\-1 '
Дня взвешенных графов вместо стенеии вершины в форму не участвует сила связей Si вершины г 1211, которая дня неориентированного графа определяется с помощью матрицы ЦТ:
* = (2.9)
з=1
Соответственно, для орграфа определяются: in_Si, out_Si. Взвешенная степень вершины, неориентированного графа на основе "силы связей", согласно [20], определяется из выражения
= щгу (2-10>
т. е. как усредненная "сила связей" инцидентных ребер. Соответственно, для орграфа определяются:
vri s' out S'
= ЙЗ^Й 0Utde9W{i) = ^ii)- (2Л1)
Взвешенная реберная, плотность орграфа, согласно [20, 22], определяется по формуле:
EE^i J2outSi ( . v
d ( ч i зфг i mean\out_Si)
A = \V\(\V\-1) = \V\(\V\-1) = \V\-1 ■ (2Л2)
Соответственно, взвешенная, реберная, плотность неориентированного графа,:
EE^i , ч
, . i j^i i mean{Si)
= \V\{\V\-1)= \V\{\V\-1)= (2ЛЗ)
Если веса представлены целыми числами, то граф можно рассматривать как .мулы п-граф, тогда (2.12)—(2.13), как и в случае (2,7)-(2,8), задает отношение средней степени к числу вершин минус единица. Определение взвешенной реберной плотности можно интерпретировать как отношение усредненной "силы связей" вершины к числу вершин.
2.3. Радиус и диаметр. Для неориентированного графа и сильно-связного орграфа эксцентриситетом вершины г (обозначается есс(г)) в связном графе G — (V,E) называется
максимальное расстояние от вершины г до других вершин графа G, т. е. есс(г) = maxd(i,j).
" jev
Радиусом графа (обозначается rad) называют минимальный эксцентриситет среди всех
вершин, т. е. rad(G) = min есс(г). Диаметром, G (обозначается diam) называют макеи-
jev
мальный эксцентриситет среди всех вершин: diam(G) = тахесс(г) [23].
iev
Определим параметры "радиус" и "диаметр" для слабо-связных орграфов, согласно [24], принимая во внимание (2.4) или (2.5). Пусть Reach(i) — множество вершин, достижимых из вершины г. Определим:
есс(г) = max d(i,j), есс(г) = 0, если Reach(i) = 0; (2-14)
j€Reach(i)
rad(G) = min max d(i,j)-, (2.15)
ieV(G), j€Reach(i) есс(г)ф 0
ооссо о сссосоо
осоэоо со о
б
2.52.01.51.0 Н 0.5
ООООООО СО О
о оо ото оооооооооо ооо осоосооаээоосоо оо ооосссоаюо оооо о оо
—I-
4. v5
in-Clt
о
4 5
out-cit
Рис. 3.1 Распределение входящих (а) и исходящих (б) цитирований СЦЖ
diam(G) = max max d(i,j). (2-16)
ieV(G), jeReach(i) есс{г)ф 0
Таким образом, есс(г) равен максимальному расстоянию от г до достижимых вершин, а при определении радиуса и диаметра учитываются только вершины с ненулевым эксцентриситетом.
3. Исходные данные. Предметом анализа является СЦЖ, построенная на основе библиографической информации о НЖ 2001-2016 гг. издания (Т), доступной в распределенной БД RePEc |9|. На момент извлечения данных база содержала информацию о 1731 НЖ 609 издательств. Максимальное число НЖ — 177, — представлено издательством Springer. Общее число НС, опубликованных во всех НЖ, размещенных в БД, составляет 1 079 934. Наибольшее число статей — 20 063, — содержит журнал "Physica A: Statistical Mechanics and its Applications" издательства Elsevier.
Информация о цитировании: число НЖ, цитируемых НЖ, составляет 1617; число НЖ, цитирующих НЖ, — 1436; но цитируют ни один журнал 295 журналов; не получили цитирования 114 журналов. Получателем максимального числа цитирований — 939 — является журнал Energy Policy (Elsevier). Источником максимального числа цитирований журналов — 787 — является журнал Renewable and Sustainable Energy Reviews (Elsevier).
Характерной чертой НЖ является значительный уровень самоцитирования, т. е. цитирования между статьями журнала. Каждая научная дисциплина имеет характерный уровень самоцитирования, но не существует предопределенного уровня, являющегося приемлемым. Узкоспециализированные журналы имеют более высокий уровень самоцитирования но сравнению с мультидисцинлипарными, В БД RePEc этот уровень составляет 59,73%. Поскольку анализируются связи между журналами, то данные о самоцитировании исключены из рассмотрения.
На рис. 3.1, а, б"представлено распределение входящих и исходящих цитирований НЖ, в логарифмическом масштабе. По оси абсцисс указано число входящих (а) и исходящих (б) цитирований; но оси ординат — число журналов с соответствующим числом цитирований.
4. Результаты измерения параметров.
4.1. Параметры СЦЖ на момент Т. Исследуемая СЦЖ является слабо-связным |23| орграфом G = (V,E), |V| = 1729, \Е\ = 135702; максимальная сильно-связная компонента которого имеет 1278 вершин.
4.1.1, Среднее расстояние и плотность. Взвешенное среднее расстояние L™vg(G) измерено в вариантах (2,2) и (2,3), Веса дуг нормированы согласно (2,6), длины путей вычислены по формуле (2,5) для двух различных значений а. Переход на обратное значение веса дуги мотивирован тем, что вес ассоциируется с силой связи между журналами, а выбор а > 1 тем, что большой поток цитирования между журналами рассматривается как предпочтительный даже в том случае, когда промежуточных связей относительно много. Для нахождения длины кратчайших путей использовались алгоритм Дейкетры [25] и пакет igraph [26], Сложность алгоритма равна 0(|У||.Е| log |£?| + |V|). Если расстояния между всеми парами известны, то среднее расстояние вычисляется за время 0(|У|)2, Результаты вычисления представлены в табл. 4,1,
Параметр "плотность" графа вычислен для взвешенного и невзвешенного случаев. Параметр Adw(G), следуя (2,6), (2,9), (2,12), равен 0,454, При вычислении "взвешенной плотности" веса нормировались и учитывался суммарный вес дуг. Параметр Ad(G), согласно (2,7), равен 0,0454,
Параметры "среднее расстояние" и "плотность" не зависят от того, для какого графа они определяются: для G или обратного G'. так как плотность зависит от числа дуг, а для среднего расстояния рассматриваются кратчайшие пути между связными парами. При этом, если путь p(i,j) из вершины г в вершину j является кратчайшим в G, то путь p'(j,i) из j в г, состоящий из обращенных дуг, является кратчайшим в G'. т, е, сумма весов кратчайших путей и число связных пар не изменятся,
4.1.2, Радиус и диаметр графов G и G'. Для графов G и G' вычислены параметры "радиус" и "диаметр" с использованием нормированных весов дуг и взвешенных расстояний между вершинами (2,5), (2,6), Результаты представлены в табл. 4,2, Диаметры прямого и обратного графов равны, так как диаметр — это максимальное расстояние между парами вершин; если в графе G максимальным является расстояние от г до j, то в графе G' максимальным будет расстояние от j до г.
Таблица, 4.2
Радиус и диаметр графов G и G'
rad(G) diam(G) га d(G') diam(G')
(2.5) (2.6) (2.15) (2.5), (2.6) (2.16) (2.5) (2.6) (2.15) (2.5) (2.6) (2.16)
а = 1 а = 1,2 а = 1 а = 1,2 а = 1 = 1,2 а = 1 а = 1,2
30,086 47,594 51,076 80,164 3,333 4,241 51,076 80,164
4,2, Параметры, сети библиографического сочетания. На основе данных о цитировании СЦЖ и согласно определениям из п, 1, 2, построим сеть библиографического сочетания, которая моделируется графом Сыь = (уыь,ЕЪгЪ). Максимальная связная компонента Сыъ имеет следующие параметры |УЬгЬ| = 1432,\ЕЫЪ\ = 844476, Распределение взвешенных степеней вершин СтЬг6, вычисленных согласно (2,11), показано на рис, 4,1, о,
4,2,1, Среднее расстояние и плотность Сыъ. Взвешенное среднее расстояние Ь™уд(С) измерено в вариантах (2,2) и (2,3), Веса дуг нормированы согласно (1.3), длины путей вычислены для двух значений а (см, 2,5), Результаты представлены в табл. 4,3,
Параметры плотности графа вычислены для взвешенного и невзвешенного случаев. Следуя (2.5), (2.9), (2.13), "взвешенная плотность" графа СгМЬ, Диш((7ЬгЬ) — 0,0606. Согласно
Таблица 4.1
Параметр "среднее расстояние" графа G
Lavq{G)
(2.2), (2.5), (2.6) (2.3), (2.5), (2.6)
а = 1 а = 1,2 а = 1 а = 1,2
5,734 8,095 4,319 6,097
Таблица 4.3
Параметр "среднее расстояние" храфа Сыъ
Таблица 4.4 Радиус и диаметр храфа бгЬЙ
гаё(Сш) <Иат{Сш)
(1.3), (2.2), (2.5) (1.3), (2.3), (2.5) (1.3), (2.5) (2.15) (1.3), (2.5), (2.16)
а = 1 а = 1,2 а = 1 а = 1,2 а = 1 а = 1,2 а = 1 а = 1,2
4,9 6,030 3,491 4,297 34,409 69,825 61,417 117,567
б
90 80 70 60 50 40 30 20 10 0
0.05 0.1 0.15 0.2 0.25
0.3
Рис. 4.1. Распределение взвешенных степеней вершин графа (а) и С7сос (б)
Таблица 4.5 Таблица 4.6
Параметр "среднее расстояние" храфа Сс
Радиус и диаметр графа Сс
К^сос) га^(Ссос) <Иат(Ссос)
(1.5), (2.2), (2.5) (1.5), (2.3), (2.5) (1.5), (2.5) (2.15) (1.5), (2.5), (2.16)
а = 1 а = 1,2 а = 1 а = 1,2 а = 1 а = 1,2 а = 1 а = 1,2
5,912 7,273 4,952 6,093 51,943 114,453 65,740 133,207
(2.8), плотность невзвешсниого графа Аи(СЬгЬ) = 0,8242. Таким образом, топологическая плотность высока.
4.2.2. Радиус и диаметр Сыъ. Для графа Сыь измерены параметры "радиус" и "диаметр" с использованием нормированных весов ребер (1.3) и взвешенных расстояний между вершинами (2.6). Результаты представлены в табл. 4.4.
4.3. Параметры сети коцитировапия. На основе данных о цитировании СЦЖ и согласно определениям из н. 1.3, построим сеть коцитировапия, которая моделируется графом Ссос. Максимальная связная компонента С*^ = (Усос, Есос) имеет следующие параметры: \ycoc| _ 1532. \Есос\ = 820982. Распределение "взвешенных степеней" вершин Ссос. вычис-лсчшых согласно (2.11), представлено на рис. 4.1, б.
4.3.1. Среднее расстояние и плотность графа С™0. Взвешенное среднее расстояние Ь^д(Ссос) измерено в вариантах (2.2) и (2.3). Веса ребер нормированы согласно (1.5), длины путей вычислены дня двух значений а (см. 2.5). Результаты представлены в табл. 4.5.
Следуя (2.5), (2.9), (2.13), "взвешенная плотность" графа С*0 равна Д"ш(Ссос) = 0,0342. Согласно (2.8), плотность иевзвешеииого графа А"(Ссос) = 0,6564.
4.3.2. Радиус и диаметр С000. Для графа С00 вычислены параметры "радиус" и "диаметр" с использованием нормированных весов ребер (1.5) и "взвешенных расстояний" между вершинами (2.6). Результаты представлены в табл. 4.6.
Список литературы
1. Gross P. L. К., Gross е. М. College Libraries and Chemical Education // Science. 1927. V. 66, iss. 1713. P. 385-389.
2. Price D. Networks of scientific papers // Science. 1965. V. 149, N 3683. P. 510-515.
3. Garfield E., Sher I. H. New factors in the evaluation of scientific literature through citation indexing // Amer. Document. 1963. V. 14, N 3. P. 195-201.
4. plnskl G., Narin F. Citation influence for journal aggregates of scientific publications: Theory with application to literature of physics // Inform. Processing and Management. 1976. V. 12. P. 297-312.
5. Bergstrom С. Т., West J. D. Assessing Citations with the Eigenfactor Metrics // Neurology. 2008. V. 71. P. 1850-1851.
6. Freeman L. C. Centralitv in social networks. Conceptual clarification // Soc. Networks. 1978/79. V. 1. P. 215-239.
7. Leydesorff L., Rafols R. Indicators of the interdisciplinaritv in journals diversity, centralitv and citations // J. of Informetrics. 2011. V. 5, iss. 1. P. 87-100.
8. Structural analysis of complex networks. (Dehmer M. Ed.) Birkhauser, 2011.
9. RePEc. General principles. [Electron, resource], http://repec.org/.
10. Бредихин С. В., Ляпунов В. XL. Щербакова Н. Г. Параметры "центральности" узлов сети цитирования научных статей // Проблемы информатики. 2016. №1. С. 39-57.
11. Kessler М. М. Bibliographic coupling between scientific papers // American Documentation. 1963. V. 14. P. 10-25.
12. Salton G., MacGill M. J. Introduction to modern information retrieval. N. Y.: McGraw-Hill, 1983.
13. Small H. Co-citation in the scientific literature: A new measure of the relationship between two documents // J. of the American Society for Information Science. 1973. V. 24. P. 265-269.
14. Marshakova I. System of document connections based on references // Scientific and Technical Information Serial of VINITI. 1973. N 6(2). P. 3-8.
15. Watts D. J. Networks, dynamics and the small-world phenomenon // Amer. J. of Sociology. 1999. V. 105, iss. 2. P. 493-527.
16. Milgram S. The small world problem // Psychol. Today. 1967. V. 2. P. 60-67.
17. Newman M. E. J. Scientific collaboration networks. II. Shortest paths, weighted networks, and centralitv // Physical Review E 64, 016132. 2001.
18. Brandes U. On variants of shortest-path betweenness centralitv and their generic computation // Social Networks. 2008. V. 30. P. 136-145.
19. Opsahl T. Shortest paths in weighted network. [Electron. resource], https: //toreopsahl .com/tnet/ weighted-networks/shortest-paths/
20. Wasserman S., Faust K. Social network analysis: Methods and applications. Cambridge, ENG, New York: Cambridge University Press, 1994.
21. Barrat A., Barthelemy XL. Pastor-Satorras R., Vespignani A. The architecture of complex weighted networks // Proc. of the National Acad, of Sci. 2004. V. 101, iss. 11. P. 3747-3752.
22. Guimei L., Wong L., Chua H. Complex discovery from weighted PPI networks // Bioinformatics. 2009. V. 25, iss. 15. P. 1891-1897.
23. Harary F. Graph theory. Addison-Wesley, 1969.
24. Borassi XL. Crescenzi P., Habib XL. Kosters W. A., Marino A., Takes F. W. Fast diameter and radius BFS-based computation I (weakly connected) real-world graphs: WTith an application to the six degrees of separation games // Theoretical Comput. Sci. 2015. V. 585. P. 59-80.
25. Cormen T. et.al. Introduction to algorithms. MIT Press and McGraw-Hill, 2001.
26. CsARDl, Nepusz. Network analysis with igraph, 2006.
Бредихин Сергей Всеволодович — канд. техн. наук, зав. лабораторией Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: [email protected];
Сергей Бредихин окончил механико-математический факультет Новосибирского государственного университета в 1968 году. С 1968 г. — сотрудник Института автоматики и электрометрии СО РАН. Кандидат технических наук с 1983 г. С 1988 г. — заведующий Лабораторией прикладных систем Института вычислительной математики и математической геофизики СО РАН. Являлся техническим директором проекта "Сеть Интернет Новосибирского Научного Центра". Лауреат государственной премии по науке и технике 2012 г. В сфере его научных интересов — измерение и анализ сетей распределенных информационных структур. Автор и соавтор более 110 работ и двух монографий: "Методы библиометрии и рынок электронной научной периодики", "Анализ цитирования в библиометрии".
Sergey Bredikhin graduated from Novosibirsk State University in 1968 (faculty of Mechanics and Mathematics). In 1968 he became an employee of Institute of Automation and Electrometry SB RAS. In 1983 he received PhD degree in Engineering Science. Since 1988 he is the head of Applied Systems laboratory of Institute of Computational Mathematics and Mathematical Geophysics SB RAS. He was the technical manager of „Akademgorodok Internet Project". He is the state prize winner in science and engineering (2012). Sphere of his scientific interests - the measurement and analysis of networks of the distributed information structures. He is the author and co-author of more than 110 works and two monographs: „Metody bibliometrii i rynok electronnoj nauchnoy periodiki", „Ansliz tsitirovaniya v bibliometrii".
Ляпунов Виктор Михайлович — ведущий инженер Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: vic@nsc. ru;
Виктор Ляпунов окончил механико-математический фа-
культет Новосибирского государственного университета в 1978 году. В 1978 году стал сотрудником Вычислительного Центра СО АН СССР, а с 1990 года — сотрудником Института систем информатики СО АН СССР. С 2004 года — ведущий инженер Института вычислительной математики и математической геофизики СО РАН. Занимается вопросами извлечения информации из баз данных и обработкой больших массивов данных. Соавтор более 10 работ в этой области.
Victor Lyapunov graduated from Novosibirsk State University in 1978 (faculty of Mechanics and Mathematics). In 1978, he became an employee of Computing Center of SB AS USSR, since 1990 — an employee of Institute of Informatics Systems SB RAS. Since 2004 he works as software engineer in Institute of Computational Mathematics and Mathematical Geophysics SB RAS. His current research interests include methods of information extracting from databases and processing of large data sets. He is the co-author of more than 10 works in that area.
Щербакова Наталья Григорьевна — ст. науч. сотр. Ин-та вычислительной математики и математической геофизики СО РАН; e-mail: nata@ nsc.ru.
Наталия Щербакова окончила Новосибирский государственный университет по специальности „Математическая лингвистика" в 1967 году. С 1967 г. работала в Институте математики СО РАН, затем в Институте автоматики и электрометрии СО РАН в области создания программного обеспечения систем передачи данных. С 2000 года — сотрудник Института вычислительной математики и математической геофизики СО РАН, где с 2002 занимает должность старшего научного сотрудника. Являлась участником проекта „Сеть Интернет Новосибирского Научного Центра", занималась вопросами мониторинга и анализа IP-сетей. Автор и соавтор более 40 работ, соавтор монографии „Анализ цитирования в библиометрии". Текущие интересы лежат в области исследования методов оценки научной деятельности на основе анализа цитирования научной литературы.
Natalia Shcherbakova graduated from Novosibirsk State University in 1967
(mathematical linguistics). Since 1967 she worked at Institute of Mathematics SB RAS, then at Institute of Automation and Electrometrv SB RAS in the field of software design for data transmission systems. In 2000 — the employee of Institute of Computational Mathematics and Mathematical Geophysics SB RAS, since 2002 works as senior researcher. She is a member of
„Akademgorodok Internet Project", dealt with software of monitoring and the analysis of IP networks. She is the author and co-author of more than 40 works, the co-author of the monograph „Ansliz tsitirovaniva v bibliometrii". The current research interests lie in the field of bibliometrics: methods of measuring of scientific.
Дата поступления — 04-04-2017