文章合作单位数量与指数的关系

邓招奇

2021-05-19

Why

  1. 文献指出,聚合之后,disruption指数的百分位数与团队大小成反比
  2. 在MAG数据上,已经验证了这一结果
  3. 同时,通过调整γ\gamma, 发现,替代力指数权重的百分位数与团队大小成反比
  4. 实际上,文章除了团队大小,还有合作者单位数量
  5. 那单位数量与被引数量,disruption指数,替代力指数会是什么关系呢
  6. 预期,大概也是反比的关系

What

  1. mag/Affiliations 一共25772个单位
  2. mag/PaperAuthorAffiliations
    • 一共648943854条 文章-作者-单位 关系
    • 文章数量 240010461篇
  3. 不过,一个作者可能来自多个单位
  4. 一个作者的单位,可能根本没有识别出来
  5. 那一篇文章的团队大小与单位数量之间的关系
    • 大于,小于,等于
  6. mag/Paper
    • 文章数量 240913761篇,
    • 其中被引或施引不为0, 113785973篇

How 三种单位数量

  1. affilisize_nan,文章有作者单位未识别,则所有未识别的认为是同一个单位
  2. affilisize_nonan,文章有作者单位未识别,则删除这些作者,统计剩下的作者的单位数量
  3. 有效单位数量affilisize,文章有作者单位未识别,则不考虑这些文章(单位数量标记为-1),仅统计作者单位完整识别的文章的单位数量
  4. 有效单位数量affilisize>0, 36473933, 占比0.326

results 单位数量 vs 团队大小

  1. 限制[1, 10]
  2. 单位数量 36461381, 占比 0.999
  3. 团队大小 35922247, 占比 0.985
mean var
teamsize 2.88 4.10
affilisize 1.41 0.65

results 单位数量 vs 团队大小 限制[1, 10]分布

results 单位数量与指数的相关性

γ\gamma 0.01 0.05 0.09 0.1 0.2 0.3
pearsonr 0.069241 0.049406 0.02678 0.020987 -0.03351 -0.0758
γ\gamma 0.4 0.5 0.6 0.7 0.8 0.9
pearsonr -0.10589 -0.12668 -0.14146 -0.15178 -0.15953 -0.16517
γ\gamma 1 1.5 2 citation disruption
pearsonr -0.16968 -0.18091 -0.18484 0.022107 -0.14408

results reduce之后单位数量与指数的相关性

γ\gamma 0.01 0.05 0.09 0.1 0.2 0.3
pearsonr 0.985982 0.993377 0.988195 0.981554 0.156044 -0.49124
γ\gamma 0.4 0.5 0.6 0.7 0.8 0.9
pearsonr -0.65504 -0.72244 -0.75984 -0.77976 -0.7942 -0.80455
γ\gamma 1 1.5 2 citation disruption
pearsonr -0.81196 -0.83258 -0.8414 0.986296 -0.82207

results reduce之后单位数量与citation, disruption指数的关系

results reduce之后单位数量与替代力指数权重的关系

results 单位数量 vs 团队大小

  1. 二者的pearsonr系数 0.410,并不是强烈正比
  2. 存在大团数量,小单位数量的情况
    • 某一篇文章的许多作者可能来自相同的单位
  3. 固定团队大小,数据量,占比
teamsize datasets ratio
=10 270806 0.008
=9 404064 0.013
=8 649101 0.021
=7 1020749 0.033
=6 1676796 0.055

results 固定团队大小, 单位数量与指数的相关性

teamsize citation disruption 0.5 1 1.5 2
\in [1,10] 0.022107 -0.14408 -0.12668 -0.16968 -0.18091 -0.18484
= 6 0.018887 -0.0874 -0.12137 -0.13946 -0.14186 -0.1419
= 7 0.021563 -0.08808 -0.11986 -0.13904 -0.1419 -0.14224
= 8 0.028345 -0.08834 -0.11544 -0.13572 -0.13922 -0.13926
= 9 0.02913 -0.08856 -0.11243 -0.13562 -0.14073 -0.14127
= 10 0.035287 -0.09761 -0.11026 -0.13595 -0.14127 -0.14249

results 固定团队大小, reduce之后单位数量与指数的相关性

teamsize citation disruption 0.5 1 1.5 2
\in [1,10] 0.986296 -0.82207 -0.72244 -0.81196 -0.83258 -0.8414
= 6 0.648365 -0.63696 -0.65927 -0.8909 -0.84095 -0.85056
= 7 0.638475 -0.74057 -0.90308 -0.79955 -0.80151 -0.82157
= 8 0.435447 -0.59002 -0.85617 -0.81054 -0.77036 -0.72634
= 9 0.804541 -0.6956 -0.55791 -0.65823 -0.69117 -0.71057
= 10 0.872229 -0.63804 -0.139 -0.28707 -0.35521 -0.41682

results 固定团队大小

reduce之后单位数量与citation, disruption指数的关系

results 固定团队大小

reduce之后单位数量与替代力指数权重的关系 γ=0.5,γ=1.5\gamma =0.5, \gamma=1.5

results 固定团队大小

reduce之后单位数量与替代力指数权重的关系 γ=1,γ=2\gamma =1, \gamma=2

results 单位数量 vs 团队大小(大于某一数量)

teamsize datasets ratio
\geq 10 270806 0.008
\geq 9 674870 0.022
\geq 8 1323971 0.043
\geq 7 2344720 0.077
\geq 6 4021516 0.133

results 团队大小大于某一数量,单位数量相关性

teamsize citation disruption 0.5 1 1.5 2
\in [1,10] 0.022107 -0.14408 -0.12668 -0.16968 -0.18091 -0.18484
\geq 6 0.026818 -0.09034 -0.12009 -0.14189 -0.14563 -0.14607
\geq 7 0.028693 -0.08973 -0.1169 -0.13887 -0.14286 -0.14332
\geq 8 0.031443 -0.09041 -0.11363 -0.13648 -0.14101 -0.14151
\geq 9 0.032084 -0.09212 -0.11136 -0.13573 -0.14094 -0.14178
\geq 10 0.035287 -0.09761 -0.11026 -0.13595 -0.14127 -0.14249

results 团队大小大于某一数量,reduce之后单位数量相关性

teamsize citation disruption 0.5 1 1.5 2
\in [1,10] 0.986296 -0.82207 -0.72244 -0.81196 -0.83258 -0.8414
\geq 6 0.950667 -0.71925 -0.43198 -0.57653 -0.62894 -0.66471
\geq 7 0.94694 -0.68064 -0.39615 -0.52372 -0.57263 -0.60969
\geq 8 0.940514 -0.65841 -0.32931 -0.46901 -0.52126 -0.56021
\geq 9 0.91843 -0.65467 -0.22062 -0.3906 -0.45623 -0.50866
\geq 10 0.872229 -0.63804 -0.139 -0.28707 -0.35521 -0.41682

results 团队大小大于某一数量

reduce之后单位数量与citation, disruption指数的关系

results 团队大小大于某一数量

reduce之后单位数量与替代力指数权重的关系 γ=0.5,γ=1.5\gamma =0.5, \gamma=1.5

results 团队大小大于某一数量

reduce之后单位数量与替代力指数权重的关系 γ=1,γ=2\gamma =1, \gamma=2

小结

  1. 文章的单位数量与指数的关系,似乎,和团队大小与指数的关系类似
  2. 文章的单位数量,在团队大小取较大值时,仍然保持相同的与指数的关系
  3. 怎么更进一步的分析单位数量与团队大小,二者与指数的关系,之间的差异呢?
  4. 下一步,可以考虑国家层面的合作,甚至跨洲的合作

感谢您的时间和注意力