分类
研究

针对博客网站友链的随机网络研究

为探究博客友链网络的拓扑特征及本质属性,验证其是否属于随机网络、是否存在小世界现象,以集博栈等多源博客列表为数据基础,通过多线程爬取博客首页及友链页面,结合AI判定与人工抽检筛选有效博客节点,构建博客友链网络数据集。运用网络分析方法,对网络最短距离、聚类系数、度分布、传递性、社区结构等核心指标进行量化分析。结果表明:博客友链网络中绝大多数节点对的最短距离集中在4-6之间,平均最短距离为5.11,呈现显著小世界特征;度分布符合幂律分布,存在少数枢纽节点,与随机网络的泊松分布存在本质差异。研究结论显示,博客友链网络并非随机网络,而是以社交互访需求为主导的小世界网络。

关键词:博客友链网络;随机网络;小世界现象;数据爬取

一、前言

“六度分离”理论已在社交网络、互联网等领域被研究1。博客网站作为Web2.0的代表,其形成的友链网络是否可视为随机网络?小世界现象在博客网络中是否存在?这是本文想要研究的问题。

笔者依照浏览博客的经历做出假设:博客友链在一定程度上参杂了博主的个人喜好,可能在一定程度上表现出规律性,更偏向于小世界网络,无法视为随机网络,小世界现象在博客网络中存在。

本文期望对较大体量的博客网络进行研究,明晰以下问题:访客从一个博客到另一个博客平均需要经过多少个博客?每个博客平均有多少个友链?

博客是一种杂志形式的私人网络日记。博客软件自动将新条目(帖子)放在网页的顶端,每过一定的时间,或每当帖子太多不便于翻阅时,博客软件就会把旧条目放进博客档案。2友链,即友情链接,指两个网站之间架起一座桥梁,实现流量的互通。3友情链接在门户、电商网站常被用作搜索引擎优化的一种手法,也被学界认为是引入流量、提高权重的工具。但笔者认为,在博客中,友情链接在搜索引擎优化方面的作用减弱,交流、互访等社交方面的作用得到增强。“从20年前建站伊始,我的友情链接页面就不是以SEO或其他什么乱七八糟的目的而存在。”4笔者通过丑搜(一款中文博客搜索引擎)以“友情链接”为关键词搜索博客网站的友链页面,绝大部分博客5没有在友情链接页面要求网站权重。博客友链具有相互性(友链应当是两个博客之间的互链),为研究方便起见,笔者将友链规定为博客在首页和友链页面对其他博客的外链,无论其是单向的还是双向的。

爬取博客网站首先需要获取一个数据量比较大的博客列表,笔者查阅了一位博主自发收集的博客列表[4],并对列表的数据量进行统计,结果如表 1。

名称数据量
BlogFinder1699个博客6
BlogWe282个博客7
Blogroll Network Map约7900个博客8
BlogsClub368个博客9
十年之约1818个博客10
集博栈4115个博客11
表1 部分博客列表的数据信息

二、研究过程

按照博客列表收录数据的体量,笔者使用了Blogroll Network Map、BlogFinder、十年之约和集博栈的数据。对上述几个博客列表的数据进行爬取,将去重后的数据中的博客名称和博客地址存入数据库,如图1。

图1 存储博客网站信息

接着对博客网站的首页和友链页面进行爬取。在此过程中,程序通过两条途径得到友链页面的URI:在首页搜索是否有链接文本包含“友情链接”等字样的链接;尝试一些常见的友链页面的URI是否存在。

图 2 预先设置一些常见的页面URI进行穷举

若博客有链接到另一个博客的外链,则将其视为友链,将这个关系存储到数据库;若博客的外链地址不在此前存储的博客数据库中,则将链接地址存入外链数据库,方便后续步骤发现此前没有发现的博客。

在爬取博客首页和友链页面的程序运行之后,数据库中存储的外链数量快速增长。在程序进行到一半时,数据库中存储的外链已经达到了4485条(过程中已经按照外链的域名进行去重)。这已经超过了笔者能够人工处理的范围。

笔者将外链的网页标题、描述、URL、关键词、订阅链接、文章链接数量、导航结构等信息交给AI,由AI判定外链是否为博客。

图 3 传递给AI的数据

但这种方法伴随着大量的token消耗。在判断出40余个博客网站后,腾讯混元赠送的100万个token就耗尽了。面对这一问题,设置了博客网站的一些特征,例如“文章”“评论”等,程序将对外链的特征进行评分,判断外链是否为博客网站。

为了缩短程序运行的时间,程序采用多线程运行。

在程序完成博客网站的判断之后,笔者对数据库存储的博客网站进行人工抽检,如图4。人工抽检的355个网站中,有48个不是博客网站,其中大部分为域名过期。

图 4 人工抽检界面

通过程序可以绘制出博客之间的平均距离图像。

三、研究结果

由上图,我们可以看到:

  • 博客友链网络中绝大多数博客对的最短距离集中在4-6之间,小世界现象在博客友链中存在。
  • 几乎所有博客对的最短距离不超过6。
  • 最短距离的标准差较小,博客之间距离的分布波动性较弱。
  • 网络的聚类度较低,博客的友链不集中,友链“抱团”现象不明显。

由图7的度分布图可知,小度节点(博客)数量极多,大度节点数量稀少,满足幂律分布,与随机网络满足的泊松分布不同。故,博客友链网络不是随机网络。

附录与参考文献

本文的代码和原始数据均公开于GitHub仓库https://github.com/Xiaozonglin/blog-friendlink-network-research
供复现和检验。

  1. 庞景安.Web 小世界特征的网络计量学研究[J].情报科学,2007 (08):1171-1175. ↩︎
  2. J.奎根,张斌. 博客、维基和创造性革新[J]. 国外社会科学,2008,(03):98-104. ↩︎
  3. 张潮. 如何做好友情链接交换[J]. 计算机与网络,2016,42(23):42-43. ↩︎
  4. eallion’s Blog. 友情链接. https://www.eallion.com/links/ ↩︎
  5. 笔者按搜索结果的顺序查看了15个友链页面,仅有的提及权重的网站也只是借权重排除恶意友链https://geektutu.com/post/blog-experience-5.html ↩︎
  6. 数据来自其应用程序接口 https://bf.zzxworld.com/api/sites.数于2025年11月8日收集 ↩︎
  7. 数据来自其收录页面 https://blogwe.com/allblogs.html. 数据于2025年11月8日收集 ↩︎
  8. 数据来自首页 https://alexsci.com/rss-blogroll-network/显示其收了7952个订阅地址. 假设一个订阅地址对应一个博客可粗略估计收录了7900个博客.数据于2025年11月8日收集 ↩︎
  9. 数据来自其收录页面https://www.blogsclub.org/members.html. 数据于2025年11月8日收集 ↩︎
  10. 数据来自首页https://www.foreverblog.cn/底部的履约数据.数据于2025年11月8日收集 ↩︎
  11. 数据来自首页https://www.zhblogs.net/底部的收录博客数量.数据于2025年11月8日收集 ↩︎

林林

一个来自福建泉州的学生,现就读于西安电子科技大学计算类(网络安全)专业。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理