分享

数据可视化工具Gephi在社交网络数据分析中的运用

 学习雪雪 2017-12-20

本期嘉宾:

刘勇,Gephi 官方认证讲师,数据可视化开放倡议(DVOPI)的发起者。

在大数据蓬勃发展的今天,社交网络所表现出的社会影响力,远超于人们的想象。近期网络上发生的许多事件都说明,如何衡量与呈现社交网络中信息传播的关系与效果,是我们每个人值得思考的问题。本期线上沙龙,刘勇老师以实际案例出发,带领大家探讨数据可视化工具Gephi在社交网络数据分析中的运用,用心感受数据可视化的魅力!

1.Gephi告诉你32国的纸媒的引用关系

Gephi是一款处理关系数据的软件。

比如在人群中,谁喜欢谁;在微博等社交媒体上,谁关注谁;在选举中,谁投票给谁;在组织中,谁与谁有合作关系等。

人与人之间的关系数据在实际输入Gephi时,一般格式如下:

在csv文件中,所有数据的每一行都有一个源节点指向目标节点,类似于a到b的形式。在使用文本工具进行编辑后导入Gephi,可以生成相应的图形:

以下是不同国家的纸媒引用关系案例,进一步来看数据可视化在关系分析中的运用。

这是16个国家最具影响力的纸质媒体,查找并罗列这些媒体从2010年1月1日到2014年12月31日5年间所有文章,分析任意两个媒体之间的引用关系。选定媒体后,统计媒体在这期间是否引用了其他媒体稿件。将引用次数进行记录,最终形成一个大的数据表单。

上图表格中的第一行和最左边一列是这32种媒体的名字,从左到右是引用的关系。

以《人民日报》为例。媒体引用自家稿件视为无效的,因此《人民日报》引用《人民日报》的数量为0次,引用《中国日报》的数量是171次,引用《海峡时报》是41次。

《中国日报》引用《人民日报》的数量较多,为2800次;引用本媒为0次,引用《海峡时报》1次,引用《联合早报》49次。

上面的表格展示了数据在excel中的情况,下图展示这些数据在csv格式中的形式。

Gephi无法直接读取excel的文件,在实际处理中,可通过excel另存为csv格式,再用Gephi处理。

数据初步导入Gephi中得到上图效果数据初步导入Gephi中得到上图效果

进行处理之后的情况进行处理之后的情况

此时所得到的图像是动态的。通过多次调整参数,应用不同的网络分析方法,其外观排列或者节点的大小都会动态地发生变化。

该图是整体图的局部,只有《人民日报》和《中国日报》两个节点。

Gephi的图形有方向指向,在此图中是按顺时针的方向进行旋转。粗的线段表示《中国日报》引用《人民日报》的数量,是2800。而较细的线段表示《人民日报》引用《中国日报》的数量。

在整体图中可以看到,位于中间的4份报纸的节点非常大,而且醒目。

在这四份报纸中,《纽约时报》的节点最大,其他3份报纸都有较粗的线连入纽约时报,且这四个节点互相之间都有较高的连接度。总的来说,在4个节点之中,两两组队的关系一共6种可能,在这个图中,可能有5种是成立的。

从整体上来观察,美国的节点要比英国的大。

在中国的《人民日报》和《中国日报》两个节点中,《中国日报》比《人民日报》更活跃一点,它有两股稍微粗的线条指向《纽约时报》和《人民日报》。但整体上其他媒体没有大量引用他们的文章。《人民日报》指向外面的连线都很细,引用其他文章数量偏少。日本的《每日新闻》指向《人民日报》较多,存在一定量的引用。

从图上可以看到,《人民日报》比《中国日报》离世界的核心稍微远。假设《参考消息》参与数据分析,图像会发生什么样的变化?

同一个国家的两个节点的颜色相同,意味着同一个国家的两个媒体距离较近。不过,最初通过Gephi得到的数据并不包括国家的信息,Gephi也并不知道哪两个媒体属于同一个国家。为什么经过自动处理后,同一个国家的媒体位置会非常接近呢?

这里可能有两种情况,第一,同一个国家的媒体互相引用比较多,第二,同一国家的媒体有相似引用外媒的方式。

最孤独的国家可能是智利,它被远远地甩在了一边;德国和俄罗斯的位置较近;法国与很多国家交流密切;巴西距离中心也不太远;印尼该国两个媒体之间的间距最大的;韩国比日本远离中心······

从总体上对上图进行划分,32个媒体由内到外可分为3个层次。核心层由英美两国构成,是较强的两个点;中间层是一个密度较高的地带,有8个国家;外围层包括6个国家,节点稀疏且遥远。

以上这些可视化图像是通过网络图的方式观察数据所得到的,但这种处理也不尽如人意。比如一个媒体引用其他媒体说明了什么问题?如果选定的媒体没有代表性的话,也代表不了不同国家之间的关系。

但是,原作者表示,他们还会采集更多的媒体去完善这项研究,这对于网络分析来说是一件值得期待的事情。

(数据来源:吴瑛, 李莉, 宋韵雅.多种声音一个世界:中国与国际媒体互引的社会网络分析[J]. 新闻与传播研究, 2015(09):5-21.

2. 谁在使用Gephi?

在现实中,有哪些人在使用Gephi?他们在使用Gephi做什么事情?对此,GephiGephi官方在2015年12月23日发布的调查问卷整理了以下数据。

以上3个表,分别说明是什么领域、什么职业的人在使用Gephi,以及使用它的人在研究什么样的数据,可得出的结论是:有较多的用户研究社交网络和社交媒体。

3. Gephi 的基本操作

上图是Gephi主要的操作界面。操作界面的最顶端是下拉菜单,下拉菜单下面有3个工具条,分别可以进行3种不同的操作:

【概览】是Gephi主要编辑的区域;【数据资料】是进行数据编辑的地方;【预览】是在打印前输出编辑的地方。

Gephi默认状态是【概览】界面,界面中间有红色的图形编辑区域,左右两侧有两行工具条。

使用工具条中的【工具】选项可以对节点进行编辑:包括节点的添加,边的添加,连线的编辑,节点颜色的更改,节点位置的移动,属性的编辑,节点标签的编辑等;【布局】选项可以对图的结构进行调整;【统计】选项是进行网络做分析的计算方法;【外观】选项可以对节点和边的色彩、大小进行调整。

Gephi插件非常丰富,过去的插件商店在:https://marketplace./,新版推出后,新的插件页面:https:///plugins/#/

4.实时的人际关系数据是如何处理的?

本案例数据的来源,是通过网站(https://who.)对已有的人际认识关系的数据。

在数据采集前,研究者要思考怎样收集到真正需要的数据;另外,关系种类的界定也非常重要。在关系种类确定后,需要确定关系的权重。

利用Gephi,读入节点数据:

读入边的数据:

初次读入在图窗体:

运行布局后:

暂时模块化后的效果:

统计后用 PageRank 计算节点的度,并在外观中上色后,可以得到如下的图:

5. Gephi 的统计功能

节点:利用Gephi研究网络数据分析,主要是通过统计来实现的。

社会网络分析与更广泛的网络科学(包括统计中的功能)相比,主要区别在于社会网络分析是围绕节点的重要性展开。例如可将一个人际关系网,抽象为一个由点和边组成的图:

度:

如判断图中哪一个节点最具影响力?最简单的方法是查看哪个节点所连接边的数量最多。

在Gephi统计当中,很多时候是围绕度的统计展开的。

在一张图中运行一种统计方法后,可在数据资料中计算出相应的数据。

Gephi处理的图有两种:一种是无向图,一种是有向图。在无向图中计算平均度时,默认一个节点有一个边连入,这个节点的度就是一度。

在有向图中度的统计方式发生些变化,不是单纯地用一个度来表示,它包含出度和入度。上图中a的出度是1,因为没有箭头指向它,所以a的入度是零。而b出度则是0,入度是1。

在Gephi统计里,运行平均度计算时根据图的状态,来计算这个图中每个节点的度。计算平均加成度与计算平均度的方法相似,但平均加成度会考虑边的值,如果边的值高,那么节点的入度也会变得更高。

在统计中存在PageRank算法,这是谷歌计算网页权重的一种计算方式。在谷歌中输入关键字进行搜索的时,会产生很多谷歌索引数据库中的网页与这个关键词相关并生成排名。通过PageRank算法,谷歌把计算值高的网页靠前排列。现在,Gephi也使用了PageRank算法,从而可以更好地优化数据。

模块化和连接组件,它们的作用是在统计时把节点进行聚类,不同类别的节点做不同的标志,在外观中用不同的颜色显示出来。

Gephi模块化操作中有一个解析度的设置,设置的数字越小,社区越多;数字越大,社区越小。通过解析度的大小来调整社区大小,从而达到一个容易解释的状态。

另外,还有平均距离系数,平均距离系数是统计每个节点与它周围的节点互相之间连接的程度。如果一个节点的距离系数值比较高,表示这个节点好友之间的连接程度比较高。


特别感谢会议助理:李佳佩

编辑:杨光

运营:黄颖

策划:王文超  李子阳

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多