研究分享:利用Wikidata分析各语言百科特质性

维基媒体基金会旗下计划相关的讨论
回复
头像
klutz
Admin
Admin
帖子: 423
注册时间: 2013 2月 06, 05:47

研究分享:利用Wikidata分析各语言百科特质性

帖子 klutz »

http://notconfusing.com/the-most-unique ... -wikidata/

这篇文章对于unique的定义是:在Wikidata上的某项只有对应的单一语种链接。
下面是经过对数处理后各语言版本的特质条目/总条目比值:
图片
拟合出了一条指数型曲线,于是作者的结论:条目数越多,特质性越大(废话!)
在这条曲线上方的点都是特质性大于预期的语言版本,下方则是特质性小于预期的语言版本,可以看到中文维基在曲线上方。
下面按照语言版本条目数量大小进行了排序:
图片
下排最右侧自然是英文维基,越往左条目数越少。
对Wikidata中各项目所含语言链接数量的组成,这个图很有趣:
图片
这里面值得关注的是某些有2个或3个语言版本的Wikidata项,因为它体现出某些版本的相关性,而这种相关性是符合文化相关性的,比如:
English-German, Russian-Ukranian, Japanese-Chinese
English-German-French, English-French-Italian, Russian-Kazak-Bashkir
当然作者也发现了令他奇怪的现象:
越南语、宿雾语、Waray以及瑞典语和荷兰语之间的极高相关性,而这是什么原因,关注条目创建的各位应该很明白了。
我会耐心等待,等到这一天
回复