新闻中心
【量化历史研究】民间传说的大数据分析:起源与意义(民间传说概念)
本文为“量化历史研究”第306篇推送
近年地理信息系统与民族志记录的结合使得经济学家们能量化和分析偏好的形成以及制度、社会特征、信仰、态度的持续性和经济结果,有效地证实了历史学、人类学、地理学和进化生物学界长期以来的猜想。Michalopoulos和Xue在他们最新的工作论文中,将前工业化社会各民族的民间传说作为其文化特征的重要组成部分,探究了民间传说的起源及与社会经济特征的对应关系。民间传说是社会的传统信仰、习俗、神话、传说和故事的集合,可以通过代际间口口相传的方式流传下来。这一语料库直接体现了一个民族的特定文化,对我们理解文化发展及其传播有巨大的潜力。
本文围绕着民间传说的母题展开。什么是母题呢?在民俗学领域,母题作为文本中的一个最小研究单位,指的是从口头叙述中简化抽离出来的一个图像或者情节元素,具有普遍存在的意义、并且能广泛推广。若干母题的不同排列组合,构成了无数的民间叙述作品。一些母题的例子如下:“太阳是男性、月亮是女性”、“日食:日月关系”、“在与欺骗等反社会行为相关的剧情中,主角是狐狸、豺狼或土狼”、“任务给予者是国王或酋长”等。
前工业化时期的母题信息来源于一个独特的民间传说数据集,它是由杰出的人类学家和民俗学家Yuri Berezkin倾尽毕生心血收集并编制的。为了尽可能多地囊括非欧洲地区的数据,Berezkin将母题定义为:出现在至少两段文本中的“任何图像、结构、情节元素或这些元素的任意组合”,并将美洲土著民族纳入记录中。他从940个前工业化民族的超过5万段文本中归类出了2320个母题,建立了首个覆盖全球的民间传说数据集。该数据中民族的分布及各民族的民间故事中包含的母题数量如图一所示。
打开凤凰新闻,查看更多高清图片图一 Berezkin数据库中民族的分布及各民族民间故事的母题数量
接着,作者将Berezkin数据库所有母题的标题和描述分解为单词,在General Inquirer和LIWC两部词典中查找母题描述中所出现的所有单词,以便将母题标记为适当的类别,例如“与农业相关的母题”、“与服从规范相关的母题”等。最后,作者将各个类别中包括的母题数相加。
本文的实证分析主要分为两步。第一步的目的是研究各民族所处的自然环境是否曾在该群体的民间传说中留下印记。作者检查了五个既可以在民间传说中体现出来,又与群体的物理环境相关的特征:靠近海岸,靠近地震区,雷击强度,疟疾以及1500年前可用作物的农业热量适应性。回归中作者控制了各民族的母题总数量、平均母题词数和国家固定效应等。
第一步结果发现,与地震相关的母题在地震带的均值(0.2)明显大于在非地震带的均值(0.09);在雷击强度大的地区居住的族群关于“雷”、“电”、“暴风雨”、“洪水”等母题的数目较多;在疟疾稳定性强的地区居住的30个族群关于“蚊子”、“昆虫”等母题的数目较多。此外,环境进一步决定一个民族的主要生产方式,例如居住在肥沃土地上的民族更有可能依靠农业维持生计等。这种关系在民族的民间传说中也能体现出来:1500年前农业适应性越高的族群,关于农业的母题越多;而离海岸越近,关于渔业的母题越多。
第二步构建了群体的民间传说与Murdock 的民族志(EA)中记录的该群体政治、经济特征之间的对应关系。作者将Berezkin数据库的民族与EA中的民族尽可能匹配,最后在EA的1265个民族中,有1233个能匹配到其民间传说的信息。回归结果发现,民间传说中关于社会层级的母题(例如“酋长”、“国王”、“女王”等)的数目能正向反映该民族的政权集中程度,如图二(a)所示。鉴于EA中没有各民族市场化程度的信息,作者使用了各民族到前工业化时期的贸易航线的距离作为代理变量。结果发现,与贸易相关的母题(例如“买”、“卖”、“市场”、“金钱”等)与航线距离负相关,即与市场化程度正相关,如图二(b)所示。这些结果肯定了民间文学艺术在量化和度量距今久远的前工业化时期的社会特征方面的巨大作用。
图二(a)与等级相关的母题及政权集中程度
图二(b)与贸易相关的母题及到航线的距离
本文的最后,作者探究了民间传说中蕴含文化规范是否能预测后代们当今的态度和信仰。答案是肯定的,例如,涉及“服从规范”的母题可以预测当今人们对于逃税、贿赂等问题的反对态度。作者认为,民间文学艺术本身可能是文化跨世代垂直传播的工具之一。