导读 Stylometry(使用统计技术来确定作者身份)以将 Unabomber 识别为 Theodor Kaczynski 并揭示莎士比亚与 Christopher Marlowe 在亨利

Stylometry(使用统计技术来确定作者身份)以将 Unabomber 识别为 Theodor Kaczynski 并揭示莎士比亚与 Christopher Marlowe 在亨利四世戏剧周期中合作而闻名。在文本分析中,出卖隐藏声音的不是不寻常的单词选择,而是习惯性的——常见单词的反复出现的模式,例如介词,标志着一个人的可能身份。

在爱德华王子岛的一次会议上发现了披头士乐队的共同热情,这让哈佛大学统计学高级讲师马克·格利克曼和达尔豪斯大学数学教授杰森·布朗怀疑一种风格测量方法是否可以回答这个紧迫的问题: 列侬还是麦卡特尼?

作为格利克曼解释说,对于大多数列侬,麦卡特尼的歌曲,这是众所周知的,充分证明这两个写的歌。然而,数量惊人的歌曲(或部分歌曲)对作者身份存在争议。举个例子,没有人知道是谁为“In My Life”创作了音乐,这是 1965 年专辑《Rubber Soul》中的一首歌曲,在滚石杂志的“有史以来最伟大的 500 首歌曲”中排名第 23。列侬和麦卡特尼的记忆各不相同。“所以,我们想知道你是否可以使用数据分析技术来试图找出歌曲中发生的事情,以区分是由一个还是另一个,”格利克曼说。

在前哈佛统计学学生瑞恩·宋的帮助下,格利克曼和布朗将 1962 年至 1966 年披头士乐队的每首歌曲“分解”成五种表现形式。每个表示由频率组成每首歌曲中出现的一组音乐特征。“我们的方法背后的基本思想,”格利克曼说,“是将一首歌曲,其音乐内容很难以任何直接方式量化,转换成一组不同的数据结构,这些数据结构适合使用定量方法。” Glickman 继续说道,“考虑将颜色分解为红色、绿色和蓝色的组成成分,并附加不同的权重。我们对披头士乐队的歌曲做同样的事情,尽管有三个以上的成分。总的来说,我们的方法将歌曲分为共149个组成成分。”

Glickman 说:“第一种表现形式只是由不同常用和弦的频率以及不常见和弦的聚合组成。” “我们能够形成 11 个和弦类别。” 然后,他们描绘了旋律音符——由主唱演唱的音符。第三,他们记录了和弦转换发生的频率,即一个和弦紧跟着另一个和弦。同样,某些不常见的和弦转换被汇总到单个类别中。第四,他们记录了连续旋律音符对的频率。

然后,最后,他们将歌曲分解为四个旋律音符“轮廓”。格利克曼说,轮廓是一个四音旋律序列,分为一系列“上升”、“下降”和“保持不变”。换句话说,如果一个四音符旋律段落涉及四个音高增加的音符,那么轮廓将是(“向上”、“向上”“向上”),因为每对连续的音符都会增加音高。格利克曼说,检查四音符的轮廓会增加额外的细节,有助于区分旋律创作的风格。

这五种表现形式可以作为不同音乐作曲风格的标志的原因是,正如格利克曼所指出的,披头士乐队的歌曲创作风格是众所周知的:列侬通常创作的旋律线条变化不大。

“想想列侬的歌,‘救命!’”格利克曼说。“它基本上是这样的,'当我年轻的时候,比今天年轻得多',音调变化不大。它反复保持在同一个音符上,并且只是在短时间内改变。而对于保罗麦卡特尼,你采取一首像“Michelle”这样的歌,上面写着“Michelle,ma belle。Sont les mots qui vont très bien ensemble。” 就音高而言,它无处不在。”

他们从音乐特征推断未知或有争议的作者身份的方法可以通过三个步骤来理解。首先,他们的模型假设歌曲中 149 个音乐特征的频率取决于歌曲的作者。例如,假设“主音”(一首歌的根和弦)在列侬歌曲中以一个频率出现,但在麦卡特尼歌曲中可能以不同的频率出现。其次,他们使用概率中的常用工具“贝叶斯规则”来反转概率。换句话说,从知道歌曲作者的 149 个音乐特征的频率开始,他们确定列侬或麦卡特尼在给定 149 个音乐特征的频率的情况下写一首歌的概率模型。然后使用 70 首 Lennon-McCartney 歌曲或真正知道作者身份的歌曲部分来训练这个模型。最后,作为第三步,将该模型的结果应用于 Lennon-McCartney 歌曲和作者身份存在争议的歌曲部分,从而对作者身份不明的歌曲进行概率预测。

“所以,'In My Life' 是由麦卡特尼创作的可能性是 0.018,”格利克曼说,“这基本上意味着它是一首非常令人信服的列侬歌曲。” 麦卡特尼记错了。但是,根据他们的模型,格利克曼认为肯定是列侬歌曲的“The Word”几乎可以肯定是麦卡特尼的。

除了有趣的音乐剧之外,这项练习还有更多意义吗?“是的,”格利克曼说。“这项技术可以扩展。我们可以查看流行音乐的历史并绘制出风格影响的流向图。”