131-1198-7613
NEWS
网站建设、网站制作、网站设计等相关资讯

神马权重是什么_神马权重是什么生肖(神马权重查询)

首页 >> 新闻资讯 作者:磁力SEO 来源:磁力SEO - 搜索引擎优化技巧 日期:2025-04-16

着实,我们全篇讲的是坐音乐举荐的始祖Spotify的音乐举荐系统。

搞懂了这货的算法,尚有啥是你不知道的。

不说废话了,赶紧上编译的正文吧。

每个周一,数亿的Spotify用户会在Spotify上看到一个全新的音乐举荐列表,这是一个包含了30首歌曲的自定义混音专辑,被称为“Discover Weekly(每周发现)”,这里边的音乐都是你不曾听过的,但底子上都是你喜爱的。

我是Spotify的诚恳粉丝,尤其是“每周发现”。为什么这么说?因为它令我觉得它比任何人都更懂得我的音乐口味,每周城市为我举荐喜爱的歌曲,并且都是我自己从来不会发现的歌曲,每一次都充满了surprise。

Spotify的“每周发现”播放列表 -详细来说,是我的播放列表。

毕竟证实,不单仅只有我自己中了“每周发现”的毒——许多用户都痴迷于此,这也促使Spotify彻底从头思索他们的产品焦点,将更多的资源投入到基于算法的举荐播放列表中。

下面是Twitter上两位网友的说法:

Dave(A cenobite) @dave_horwitz:

@Spotify Discover Weekly播放列表对我的了解是如此之深。就像一个以前与我一同经历过生死检讨的情人一样。

Amanda Whitbred @amandawhitbred:

在这一点上,@ Spotify的“每周发现”很是了解我,以至于它举荐的音乐我城市喜爱。

自从2015年“每周发现”首次上线以来,我不断醉心于研究它是奈何向人们举荐音乐的(加上我是Spotify的狂热粉丝,所以偶尔间我喜爱假冒我在何处工作,并且对他们的产品进行研究。)经过三周疯狂的搜索之后,我终于很是侥幸地了解到它背后的道理。

那么Spotify是奈何每周为数亿用户举荐个性化歌曲的呢?让我们先简朴地看下其他音乐办事是奈何完成音乐举荐的,然后再了解Spotify奈何更好地做到这一点。

在线音乐举荐的简史

早在2000年,Songza就最先操纵人工举荐的方式进行在线音乐举荐,并为用户创建播放列表。“人工举荐”意味着一些“音乐专家”或其他举荐人要手动把那些他们觉得听起来不错的音乐放到统一个播放列内外(后来,Beats Music也采纳了同样的战略)。人工举荐工作是没错的,但它须要手动利用,因此无法考虑每位听众个人音乐品味的眇小不同。

像Songza一样,Pandora也是音乐举荐的原始玩家之一。它没有手动标志歌曲的属性,而是采纳了更前辈一点儿的方法。即先让一群人听音乐,为每个曲目选择一堆描摹性的词,并用这些单词把曲目的记起来。然后,Pandora的代码可以简朴地筛选某些标签来建造相似音乐的播放列表。

神马权重是什么_神马权重是什么生肖 神马权重是什么_神马权重是什么生肖(神马权重查询) 神马词库

大约在统一时间,来自麻省理工学院媒体实施室的音乐情报机构“Echo Nest”降生了,并且提出了一种加倍前辈的方式进行个性化音乐举荐。Echo Nest操纵算法阐明音乐的音频和文本内容,从而得以进行音乐识别,个性化举荐,播放列表创建和阐明。

再此后,Last.fm采纳了另一种不同的方法,到今日仍然存在,他们操纵了叫做协作过滤的过程来识别用户或许喜爱的音乐。

(小编注:着实关于调和过滤算法,熟悉我们平台的小搭档应该还会记得在我们之前发布过一篇文章:亚马逊“一键下单”的背后——个性化举荐系统的成长历程)

所以如果上面这些就是其他音乐举荐办事的做法,那Spotify是奈何实现神乎其技的举荐引擎,并且似乎比任何其他办事都更正确地戳中了个人用户的口味的呢?

Spotify的3种举荐模型

神马权重是什么_神马权重是什么生肖 神马权重是什么_神马权重是什么生肖(神马权重查询) 神马词库

Spotify现实上并没有操纵一个革命性的举荐模型,而是将其他办事操纵的一些最佳战略肴杂在一路,从而创建自己独特而又强盛的发现引擎。

为了创建“每周发现”,Spotify采纳以下三种紧张典范的举荐模型:

协作过滤模型(即Last.fm最初操纵的模型),通太过析您的行为和其他人的行为来工作。

自然语言处置惩罚处罚(NLP)模型,通太过析文本工作。

音频模型,通太过析原始音轨自己进行工作。

图片泉源:Chris Johnson,Spotify

下面,让我们来深入了解这些举荐模式的运作方式!

举荐模型#1:协同过滤

首先须要了解一些背景:当许多人听到“协同过滤”这个词时,他们首先想到的是Netflix,因为他们是首先操纵协作过滤来构建举荐模型的公司之一。他们通过操纵用户的星级电影评分来了解该把什么电影举荐给其他相似的用户。

在Netflix将“协同过滤”成功应用之后,这个算法的操纵速度火速扩大,如今每每被觉得是任何想要构建举荐模型的人的入门算法。

不像Netflix,Spotify没有让用户对音乐进行星级评价。相反,Spotify所用的数据是隐含的反馈 -详细来说,我们收听的曲目的流数,以及额外的流数据,包含用户是否将曲目保存到自己的播放列表中,或许在收听后会见了歌手页面等等。

可是什么是协同过滤呢,它是奈何的施展作用的呢?这是一个更高层的抽象,我们如今把它画在下面的这张图里:

Image by Erik Bernhardsson

看懂这张图了吗?这两个人中的每一位都有一些音乐的偏好 -左边的人喜爱音乐P,Q,R和S;右边的人喜爱音乐Q,R,S和T.

通过协同过滤对数据阐明后,初步得出这样的结论:

嗯。你们都喜爱三首相同的音乐——Q,R和S ——所以你们或许是类似的用户。因此,你们每个人都有或许喜爱另一个人听过而你还没听过的其他曲目。

因此,我们建议右边的那个人听一下歌曲P,左边的那个人听一下音乐T。很简朴,对吧?

但Spotify是如何在现实利用中操纵这一概念来凭据数百万其他用户的偏好打定他们的的建议曲目的呢?

…数学矩阵,用Python库就能完成!

现实上,上图的这个矩阵黑白常庞大的。每一行都代表Spotify的1.4亿用户之一(如果您操纵Spotify,您可以想象,自己就是此矩阵中的一行),并且每列代表Spotify数据库中的3000万首歌曲之一。

然后,Python库会运行这个漫长而复杂的矩阵分解公式:

一些复杂的数学

打定完成时,我们就会获得被X和Y表示的两种典范的向量。其中X是用户向量,表示单个用户的口味,Y是表示单个歌曲的资料的歌曲向量。

用户/歌曲矩阵产生两种典范的向量:用户向量和歌曲向量。

如今我们有1.4亿个用户向量 -每个用户就是其中一行 -以及3000万个歌曲向量。这些向量的现实内容只是一堆数字,它们自己是偶尔义的,但把它们彼此一比较就很是居心义了。

要找到哪些用户的口味和我最相似,协作过滤算法会将我的向量与所有其他用户的向量进行比较,最终显现与我最相似的用户。Y向量也是一样,歌曲 -您可以将歌曲的矢量与所有其他歌曲矢量进行比较,并找出哪些歌曲与您正在查察的歌曲最相似。

(编辑注:而至于奈何比较相似度,读者还可以参考知乎上这篇和网易云歌单举荐算法有关的万赞回复,网易云音乐的歌单举荐算法是奈何的?邰原朗的回复--http://s.ai100.com.cn/8v)

协同过滤算法的成果着实已经相当不错了,但Spotify为了做得更好还添加了另一个举荐引擎——NLP。

举荐模型#2:自然语言处置惩罚处罚(NLP)

Spotify采纳的第二种举荐模型是自然语言处置惩罚处罚(NLP)模型。这些模型的源数据,顾名思义,是常规的字词 –歌曲元数据,新闻文章,博客和互联网上的其他文字。

自然语言处置惩罚处罚 –代表了打定机大白人类语言的本事 -是一个庞大的领域,通过感情阐明API来实现。

NLP背后的确切机制超出了本文的局限,并且下面我们介绍的这些场景都是在很高层次上发生的事情:Spotify会不绝地浏览网页,不绝寻找和音乐有关的博客或其他书面文字,了解人们对特定的艺术家和歌曲谈论的内容——即对这些歌曲经常操纵什么形容词和语言,还会接头哪些其他艺术家和歌曲。

当然我不知道Spotify奈何选择处置惩罚处罚其数据的细节,但我可以告诉您Echo Nest奈何与之相助。他们会把它们汇集到他们所谓的“文化向量”或“根词汇”中。每个艺术家和歌曲都有数以千计并且天天都在更新的“根词汇”。每个词都有一个权重干系联,它显现了描摹的重要性(大致地说,权重代表了人们用这个词描摹音乐的概率)。

Echo Nest操纵的“文化向量”或“根词汇”。表格来自Brian Whitman

然后,就像协同过滤算法一样,NLP模型操纵这些词汇和权重来创建歌曲的向量表示,可以用来确定两段音乐是否相似。听起来酷毙了,是不是?

举荐模型#3:原始音频模型

这里有个标题,首先,你或许会在想:可是,亲爱的,我们已经以前两个模型里汇集到了这么大都据!为什么还要在费劲儿阐明音频自己呢?

嗯…首先,加上第三个模型可以进一步前进这个举荐办事的正确性。但现实上,操纵这种模型还考虑到一个次要目的:与前两种模型典范不同,原始音频模型可以用来发现新歌曲。

例如,你的歌手-作曲家朋侪在Spotify上传了一首歌曲,但或许只有50个听众,所以很少有其他听众通过协同过滤算法发现它。它也没有在互联网上的任何处所被提到,所以NLP模型也不会继承它。侥幸的是,原始音频模型并不会在意一首歌到底是新的曲目照旧流行的曲目,所以在这个算法的资助下,你朋侪的歌曲就可以和其他流行歌曲一路被选择出如今Discover Weekly的播放列内外!

好,打点了为什么的标题,如今我们来探究一下它的道理——我们奈何阐明原始的音频数据,这似乎听起来很抽象。

方法就是卷积神经收集!

卷积神经收集就是面部识别背后的支撑技术。但在Spotify中,它们被进行了响应的修改,以处置惩罚处罚音频数据,而不再是图像数据。下图是一个神经收集架构的例子:

图片泉源:Sander Dieleman

这个特定的神经收集有四个卷积层,即左边的四个宽条,和三个全连接层,即右边的三个窄条。输入是音频帧的时间-频率表示,然后将它们进行级联以形成频谱图。

音频帧通过这些卷积层,在最后一个卷积层之后,您可以看到一个“全局时序池化”层,它对整个时间轴进行池化,可以有用土地算歌曲整个时间内进修到的特征的统计。

在处置惩罚处罚之后,神经收集会输出对歌曲的阐明成果,包含像估计的拍子记号,调,模式,速度和响度等特征。以下是Daft Punk乐队的作品“Around the World”30秒摘录的数据。

图片泉源:Tristan Jehan和David DesRoches(The Echo Nest)

最终,对这首歌曲的紧张特征的阐明使得Spotify能够了解歌曲之间的底子相似之处,从而使得用户可以基于自己的播放历史浏览相似的歌曲。

下面这张图涵盖了为举荐管道提供的三种紧张典范的举荐模型的根本常识,并最终为“每周发现”播放列表提供建议!

当然,这些举荐模型最终都要连接到Spotify的更大的生态系统中,其中包含大量的数据存储,操纵大量的Hadoop集群来扩展建议,并使这些算法引擎对巨型矩阵,无尽的互联网音乐文章和大量的音频文件进行打定。

作者:Sophia Ciocca,软件工程师,作家。

Tags: 神马 权重 模型 向量 音乐 歌曲 用户 算法 发现 卷积 播放列表 曲目 音频 生肖 数据

服务热线

131-1198-7613

功能和特性

价格和优惠

获取内部资料

微信服务号