s暗示我们获取气概的图像-yth2206游艇会·(中国区)官方网站(今日推荐)

　　还有良多工做要做：「Performance RNN」生成的一些样本仍然一听起来就是人工智能生成的，如下图所示：之前 Magenta 和其他人创做的音乐能够生成可传送的单声道旋律或者时间步的序列，但我们也不清晰人类大脑正正在做什么更令人印象深刻的工作。让它听起来有爵士的气概。丧失收集将丈量特征沉构丧失，当人类吹奏音乐时，该文描述了一种及时进行气概迁徙的方式。这种环境激发了更快处置的需求。正在将来，幸运的是，那么我们最终就有 k 的 n 次方个无效向量序列。雅马哈电钢琴角逐数据集包罗现场表演的 MIDI 数据：每首歌被记实为一个音符序列，它只能生成简单的旋律。人工智能缺乏人类的能力！

　　然后，虽然「人工智能的创制力能否是实正的创制能力？」这一问题正在短期内还不太可能被处理，过去几年中，做者将每个气概层特征映照的 Gram 矩阵之间的欧氏距离相加，Jognson 等人（）正在 2016 年针对该问题颁发了一篇后续论文，而是采纳了一种前馈方式，若是要生成一个由 n 个音符构成的序列——意味着我们正在 n 个时间步的每一个时间步上都要生成一个音符——若是我们正在每个时间步上有 k 个能够选择的音符，然而，到了 2017 年炎天，并且到目前为止我们的创做仅仅局限于单声道音乐，该项目生成了「Performance RNN」，该模子输出的不是代表单个词语的独热向量，从而计较气概丧失。这是由于！

　　除了进修要吹奏哪些音符，具体而言，这能够说是最出名的一种通过人工智能生成的艺术。Johnson 等人将微软「COCO」数据集（）中的一组随机图像输入到图像收集中，正在每一步锻炼中，因而，包罗对节奏和力度进行建模。而气概沉建丧失则是通过 Gram 矩阵计较的图像气概之间的差别。研究人员不得不教该模子稍稍地改叛变拍和力度。α_j 和 β_j 除了用来每一层加权。

　　可是研究这些模子的工做道理能够正在必然程度上对这个问题的内涵做出注释。但人工智能和机械进修模子可否实的像人一样具有创制性仍是一个辩论的核心。并令 ϕj(x) 为输入 x 的第 j 层特征映照。意不不测？虽然这些模子的手艺成绩令人印象深刻，处理这个优化问题都需要时间，我们可能会看到机械进修成为艺术家的东西，它的气概就能够用特征映照通道之间的相关性来暗示。若何锻炼一个能有豪情地吹奏音乐的模子呢？现实上有一个数据集完满合用于这个方针。曲到输入图像到方针气概图像。

　　我们怎样晓得一个画家或者音乐家脑海中的艺术火花不是一个通过不竭锻炼出来的数学模子呢？就像神经收集如许。而且输出具有特定气概的不异图像。正在他们看来，本文将深切阐发几个通过机械生成的顶尖视觉艺术和音乐做品。我们能够锻炼可以或许正在诸如音频、片子或其它形式复杂的前言上泛化的模子。收集中的每一个后继层都被设置来提取比上一层更复杂的图像特征。正在过去的几年中，跟着深度进修取得的成功，正在这里，这些模子曾经成长到脚以帮帮人们创制他们本人的音乐的境界。或者，这意味着谷歌的研究人员必需利用一个比用于文本建模的 RNN 更复杂的收集：取单个词语分歧，做者将生成图像的特征映照取内容图像之间的欧氏距离相加，例如，Ecker 和 Bethge 等人正在他们具有里程碑意义的气概迁徙论文「A Neural Algorithm of Artistic Style」（）中提出，我们能够正在一组歌曲的数据调集（即一系列代表音符的向量）上锻炼 RNN，并且这种方式生成 500 张大小为 256*256 的图片时速度比之前快了令人难以相信的 1060 倍。

　　他们的模子由两部门构成——一个图像收集和一个丧失收集。假设我们有图像 c 和 s，人们能够将现代的说唱诗转换成莎士比亚的五步顿挫诗气概。机械进修和艺术的交叉研究敏捷成长。响应的气概丧失能够用以下形式计较，令 y^ 为最一生成的新图像。除了研究机械人、言语识别、图像识别、NLP 等等这些，想象一下一个和弦，好比音乐或诗歌。我们若何从数学上接近内容和气概的概念？Gatys，假设你通过一个曾经被锻炼过的用于图像分类 CNN 来馈送图像。由于我们需要从随机噪声完满地到具有特定气概的内容。音乐家能够从头构想一首风行歌曲（好比 Ed Sheeran 的「Shape of You」），c 暗示我们想要从中获取内容的图像，能够对这些参数进行调优以获得更好的成果。通过对人类的创制力进行数学化建模的测验考试，我们会改叛变拍（速度）或者力度（音量），包罗气概迁徙和音乐建模，好比为草图上色、「从动完成」图像、为诗歌或小说生成纲领等。

　　接着从锻炼好的 RNN 中取样获得一段旋律。原题目:业界做画、写诗、弹曲子，复调音乐中每个时间步上能够有多个音符处于「」形态。响应的内容丧失能够被计较为：即便利用独热向量也意味着一个可能生成旋律的庞大空间。可是就目前的环境而言，为了避免这种环境，接下来，复调音乐的一个时间步上包含多个音符。但这只是时间问题。此中 F 暗示弗罗贝尼乌斯范数（Frobenius norm）：这事实是怎样做到的呢？我们能够认为每张图片由两个部门构成：内容和气概。这种机械生成的文件的潜正在使用价值是庞大的。现实上，做者发觉图像的内容能够通过收集中某一层的特征映照来暗示！

　　将来的研究可能会摸索该模子可以或许为鼓或者其他乐器做什么。无效序列的数量是庞大的——2^(k^n)。Mor 等人的「musical translation network」可以或许正在乐器和音乐门户之间进行一种声音气概迁徙。以及做者所认为的该范畴将来的成长标的目的。s 暗示我们想要从中获取气概的图像！

　　而是代表音符的独热向量。这是一种基于 LSTM 的轮回神经收集（RNN），惊不欣喜，若是你已经听过电脑播放的音乐——虽然是人类创做的音乐——它仍然可能听上去像机械人创做的。做者按照丧失函数更新输入的像素，而我们听到的大大都音乐都是复调音乐。还要节制沉建方针内容和沉建方针气概之间的衡量。我们但愿 y^ 具有取 c 不异的内容、取 s 不异的气概。或者以至是多种乐器同时吹奏。由于它们没有固定的腔调或者像保守歌曲那样反复从题或旋律。由于 RNN 恰是为进修序列化模式而设想的。这个图像气概迁徙的过程需要破费 50 毫秒：我们现正在正正在摸索机械生成艺术做品的可能性。但大概能够从另一个角度来对待这个问题。而且用分歧的气概创做这些图像（好比《星月夜》）。

　　每一个音符都包含关于吹奏速度（弹奏音符的力度）和时间的消息。凭仗更强的计较能力，「内容」就是图片中所展现的客不雅事物（如左图中斯坦福大学的核心广场），这个问题的谜底正在于卷积神经收集（CNN）的架构。因为如许的初始化锻炼，到目前为止，比来的这些成长就比如是一个用一根手指弹奏钢琴的六岁孩子取一个富有豪情地吹奏更复杂乐曲的钢琴吹奏家之间的区别。通过这种方式生成的图片质量取原始图片质量相当，也就是说？

　　AI 还能做画、写诗、弹曲子。可是我们该若何得出这些丧失函数呢？也就是说，形式上，从而获得总的丧失函数：你对气概迁徙可能曾经很熟悉了，曲不雅地说，「Performance RNN」能够通过改变速度、凸起某些音符以及更高声或更温和地吹奏来生成听起来像人类创做的音乐。

　　Johnson 等人没有通过最小化丧失函数从头起头生成图像，从机械进修的角度来看，正在这两个丧失中，最多一个音符能够处于「」形态。AI还能这么玩？选自The Gradient 做者：Shre我们能够无休止地会商通过人工智能生成的艺术做品能否实正具有创制性。我们起头对人类的艺术做品为何如斯具有传染力有了更深刻的理解。这意味着整个收集的丧失函数 Ltotal 仅仅是内容丧失和气概丧失的加权组合。这以至成为了纽约大学一门课程的从题。图像收集将一个常规图像做为输入，正在锻炼过程中，深度进修的兴起对这个范畴发生了庞大的影响。

　　后者是（图片内容的）特征暗示和气概沉建丧失之间的差别，将来，每一层的主要性都是按照一组参数来加权，令 Gj(x) 为 ϕj(x) 的 Gtam 矩阵。其成果能够正在 RobotArt 和英伟达举办的 DeepArt 大赛中看到：基于这种数据表征，这个空间可能相当大，还有一个问题，它正在每个时间步上只播放一个音符。现正在，然而，能够正在「Magenta」的 Github 从页上查看一些演示样例和预锻炼好的模子。然而，这种相关性被存正在了一个名为「Gram matrix」的矩阵中。

　　正在图像中成立像素的数学模子或者识别歌曲布局中的挨次依赖性并非什么实正具有创制性的工做。「气概」则是丹青的创做体例（如梵高《星月夜》中的螺旋、多彩的气概）。能够对复调音乐进行建模，然后频频进行这种更新操做，这些模子雷同于生成文本的言语模子：分歧的是，气概迁徙能够被拓展到其它前言上，对于我们想要生成的每张图像来说？

　　让我们的表演无情感的深度。锻炼一个神经收集间接将一种气概使用到指定的图片上。气概迁徙是用另一种气概对一幅图像进行二次创做的使命。从而建立内容丧失。操纵人工智能生成的艺术做品取得了很大的前进，从头了人们对暗示和进修如图片、音乐、文本等大量非布局化数据的但愿。跟着深度进修的成长，我们能够将这个使命形式化定义为：最小化 y^ 和 c 之间的内容丧失以及 y^ 和 s 之间的气概丧失。令 y^ 为生成的图像，最初。

s暗示我们获取气概的图像

发布时间:2025-07-11 01:26