【转载】音乐检索研究现状:

音乐检索研究现状:

从搜索的目标分,主要可分为两大类:SEARCHING SYMBOLIC DATA,SEARCHING AUDIO DATA。我对这两类的理解是:前者是检索乐谱;后者则是检索音频。

SEARCHING SYMBOLIC DATA

1           String-based methods for monophonic melodies

由于这种方式最终是把音乐转化成一种字符串的形式,因此后期的检索就可以用到很多字符串比较的算法,比如计算编辑距离,寻找最长公共子串,找到一个字符串在另一个中的出现次数等等非常成熟的算法。

1.1            距离度量

1.1.1            完全匹配法:即用户的输入必须是完全和数据库中音乐的某一段匹配。采     用的距离度量方法是KMP算法(Knuth-Morris-Pratt)和BM算法  (Boyer-Moore)。

代表系统:Kornstadt的Themefinder。

这个音乐搜索引擎只面向具备专业音乐知识的用户,因为你要准确地输入相关的音乐参数才能进行搜索。

1.1.2           模糊匹配法:即用户的输入和数据库的音乐进行模糊匹配。采用的距离度量方法是编辑距离计算。

代表系统:Prechelt and Typke的Musipedia。

Music Search Engine - Musipedia

Musipedia - 一個以midi 為主的音樂搜尋引擎。(簡體中文版)
Musicpedia 主要是搜尋它自已的資料庫,不過也可以對整個 web
做搜尋!它的搜尋技術平台是用 Alexa search
platform。如果印象中有段旋律,但卻不是明確地記得是哪首音樂或歌的話,可以拿它來嘗試找看看。它提供了四種搜尋方式:

鍵盤輸入搜尋 (Keyboard search)

在上面的鍵盤一個一個音按好之後搜尋即可,網頁下方有使用方法

弦律輪廓搜尋 (contour search)

這部份它是使用一種叫做 Parsons Code 來當 Melodic Contours。簡單來講,就是利用連續音的起伏,當下個音比現在這個音還變高時,就
encode 成 U, 變低則為 D, 不變則為 R,當然,每首音樂的第一個音若拿來編碼,可能造成不準確,因此,在 Parsons Code 中,第一個音以星號
* 來表示。

哼唱搜尋 (Sing or Whistle)
可直接用錄音的, 或者要唱還是吹口哨都可以。

節奏搜尋 (Rhythm search)
按下 Start Tapping 後,就可以利用鍵盤敲出節奏來搜尋。

比較值得一提的是關於它如何比對 midi 的相似度,主要使用 Editing distance 與 Earth Mover‘s Distance。

Musipedia 的前身是 Melodyhound,由 Rainer Typke 從 1997 年開始規劃建置的,直到 Wikipedia
出現後,2006 年時,這個音樂搜尋引擎才改名為 Musipedia,並且也開始能夠搜尋 WWW 上的 midi 音樂。Melodyhound
目前還是可以使用的。

1.2          索引建立

1.2.1           通常可以采用inverted files或者B-trees等方法来建立索引。The lack of the
equivalent of words in music can be overcome by just cutting melodies into
n-grams (Downie, 1999) and indexing those.

参考文献:

J. S. Downie. Evaluating a simple approach to music information
retrieval: Conceiving melodic n-grams as text. PhD thesis, University of Western
Ontario, London, Ontario, Canada, 1999. R. Typke, P. Giannopoulos, R. C.
Veltkamp, F. Wiering, and R. van Oostrum. Using transportation distances for
measuring melodic similarity. In ISMIR Proceedings, pages 107–114, 2003.

2          Set-based methods for polyphonic music

这种方法吧音乐看成是一个旋律属性的集合,这种属性包括持续音调,音调的开始时间和持续时间。

2.1          距离度量

2.1.1           finding supersets

M. Clausen, R. Engelbrecht, D. Meyer, and J. Schmitz. PROMS: a web-based tool
for searching in polyphonic music. In ISMIR Proceedings, 2000.

2.1.2         Earth Mover’s Distance

R. Typke, P. Giannopoulos, R. C. Veltkamp, F. Wiering,and R. van Oostrum.
Using transportation distances for measuring melodic similarity. In ISMIR
Proceedings, pages 107–114, 2003.

代表系统:Typke的Orpheus。在该系统中,音符被表示成二维的一个向量,包含了起始时间以及音高,Earth Mover’s Distance
作为距离的度量方法,vantage objects作为索引的方式。

2.2         索引建立

2.2.1         inverted files

M. Clausen, R. Engelbrecht, D. Meyer, and J. Schmitz. PROMS: a web-based tool
for searching in polyphonic music. In ISMIR Proceedings, 2000.

2.2.2        Triangle inequality for indexing

R. Typke, P. Giannopoulos, R. C. Veltkamp, F. Wiering,and R. van Oostrum.
Using transportation distances for measuring melodic similarity. In ISMIR
Proceedings, pages 107–114, 2003.

3          Probabilistic Matching

通过训练隐马尔科夫模型,来计算查询音频和数据库中音频的相似度

3.1          距离度量

首先用数据库音频训练隐马尔科夫模型,然后通过计算查询音频的后验概率,得到两个音频的相似程度。

代表系统:Hoos的GUIDO/MIR

3.2         索引建立

采用的树的分层聚类

参考文献:

H. Hoos, K. Renz, and M. G¨org. GUIDO/MIR - an experimental musical
information retrieval system based on guido music notation. In ISMIR
Proceedings, pages 41–50, 2001.

SEARCHING AUDIO DATA

1           Extracting perceptionally relevant features

将一段音频分割成小段,提取每一小段的听觉感知特征,通过比较特征序列来检索。主要有以下特征:Loudness, Pitch, Tone,
Mel-filtered Cepstral Coefficients, Derivatives。

代表系统:Jang的Super MBox

该系统先提取音乐的基频,然后采用动态时间规整比较两个基频序列的相似度。

2          Audio
Fingerprinting
在复杂环境下,采用“声纹”能够获得更好的效果。这也是我接下去的时间打算重点学习的一个方向。

代表系统:Wang的Shazam

3          Set-based Methods

利用音频特征的集合进行检索

4          Self-Organizing Map

SOM是一种很常用的人工智能神经网络算法,主要用于无监督学习领域,对相似的音频进行聚类和分类。

代表系统:Rauber的SOMeJB-The SOM-enhanced JukeBox

时间: 2024-11-03 20:52:39

【转载】音乐检索研究现状:的相关文章

音乐检索MIR » 音乐检索研究中使用的工具

音乐检索MIR » 音乐检索研究中使用的工具 工欲善其事,必先利其器.最近在ISMIR邮件列表上大家把自己知道的MIR工具都列了一遍,我整理成这篇文章. jMIR是一个工具集.能够对音频.曲谱.歌词等进行特征提取,挖掘并分析元数据.并基于Weka添加了机器学习模块.这个倒是经常用,不过只是用来提取音频特征. Yaafe是有效的特征提取程序库. Aubio特征提取不多,主要做鼓点.音高.起始点(onset)检测. CLAM是一个无所不包的框架. Scikits-learn是基于python的工具.

《大数据分析中的计算智能研究现状与发展》—— 读后感

<大数据分析中的计算智能研究现状与发展>这篇文章是郭平.王可.罗阿理.薛明志发于2015年11月发表于软件学报. 该篇文章讨论了大数据分析中计算智能研究存在的问题和进一步的研究方向,阐述了数据源共享问题,并建议利用以天文学为代表的数据密集型基础科研领域的数据开展大数据分析研究.  大数据和人工智能是现代计算机技术应用的重要分支,近年来这两个领域的研究相互交叉促进,产生了很多新的方法.应用和价值.大数据和人工智能具有天然的联系,大数据的发展本身使用了许多人工智能的理论和方法,人工智能也因大数据技

基于三维GIS技术的矢量地图动态LOD渲染方法研究现状

“地图是人类文化的杰作,它融科学.艺术于一体,作为描述.研究人类生存环境的一种信息载体是人类生产与生活中不可缺少的一种工具.”这是陈述彭院士为<中国地图学年鉴>作序的开场语.Taylor也曾指出“当涉及应用人脑来识别空间联系中的模式与相互关系时,地图学的认知方法是唯一的过程”.地图存在于我们生活的方方面面,应用广泛且己经产生了巨大的社会效应和经济效益,其重要性不言而喻.地图是地图可视化的结果,地图可视化作为现代地图学的核心一直是三维GIS的研究热点.地图可视化将电子设备的视觉传输能力和人类的视

NLP+语篇分析(五)︱中文语篇分析研究现状(CIPS2016)

摘录自:CIPS2016 中文信息处理报告<第三章 语篇分析研究进展.现状及趋势>P21 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf NLP词法.句法.语义.语篇综合系列: NLP+词法系列(一)︱中文分词技术小结.几大分词引擎的介绍与比较 NLP+词法系列(二)︱中文分词技术及词性标注研究现状(CIPS2016) NLP+句法结构(三)︱中文句法结构研究现状(CIPS2016) NLP+语义分析(四)

算法8-6:最小生成树研究现状

目前已经介绍了Kruskal和Prim算法,他们的复杂度一个是E logE一个是E logV,那么有没有复杂度为E的算法呢?理论上是可能的,但是目前还没有发现该算法.下图是最小生成树算法的发展过程. 从图中可以看到复杂度越來越接近E. 最小生成树的应用 欧几里德最小生成树 问题描述:给定一系列点的坐标,求包含所有点的最小生成树. 下图是这个问题的一个例子. 解决这个问题的基本思想就是先将每个点都看成一个独立的cluster,每次合并一对距离最近的cluster,直到所有的点都合并在一起为止.这种

基于无线信号的手势识别研究现状调查

摘要:进入21世纪以来,人机交互技术持续发展,手势识别是代表之一.2013年,华盛顿大学的研究人员提出了使用无线信号进行手势识别的方法,给传统的手势识别技术带来的一定的挑战,但是这一技术并不是很成熟,暂时没有投入商业使用.本文详细介绍了手势识别,并叙述了基于无线射频的手势识别的研究现状. 关键词:无线信号.手势识别.人机交互 一.背景 进入二十一世纪以来,随着世界科技持续不断的进步以及计算机突飞猛进的发展和普及,人机交互技术(Human-Computer Interaction,简称HCI)在世

电子病历国内外研究现状

一.基本信息 标题:医院电子病历系统设计与实现 作者:齐峰 单位:天津大学研究生院 时间:2017 出版源:中国知网 文献类型:硕士学位论文 二.研究背景 目前国内与国外的发展现状如何? 三.研究内容 国外研究现状 电子病历档案管理模式在西方国家的提出始于 20 世纪 70 年代,首选由 Larry博士提出医疗记录管理模式要以实际问题导向,即一定要对患者的全面信息进行了解.他提出要将病历资料分为患者个人信息和病情记录两个部分.由此提出建立电子病历管理的基本思想.随后电子计算机在日常工作中的应用,

毕业论文指之 “国内外研究现状”的撰写

一. 写国内外研究现状的意义 通过写国内外研究现状,考察学生对自己课题目前研究范围和深度的理解与把握,间接考察学生是否阅读了一定的参考文献.这不仅是毕业论文 撰写不可缺少的组成部分,而而且是为了让学生了解相关领域理论研究前沿,从而开拓思路,在他人成果的基础上展开更加深入的研究,避免不必要的重复劳动或避免研究重复. 二. 国内外研究现状写法 在撰写之前,要先把从网络上和图书馆收集和阅读过的与所写毕业论文选题有关的专著和论文中的主要观点归类整理,找出课题的研究开始.发展和现在研究的主要方向,并从中选

Unity3D音乐音效研究-MIDI与波表

其实音乐音效这个命题本身没什么好研究的. Unity3D提供了丰富的结构和使用方式,足够使用了. 但是我有一些小小的想法和需求,一般的Unity资料并没有给我答案. 一个是容量要小.MP3.OGG的高音质压缩一分钟一M多,多放几首背景音乐就顶不住了. 一个是资源和主程序分离,方便更新,别和我提AssetBundle,这东西的平台不兼容性,完全是在增加麻烦. 还有就是想要一个示波器 像这样的就行了. 问题1.最小不过MIDI,MIDI是乐曲的原始信息,本地合成,1M多MP3不过一分钟,MIDI录一