重推薦:AAC&AAC+格式音樂(lè)。推薦指數(shù):★★★★★
這是我到半夜里試驗(yàn)出來(lái)的產(chǎn)物。這個(gè)格式用在小I身上絕對(duì)是完美的一塌糊涂的!比那破MP3要好很多很多,你如果厭倦了MP3的單調(diào)毫無(wú)層次感,你完全可以去實(shí)施AAC格式轉(zhuǎn)換工具就用千千靜聽(tīng)里附帶的那個(gè),自己到官方上去下個(gè)AAC解碼包就行了。我轉(zhuǎn)換用源音樂(lè)是APE格式,這個(gè)在網(wǎng)上比較多,一搜一堆。我轉(zhuǎn)了幾個(gè)放手機(jī)里聽(tīng)了看看的,立即被那清澈的聲音震住,后來(lái)就把手機(jī)里能換成AAC格式的全部都換成了AAC格式,用小I外放絕對(duì)比MP3要強(qiáng)N倍!
我對(duì)這個(gè)音質(zhì)無(wú)話可說(shuō)。可以直接兩個(gè)字概括。完美!不要其他廢話了。我在網(wǎng)上搜了蔡琴的渡口這歌的FLAC格式。乖乖.22.6M.就一首4分多鐘的歌就有那么大的文件。被雷了。下到手機(jī)用自帶播放器提示無(wú)法打開(kāi)。 轉(zhuǎn)用COREPLAYER。當(dāng)時(shí)沒(méi)帶耳機(jī),拿外方放的。基本上和MP3沒(méi)區(qū)別。差點(diǎn)放棄,但是帶上耳機(jī)的那一剎那,震住了。音質(zhì)完美原音完美呈現(xiàn)。絕對(duì)好聽(tīng)。人聲的換氣以及顫音。都非常的清晰。低音平穩(wěn),中音圓潤(rùn),高音清晰。首推FLAC。(不過(guò)要多聽(tīng)那你就去買張32G的TF吧。。)
就是將FLAC格式進(jìn)行初級(jí)壓縮,保持FLAC的原聲品質(zhì)。APE格式的音樂(lè),一首個(gè)都是30M以上,音質(zhì)超好,但是不太好下載,要自己慢慢找嘍
就是平時(shí)所說(shuō)的CD音質(zhì)。這是將FLAC經(jīng)過(guò)后期處理。畢竟FLAC的格式文件太大了。但WAV文件也是蠻大的,渡口這首歌也有12M之大。不過(guò)音質(zhì)還是比較好的。原音呈現(xiàn),毫無(wú)保留.目前這個(gè)音頻大多數(shù)來(lái)自CD。大家可以用REALPLAY將CD上的音樂(lè)提取到電腦里直接拷進(jìn)小I,用酷狗聽(tīng)。還是很不錯(cuò)的。
小日本鬼子真牛逼。數(shù)碼這方面我們不得不佩服。大家一定玩過(guò)PSP,里面的游戲畫質(zhì)很好吧?有沒(méi)有覺(jué)得音樂(lè)也很動(dòng)聽(tīng)啊?那些大部分都是用的OGG格式,其實(shí)論壇里也有很多的OGG音頻讓大家選擇。OGG比CD稍微差那么點(diǎn)點(diǎn)。(你的耳機(jī)沒(méi)那么挑剔,基本聽(tīng)不出來(lái)的。)但是OGG有個(gè)最大的好處,體積小。渡口這首歌才5M.相當(dāng)于MP3.而MP3是無(wú)法達(dá)到這種音質(zhì)的。
不用我廢話,大家每天都在聽(tīng)。百度一搜一大堆。其音質(zhì)只能說(shuō)說(shuō)的過(guò)去。這里我要向大家說(shuō)明一點(diǎn)。不是說(shuō)MP3比較垃圾。畢竟這東西出了都快10年了。MP3都有碼率的。一般我們網(wǎng)上下載到的都是128KB/S的碼率。而這個(gè)最好的是320KB/S碼率。你可以下一個(gè)FLAC格式然后轉(zhuǎn)成MP3聽(tīng)了看看。兩種碼率是不同的。你碼率越低,說(shuō)明缺損越大,音質(zhì)傷害也越大。
NO.6 WMA音頻
除MP3外用的最多的音頻格式。微軟的遺留品。唯一的好處是版權(quán)認(rèn)證要比MP3方便。音質(zhì)不如MP3,體積小,便于攜帶。推薦一般用戶聽(tīng)聽(tīng),追求音質(zhì)的還是去聽(tīng)MP3吧。
NO.7 RM音頻
比WMA還要垃圾的音頻格式。是REAL公司獨(dú)創(chuàng)的。不多說(shuō)了。
AAC:在高比特率下音質(zhì)僅次于MPC,在高比特率和低比特率下表象都很不錯(cuò)。就是編碼速度太慢!
MPC:低比特率下表現(xiàn)一般,不及Mp3Pro編碼的MP3和OGG,高比特率下音質(zhì)最好,編碼速度快!
OGG:低比特率下音質(zhì)最好,高比特率同樣也不錯(cuò)。編碼速度稍慢。
MP3(MP3Pro):在低比特率下音質(zhì)次于OGG,其他方面同MP3
WMA:高低比特率下都一般,不支持VBR,最高192Kbit/s
FLAC:壓縮率在四個(gè)中最差,編碼速度不錯(cuò),平臺(tái)支持很好。
PAC :稍慢的編碼速度,壓縮率排第三,平臺(tái)支持良好。
APE :編碼速度最快、最好的壓縮率,平臺(tái)支持一般。 編碼速度非常快,壓縮率在四個(gè)種排第二,僅支持Windows平臺(tái)。
好了,說(shuō)了這么多。我想大家也對(duì)這些有了比較深的了解了。這里本人就不多說(shuō)了。大家可以去找找OGG音頻格式的音樂(lè)聽(tīng)了看看,和MP3比比。如果你的耳朵沒(méi)問(wèn)題,大概都能聽(tīng)出來(lái)哪個(gè)音質(zhì)比較好。OGG在網(wǎng)上能搜到,你也可以自己轉(zhuǎn),轉(zhuǎn)的話要注意源音頻質(zhì)量要好。不過(guò)大多數(shù)聽(tīng)眾還是選擇MP3。聽(tīng)MP3的朋友最起碼的音質(zhì)也要是碼率128KB/S的。不要自己下了一個(gè)高壓版然后去抱怨小I音質(zhì)不行等等!
當(dāng)今世界上音質(zhì)最好的音頻格式是什么?當(dāng)然是CD了。它的聲音基本上是忠于原聲的,因此如果你如果是一個(gè)音響發(fā)燒友的話,CD是你的首選。它會(huì)讓你感受到天籟之音。CD光盤可以在CD唱機(jī)中播放,也能用電腦里的各種播放軟件來(lái)重放。一個(gè)CD音頻文件是一個(gè)*.cda文件,這只是一個(gè)索引信息,并不是真正的包含聲音信息,所以不論CD音樂(lè)的長(zhǎng)短,在電腦上看到的“*.cda文件”都是44字節(jié)長(zhǎng)。注意:不能直接的復(fù)制CD格式的*.cda文件到硬盤上播放,需要使用象EAC這樣的抓音軌軟件把CD格式的文件轉(zhuǎn)換成WAV 、APE,這個(gè)轉(zhuǎn)換過(guò)程如果光盤驅(qū)動(dòng)器質(zhì)量過(guò)關(guān)而且EAC的參數(shù)設(shè)置得當(dāng)?shù)脑挘梢哉f(shuō)是基本上無(wú)損抓音頻。推薦大家使用這種方法。
是微軟公司開(kāi)發(fā)的一種聲音文件格式,它符合 PIFFResource Interchange File Format 文件規(guī)范,用于保存WINDOWS平臺(tái)的音頻信息資源,被WINDOWS平臺(tái)及其應(yīng)用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多種壓縮算法,支持多種音頻位數(shù)、采樣頻率和聲道,標(biāo)準(zhǔn)格式的WAV文件和CD格式一樣,也是44.1K的采樣頻率,速率88K/秒,16位量化位數(shù),看到了吧,WAV格式的聲音文件質(zhì)量和CD相差無(wú)幾,也是目前PC機(jī)上廣為流行的聲音文件格式,幾乎所有的音頻編輯軟件都“認(rèn)識(shí)”WAV格式。
MP3格式誕生于八十年代的德國(guó),所謂的MP3也就是指的是MPEG標(biāo)準(zhǔn)中的音頻部分,也就是MPEG音頻層。根據(jù)壓縮質(zhì)量和編碼處理的不同分為 3層,分別對(duì)應(yīng)“*.mp1"/“*.mp2”/“*.mp3”這3種聲音文件。需要提醒大家注意的地方是:MPEG音頻文件的壓縮是一種有損壓縮, MPEG3音頻編碼具有10:1~12:1的高壓縮率,同時(shí)基本保持低音頻部分不失真,但是犧牲了聲音文件中12KHz到16KHz高音頻這部分的質(zhì)量來(lái)?yè)Q取文件的尺寸,相同長(zhǎng)度的音樂(lè)文件,用*.mp3格式來(lái)儲(chǔ)存,一般只有*.wav文件的1/10,而音質(zhì)要次于CD格式或WAV格式的聲音文件。由于其文件尺寸小,音質(zhì)好;所以在它問(wèn)世之初還沒(méi)有什么別的音頻格式可以與之匹敵,因而為*.mp3格式的發(fā)展提供了良好的條件。直到現(xiàn)在,這種格式還是風(fēng)靡一時(shí),作為主流音頻格式的地位難以被撼動(dòng)。但是樹(shù)大招風(fēng),MP3音樂(lè)的版權(quán)問(wèn)題也一直是找不到辦法解決,因?yàn)镸P3沒(méi)有版權(quán)保護(hù)技術(shù),說(shuō)白了也就是誰(shuí)都可以用。
MP3格式壓縮音樂(lè)的采樣頻率有很多種,可以用64Kbps或更低的采樣頻率節(jié)省空間,也可以用320Kbps的標(biāo)準(zhǔn)達(dá)到極高的音質(zhì)。我們用裝有 Fraunhofer IIS Mpeg Lyaer3的 MP3編碼器(現(xiàn)在效果最好的編碼器)MusicMatch Jukebox 6.0在128Kbps的頻率下編碼一首3分鐘的歌曲,得到2.82MB的MP3文件。采用缺省的CBR(固定采樣頻率)技術(shù)可以以固定的頻率采樣一首歌曲,而VBR(可變采樣頻率)則可以在音樂(lè)“忙”的時(shí)候加大采樣的頻率獲取更高的音質(zhì),不過(guò)產(chǎn)生的MP3文件可能在某些播放器上無(wú)法播放。我們把VBR的級(jí)別設(shè)定成為與前面的CBR文件的音質(zhì)基本一樣,生成的VBR MP3文件為2.9MB。
經(jīng)常玩音樂(lè)的人應(yīng)該常聽(tīng)到MIDI(Musical Instrument Digital Interface)這個(gè)詞,MIDI允許數(shù)字合成器和其他設(shè)備交換數(shù)據(jù)。MID文件格式由MIDI繼承而來(lái)。MID文件并不是一段錄制好的聲音,而是記錄聲音的信息,然后在告訴聲卡如何再現(xiàn)音樂(lè)的一組指令。這樣一個(gè)MIDI文件每存1分鐘的音樂(lè)只用大約5~10KB。今天,MID文件主要用于原始樂(lè)器作品,流行歌曲的業(yè)余表演,游戲音軌以及電子賀卡等。*.mid文件重放的效果完全依賴聲卡的檔次。*.mid格式的最大用處是在電腦作曲領(lǐng)域。*.mid 文件可以用作曲軟件寫出,也可以通過(guò)聲卡的MIDI口把外接音序器演奏的樂(lè)曲輸入電腦里,制成*.mid文件。
WMA (Windows Media Audio) 格式是來(lái)自于微軟的重量級(jí)選手,后臺(tái)強(qiáng)硬,音質(zhì)要強(qiáng)于MP3格式,更遠(yuǎn)勝于RA格式,它和日本YAMAHA公司開(kāi)發(fā)的VQF格式一樣,是以減少數(shù)據(jù)流量但保持音質(zhì)的方法來(lái)達(dá)到比MP3壓縮率更高的目的,WMA的壓縮率一般都可以達(dá)到1:18左右,WMA的另一個(gè)優(yōu)點(diǎn)是內(nèi)容提供商可以通過(guò)DRM (Digital Rights Management)方案如Windows Media Rights Manager 7加入防拷貝保護(hù)。這種內(nèi)置了版權(quán)保護(hù)技術(shù)可以限制播放時(shí)間和播放次數(shù)甚至于播放的機(jī)器等等,這對(duì)被盜版攪得焦頭亂額的音樂(lè)公司來(lái)說(shuō)可是一個(gè)福音,另外 WMA還支持音頻流(Stream)技術(shù),適合在網(wǎng)絡(luò)上在線播放,作為微軟搶占網(wǎng)絡(luò)音樂(lè)的開(kāi)路先鋒可以說(shuō)是技術(shù)領(lǐng)先、風(fēng)頭強(qiáng)勁,更方便的是不用象MP3那樣需要安裝額外的播放器,而Windows操作系統(tǒng)和Windows Media Player的無(wú)縫捆綁讓你只要安裝了windows操作系統(tǒng)就可以直接播放WMA音樂(lè),新版本的Windows Media Player7.0更是增加了直接把CD光盤轉(zhuǎn)換為WMA聲音格式的功能,在新出品的操作系統(tǒng)Windows XP中,WMA是默認(rèn)的編碼格式,大家知道Netscape的遭遇,現(xiàn)在“狼”又來(lái)了。WMA這種格式在錄制時(shí)可以對(duì)音質(zhì)進(jìn)行調(diào)節(jié)。同一格式,音質(zhì)好的可與CD媲美,壓縮率較高的可用于網(wǎng)絡(luò)廣播。雖然現(xiàn)在網(wǎng)絡(luò)上還不是很流行,但是在微軟的大規(guī)模推廣下已經(jīng)是得到了越來(lái)越多站點(diǎn)的承認(rèn)和大力支持,在網(wǎng)絡(luò)音樂(lè)領(lǐng)域中直逼*.mp3,在網(wǎng)絡(luò)廣播方面,也正在瓜分Real打下的天下。因此,幾乎所有的音頻格式都感受到了WMA格式的壓力。
RealAudio主要適用于在網(wǎng)絡(luò)上的在線音樂(lè)欣賞,現(xiàn)在大多數(shù)的用戶仍然在使用56Kbps或更低速率的Modem,所以典型的回放并非最好的音質(zhì)。有的下載站點(diǎn)會(huì)提示你根據(jù)你的Modem速率選擇最佳的Real文件。現(xiàn)在real的的文件格式主要有這么幾種:有RA(RealAudio)、 RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured),還有更多。這些格式的特點(diǎn)是可以隨網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量,在保證大多數(shù)人聽(tīng)到流暢聲音的前提下,令帶寬較富裕的聽(tīng)眾獲得較好的音質(zhì)。
近來(lái)隨著網(wǎng)絡(luò)帶寬的普遍改善,Real公司正推出用于網(wǎng)絡(luò)廣播的、達(dá)到CD音質(zhì)的格式。如果你的RealPlayer軟件不能處理這種格式,它就會(huì)提醒你下載一個(gè)免費(fèi)的升級(jí)包。許多音樂(lè)網(wǎng)站如http://www.emusic.com 提供了歌曲的Real格式的試聽(tīng)版本。現(xiàn)在最新的版本是RealPlayer 9.0,第39期《電腦報(bào)》也對(duì)RealPlayer 9.0作了詳細(xì)的介紹,這里不再贅述。
雅馬哈公司另一種格式是vqf,它的核心是減少數(shù)據(jù)流量但保持音質(zhì)的方法來(lái)達(dá)到更高的壓縮比,可以說(shuō)技術(shù)上也是很先進(jìn)的,但是由于宣傳不力,這種格式難有用武之地。vqf可以用雅馬哈的播放器播放。同時(shí)雅馬哈也提供從wav文件轉(zhuǎn)換到vqf文件的軟件。
以上給大家介紹了常見(jiàn)的音頻文件格式,那么,我已經(jīng)有了一張CD光盤或是一個(gè)WAV文件,怎么才能轉(zhuǎn)換成其它的文件格式呢?接下來(lái)給大家介紹音頻文件格式之間的轉(zhuǎn)換問(wèn)題。
WAVE 文件作為最經(jīng)典的 Windows 多媒體音頻格式,應(yīng)用非常廣泛,它使用三個(gè)參數(shù)來(lái)表示聲音:采樣位數(shù)、采樣頻率和聲道數(shù)。聲道有單聲道和立體聲之分,采樣頻率一般有 11025Hz(11kHz)、22050Hz(22kHz)和 44100Hz(44kHz)三種。WAVE 文件所占容量=(采樣頻率×采樣位數(shù)×聲道)×?xí)r間/8(1 字節(jié)=8bit)。
MOD 是一種類似波表的音樂(lè)格式,但它的結(jié)構(gòu)卻類似 MIDI,使用真實(shí)采樣,體積很小,在以前的 DOS 年代,MOD 經(jīng)常被作為游戲的背景音樂(lè)。現(xiàn)在的 MOD 可以包含很多音軌,而且格式眾多,如 S3M、NST、669、MTM、XM、IT、XT 和 RT 等。
MIDI 是 Musical Instrument Data Interface 的簡(jiǎn)稱,它采用數(shù)字方式對(duì)樂(lè)器所奏出來(lái)的聲音進(jìn)行記錄(每個(gè)音符記錄 為一個(gè)數(shù)字),然后,播放時(shí)再對(duì)這些記錄通過(guò) FM 或波表合成:FM 合成是通過(guò)多個(gè)頻率的聲音混合來(lái)模擬樂(lè)器的聲音; 波表合成是將樂(lè)器的聲音樣本存儲(chǔ)在聲卡波形表中,播放時(shí)從波形表中取出產(chǎn)生聲音。
MP3 可謂是大名鼎鼎,它采用 MPEG Audio Layer 3 技術(shù),將聲音用 1∶10 甚至 1∶12 的壓縮率壓縮,采樣率為 44kHz、比特率為 112kbit/s。
MP3 音樂(lè)是以數(shù)字方式儲(chǔ)存的音樂(lè),如果要播放,就必須有相應(yīng)的數(shù)字解碼播放系統(tǒng),一般通過(guò)專門的軟件進(jìn)行 MP3 數(shù)字音樂(lè)的解碼,再還原成波形聲音信號(hào)播放輸出,這種軟件就稱為 MP3 播放器,如 Winamp 等。
RA、RAM 和 RM 都是 Real 公司成熟的網(wǎng)絡(luò)音頻格式,采用了“音頻流”技術(shù),所以非常適合網(wǎng)絡(luò)廣播。在制作時(shí)可以加入版權(quán)、演唱者、制作者、Mail 和歌曲的 Title 等信息。RA 可以稱為互聯(lián)網(wǎng)上多媒體傳播的霸主,適合于網(wǎng)絡(luò)上進(jìn)行實(shí)時(shí)播放,是目前在線收聽(tīng)網(wǎng)絡(luò)音樂(lè)最好的一種格式。
VQF 即 TwinVQ 是由 Nippon Telegraph and Telephone 同 YAMAHA 公司開(kāi)發(fā)的一種音頻壓縮技術(shù)。VQF 的音頻壓縮率比標(biāo)準(zhǔn)的 MPEG 音頻壓縮率高出近一倍,可以達(dá)到 1∶18 左右甚至更高。而像 MP3、RA 這些廣為流行的壓縮格式一般只有 1∶12 左右。但仍然不會(huì)影響音質(zhì),當(dāng) VQF 以 44kHz-80kbit/s 的音頻采樣率壓縮音樂(lè)時(shí),它的音質(zhì)會(huì) 優(yōu)于 44kHz-128kbit/s 的 MP3,以 44kHz-96kbit/s 壓縮時(shí),音樂(lè)接近 44kHz-256kbit/s 的 MP3。
MD(即 MiniDisc)是 SONY 公司于 1992 年推出的一種完整的便攜音樂(lè)格式,它所采用的壓縮算法就是 ATRAC 技術(shù)(壓縮比是 1∶5)。MD 又分為可錄型 MD(Recordable,有磁頭和激光頭兩個(gè)頭)和單放型 MD(Pre-recorded,只有激光頭)。 強(qiáng)大的編輯功能是 MD 的強(qiáng)項(xiàng),可以快速選曲、曲目移動(dòng)、合并、分割、刪除和曲名編輯等多項(xiàng)功能,比 CD 更具個(gè)性化, 隨時(shí)可以擁有一張屬于自己的 MD 專輯。MD 的產(chǎn)品包括 MD 隨身聽(tīng)、MD 床頭音響、MD 汽車音響、MD 錄音卡座、MD 攝像槍和 MD 驅(qū)動(dòng)器等。
即 CD 唱片,一張 CD 可以播放 74 分鐘左右的聲音文件,Windows 系統(tǒng)中自帶了一個(gè) CD 播放機(jī),另外多數(shù)聲卡所附帶的軟件都提供了 CD 播放功能,甚至有一些光驅(qū)脫離電腦,只要接通電源就可以作為一個(gè)獨(dú)立的 CD 播放機(jī)使用。
微軟在開(kāi)發(fā)自己的網(wǎng)絡(luò)多媒體服務(wù)平臺(tái)上主推 ASF(Audio Steaming format),這是一個(gè)開(kāi)放支持在各種各樣的網(wǎng)絡(luò)和協(xié)議上的數(shù)據(jù)傳輸?shù)臉?biāo)準(zhǔn)。它支持音頻、視頻以及其他一系列的多媒體類型。而 WMA 是 Windows Media Audio 的縮寫,相當(dāng)于只包含音頻的 ASF 文件。WMA 文件在 80kbps、44kHz 的模式下壓縮比可達(dá) 1∶18,基本上和 VQF 相同。而且壓縮速度比 MP3 提高一倍。所以它應(yīng)該比 VQF 更具有競(jìng)爭(zhēng)力。
為了防止 MP3 音樂(lè)公司收取的專利費(fèi)用上升,GMGI 的 iCast 公司的程序員開(kāi)發(fā)了一種新的免費(fèi)音樂(lè)格式 Vorbis,其音質(zhì)可以與 MP3 相媲美,甚至優(yōu)于 MP3。并且將通過(guò)網(wǎng)絡(luò)發(fā)布,可以免費(fèi)自由下載,不必?fù)?dān)心會(huì)涉及侵權(quán)問(wèn)題。但 MP3 在網(wǎng)上已經(jīng)非常流行,微軟的 Windows Media 技術(shù)也開(kāi)始普及,Vorbis 的前景還是不容樂(lè)觀。
AIF/AIFF:蘋果公司開(kāi)發(fā)的一種聲音文件格式,支持 MAC 平臺(tái),支持 16 位 44.1kHz 立體聲。AU:SUN 的 AU 壓縮聲音文件格式,只支持 8 位的聲音,,是互連網(wǎng)上常用到的聲音文件格式,多由 SUN 工作站創(chuàng)建。
CDA:CD 音軌文件。
CMF:CREATIVE 公司開(kāi)發(fā)的一種類似 MIDI 的聲音文件。DSP:Digital Signal Processing(數(shù)字信號(hào)處理)的簡(jiǎn)稱。通過(guò)提高信號(hào)處理方法,音質(zhì)會(huì)極大地改善,歌曲會(huì)更悅耳動(dòng)聽(tīng)。
Kaldi,雖然非常高效,表現(xiàn)也好,但是忒難用,不靈活,總得改C++代碼;
PyKaldi,雖然用上了機(jī)器學(xué)習(xí)界寵兒Python,但本質(zhì)上跟Kaldi還是一回事嘛;
PyTorch-Kaldi,雖然靈活了一些,聲學(xué)模型也易于修改,但是,跟前面一樣,它也還是Kaldi呀;
ESPNET,雖然是基于Python和PyTorch的,但是只支持端到端語(yǔ)音識(shí)別,太不全面了;
pip install librosa
ffmpeg is very stronger.
librosa.beat:用于檢測(cè)速度和節(jié)拍
librosa.core:用于從磁盤加載音頻和計(jì)算各種頻譜圖
librosa.decompose:實(shí)現(xiàn)矩陣分解進(jìn)行諧波和沖擊源分離通用頻譜圖分解
librosa.display:音頻特征的顯示
librosa.effects:時(shí)域音頻處理,音高變換和時(shí)間拉伸,時(shí)域包裝器。
librosa.feature:特征提取和操作:色度圖,偽常數(shù)Q(對(duì)數(shù)頻率)變換,Mel頻譜圖,MFCC和調(diào)諧估計(jì)
librosa.filters:濾波器生成色度。偽CQT、CQT等
librosa.onset:其實(shí)檢測(cè)和起始強(qiáng)度計(jì)算。
librosa.segment:用于結(jié)構(gòu)分段的函數(shù)
librosa.swquence:順序建模功能
librosa.util:輔助工具(規(guī)范化。填充、居中)音頻特征提取工具包librosa
3.1 音頻信號(hào)提取
load(path[,sr,mono,offset,duration,…]):讀取音頻文件為時(shí)間序列的數(shù)據(jù)
to_mono(y):轉(zhuǎn)化為單聲道
resample(y,orig_sr,target_sr[,res_type,…]):重新采樣
get_duration([y,sr,S,n_fft,hop_length,…]):計(jì)算音頻文件的時(shí)長(zhǎng)
autocorrelate(y[, max_size, axis]):自動(dòng)邊界識(shí)別
zero_crossings(y[, threshold, …]):找到0交叉點(diǎn)
tone(frequency[, sr, length, duration, phi]):返回一個(gè)純音信號(hào)
3.2 光譜表示
stft(y[, n_fft, hop_length, win_length, …]):短時(shí)傅里葉變換
istft(stft_matrix[, hop_length, win_length, …]):反傅里葉變換
ifgram(y[, sr, n_fft, hop_length, …]):計(jì)算瞬時(shí)采樣頻率
3.3 幅度范圍
amplitude_to_db(S[, ref, amin, top_db]):轉(zhuǎn)化為db單位的幅值
db_to_amplitude(S_db[, ref]):db單位的響度圖轉(zhuǎn)化為幅值光譜圖
power_to_db(S[, ref, amin, top_db]):能量光譜圖轉(zhuǎn)化為響度db單位的圖
db_to_power(S_db[, ref]):響度的光譜圖轉(zhuǎn)化為db的響度圖
perceptual_weighting(S, frequencies, **kwargs):感知加權(quán)的能量光譜圖
3.4 時(shí)間和頻率轉(zhuǎn)化
frames_to_samples(frames[, hop_length, n_fft]):幀指數(shù)轉(zhuǎn)化為音頻采樣指數(shù)
frames_to_time(frames[, sr, hop_length, n_fft]):幀到時(shí)間的轉(zhuǎn)化
samples_to_frames(samples[, hop_length, n_fft]):采樣指數(shù)到短時(shí)傅里葉變換幀
samples_to_time(samples[, sr]):幀數(shù)到時(shí)間的轉(zhuǎn)化
time_to_frames(times[, sr, hop_length, n_fft]):時(shí)間到傅里葉真數(shù)的轉(zhuǎn)化
time_to_samples(times[, sr]):時(shí)間到采樣數(shù)的轉(zhuǎn)化
hz_to_note(frequencies, kwargs):頻率到音符的轉(zhuǎn)化
hz_to_midi(frequencies):根據(jù)頻率得到midi的音符數(shù)
midi_to_hz(notes):midi的音符得到頻率
midi_to_note(midi[, octave, cents]):將midi數(shù)字轉(zhuǎn)化為音符符號(hào)
note_to_midi(note[, round_midi]):音符符號(hào)轉(zhuǎn)化為midi數(shù)字格式
hz_to_mel(frequencies[, htk]):頻率轉(zhuǎn)化為梅爾譜
hz_to_octs(frequencies[, A440]):頻率轉(zhuǎn)化為八度音符
mel_to_hz(mels[, htk]):梅爾譜到頻率轉(zhuǎn)化
octs_to_hz(octs[, A440]):八度音符到頻率轉(zhuǎn)化
fft_frequencies([sr, n_fft]):
mel_frequencies([n_mels, fmin, fmax, htk]):梅爾譜到頻率的轉(zhuǎn)化
tempo_frequencies(n_bins[, hop_length, sr]):每分鐘的節(jié)拍轉(zhuǎn)化為矩陣
samples_like(X[, hop_length, n_fft, axis]):特征矩陣轉(zhuǎn)為數(shù)組(采樣數(shù))
3.5 音高和曲調(diào)
estimate_tuning([y, sr, S, n_fft, …]):估計(jì)輸入音頻的曲調(diào)
pitch_tuning(frequencies[, resolution, …]):根據(jù)音高估計(jì)曲調(diào)
3.6 節(jié)奏和曲速
beat_track([y, sr, onset_envelope, …]):估計(jì)節(jié)奏
tempo([y, sr, onset_envelope, hop_length, …]):估計(jì)曲速
3.7 顯示
specshow(data[, x_coords, y_coords, x_axis, …]):顯示光譜圖
waveplot(y[, sr, max_points, x_axis, …]):振幅包絡(luò)的波形圖
cmap(data[, robust, cmap_seq, cmap_bool, …]):從給定數(shù)據(jù)中獲取默認(rèn)色彩映射
3.8 光譜特征
3.9 節(jié)奏特征
tempogram([y,sr,onset_envelope,…]) 計(jì)算臨時(shí)圖:起始強(qiáng)度包絡(luò)的局部自相關(guān)。
3.10 光譜圖分解