如果你到現在還在用付費的文字轉語音工具,一定要認真看完本篇文章。
<script src="https://lf6-cdn-tos.bytescm.com/obj/cdn-static-resource/tt_player/tt.player.js?v=20160723"></script>
hello,大家好,今天給大家分享一款免費又好用的文字轉語音軟件,安裝也非常簡單。
TTS-Vue(微軟語音合成工具),該軟件是使用 Electron + Vue + ElementPlus + Vite 構建的,并且原作者標注了永久免費使用,不得商用。
截止到目前,該軟件目前已實現的功能:
以下就是軟件的使用界面,也很清爽簡潔,非常好用。
那么這款軟件安裝呢,也非常容易,首先進入到下載界面,
下載地址:https://github.com/LokerL/tts-vue/releases/tag/1.9.15
下載下來之后,隨便放在哪個盤里,解壓到當前文件夾就行,然后雙擊安裝。
選擇為所有用戶使用還是僅為我安裝,點擊下一步。
選擇安裝位置點擊安裝。
安裝完成后就可以正常運行該程序了。
是不是非常簡單,然后就是要跟大家講一下一個使用小問題,
就是這個接口的地方,暫時Microsoft Speech API我是用不了,然后Azure Speech API需要先配置密鑰和服務地址,所以我都是用的中間這個Edge Speech API,平時做做短視頻配配音也夠用了。
這只是個基礎的入門的免費配音小軟件,如果大家有需要的話,后期還可以給大家分享更高階的語音克隆技術,不過那個安裝門檻就高一些了,沒這么簡單明了。
如果有什么問題都可以后臺私信我,能力范圍內的問題,有問必答。
大家好,最近給大家分享了很多AI開源項目,而隨著AI技術的不斷發展,TTS語音模型在AI界也是迅速出圈,并且熱度不小!小編結合自己了解的 TTS 模型,給大家做了個TTS 模型匯總!文章內容基于項目熱度和效果排行,可直接拿來部署使用,覺得對你有幫助記得點贊和收藏哦!也歡迎大家補充指正,感謝大家!
ChatTTS是一個專門為對話場景設計的文本到語音模型,支特中英文,能生成自然流暢的對話語音。這個項目提供了基礎模型和高級控制方法,可以用來生成帶有情感和語調變化的語音。用戶可以通過基礎代碼快速上手,也可以根據需要進行高級定制。
ChatTTS詳細主要功能
1.對話式TTS(Conversational TTS)
2.多說話人支持(Multiple Speakers)
3.高質量音頻(High-Quality Audio)
GitHub:https://github.com/2noise/ChatTTS
一個簡單的本地網頁界面,直接在網頁使用 ChatTTS 將文字合成為語音,支持中英文、數字混雜,并提供API接口,同時支持Windows、Linux、Mac 部署。
功能特點:
1.自動視頻翻譯:集成更快耳語模型/并支持自定義擁抱臉模型。同時,它集成了批量語音到字幕、批量字幕翻譯和批量配音小工具。
2.多種配音和翻譯渠道
3.完全離線:翻譯通道換成本地模式,配音通道換成克隆語音,可實現完全本地離線視頻翻譯。
4.免費開源:該代碼在 GitHub 上公開供查看,免費,沒有功能限制,也沒有隱藏費用
Github:https://github.com/jianchang512/ChatTTS-ui?tab=readme-ov-file
官網:https://pyvideotrans.com/
Seed-TTS是由字節跳動開發的一種高級文本到語音(TTS)模型系列,能夠生成高質量、幾乎無法與人類語音區分的語音。該模型可以基于簡短的語音片段生成高度自然且富有表現力的語音。
Seed-TTS在多個實驗中表現優異,其生成的語音在自然度和說話者相似度上接近人類語音,展示了強大的生成能力和應用潛力。
主要功能
1.高質量語音生成
Seed-TTS是一種能夠生成高質量、幾乎無法與人類語音區分的語音模型。通過大規模自回歸文本到語音(TTS)模型的架構設計,Seed-TTS在語音自然度和說話者相似度方面達到了新的高度。
2.語音屬性控制
Seed-TTS提供了對各種語音屬性的高級控制能力,包括但不限于情感、語調、說話風格等。通過精調,用戶可以靈活地控制生成語音的不同屬性,以滿足各種應用場景的需求。
3.多樣性和表現力
Seed-TTS能夠生成高度多樣化和富有表現力的語音,這使得它在多個應用場景中表現出色,如有聲讀物、虛擬助手、視頻配音等。
項目及演示:https://bytedancespeech.github.io/seedtts_tech_report/
論文:https:/arxiv.org/pdf/2406.02430
GitHub:https://github.com/BytedanceSpeech/seed-tts-eval/
Fish Speech 是一個全新的文本轉語音 (TTS)解決方案,該項目由fishaudio開發。當前模型使用約十五萬小時三語數據訓練,對中文支持非常的完美。
能夠熟練處理和生成中文、日語和英語的語音,語言處理能力接近人類水平,并且聲音表現形式豐富多變。作為一個僅有億級參數的模型,Fish Speech 設計高效輕量,用戶可以在個人設備上輕松運行和微調,成為您的私人語音助手。
Fish Speech 支持多種不同的語音生成模型,包括但不限于
GitHub :https://github.com/fishaudio/fish-speech
在線體驗:https://fish.audio/zh-CN/
想象一下你第一次聽到機器發出的聲音,聽起來就像是人類的聲音。你既驚訝又難以置信,對這項技術能走多遠充滿好奇。GPT-SoVITS 不僅突破了界限,還重新定義了界限。這不僅僅是機器說話;而是它們用一種帶有人類語言的細微差別、情感和獨特性的聲音說話,標志著語音技術的未來已經到來。
功能:
GitHub:https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md
openVoice能對聲音風格的精細控制,包括情感、口音、節奏、停頓和語調,同時能夠復制參考發言者的音色。支持的語言包括英語(英國、美國、印度、澳大利亞)、西班牙語、法語、中文、日語和韓語。
主要功能:
準確的音色克隆: OpenVoice能夠精確地克隆參考音色,并在多種語言和口音中生成語音。靈活的聲音風格控制:允許用戶對聲音的情緒、口音、節奏、停頓和語調進行詳細的調整,提供個性化的聲音輸出。
零樣本跨語言聲音克隆: OpenVoice實現了對大規模多語言數據集之外的語言進行零樣本聲音克隆,即使這些語言未在訓練集中出現也能進行聲音復制。
GitHub: https://github.com/myshell-ai/OpenVoice
技術報告:https://arxiv.org/pdf/2312.01479.pdf
Parler-TTS是一個輕量級的文本到語音(TTS)模型,可以以特定說話者的風格(包括性別、音調、說話風格等)生成高質量、自然聽起來的語音。這個模型是根據Dan Lyth和Simon King的論文《使用合成注解的高保真文本到語音的自然語言指導》而開發的,Dan Lyth屬于Stability AI,Simon King來自愛丁堡大學。
與其他TTS模型不同,Parler-TTS是完全開源發布的。所有的數據集、預處理、訓練代碼和權重都是公開發布的,這使得社區能夠在此基礎上建立自己的強大TTS模型。
它能夠生成高質量且聽起來非常自然的語音。還可以定制說話者的風格(如性別、音調、說話風格等)。 與其他TTS模型不同,Parler-TTS 完全開源發布,包括數據集、預處理、訓練代碼和權重。只需一行代碼即可安裝。 此外,它還提供了交互式演示和詳細的訓練指南,使用戶能夠快速上手并自定義模型。
開源地址:https://github.com/huggingface/parler-tts
3kstar!支持40多種語言,300多種聲音,代替科大訊飛的收費TTS服務完全沒問題,它利用了微軟Azure Cognitive Services的強大功能,能夠將文本信息轉換成流暢自然的語音輸出。這個庫特別適合需要在應用程序中加入語音功能的開發者使用。
Github地址:https://github.com/rany2/edge-tts
FunAudioLLM 是阿里巴巴開發的一組語音處理模型,旨在改善人類與大語言模型之間的語音交互,它由兩個主要模型構成:SenseVoice 和 CosyVoice。
SenseVoice:語音識別模型,這個模型可以識別多種語言的語音,識別說話人的情感,檢測音頻中的特殊事件(比如音樂、笑聲等)。它可以快速而準確地轉錄語音內容。
CosyVoice:語音生成模式,這個模型主要生成自然目情感豐富的語音。它可以模仿不同的說話人,甚至可以用幾秒鐘的音頻樣本來克隆一個人的聲音。
SenseVoice 主要專注于多語言語音識別、情感識別和音頻事件檢測,提供高精度、低延遲的語音處理能力。CosyVoice 則側重于自然語音生成和控制,支持多種語言、音色和說話風格的生成,能夠實現零樣本學習和細粒度的語音控制。這兩者結合,使得 FunAudioLLM 能夠在多種應用場景下提供卓越的語音交互體驗。
FUNAudioLLM的應用:
1.語音到語音翻譯(Speech-to-Speech Translation)
2.情感語音聊天(Emotional Voice Chat)
3.互動播客(Interactive Podcasts)
4.情感有聲書(Expressive Audiobooks)
GitHub地址:https://github.com/FunAudioLLM/CosyVoice
VoiceCraft是一款新型語音模型,支持克隆語音和修改音頻文本。據稱其性能超越了XTTS,引起了業界關注。模型具有強大的音頻克隆能力和編輯功能,專注于零樣本語音編輯和文本到語音(TTS)任務。該模型采用Transformer架構,通過創新的token重排過程,結合因果掩蔽和延遲疊加技術,可零樣本實現在現有音頻序列內的高效生成。VoiceCraft在多種口音、風格和噪聲條件下的語音編輯和TTS任務上展現出卓越性能,生成的語音自然甚至難以與原聲區分。
特點
1.易用性:簡單的用戶界面讓任何人都可以輕松上手生成和編輯語音
2.實時預覽:通過Gradio,用戶可以即時聽到變化,方便調整。
3.高度可定制:支持多種參數調整,以創建各種風格的聲音。
4.開源:完全免費且開源,鼓勵社區貢獻和改進。
GitHub地址:https://github.com/jasonppy/VoiceCraft
EmotiVoice是一款現代化的開源語音合成引擎,支持中英文雙語,包含2000多種不同的音色,以及特色的情感合成功能,支持合成包含快樂、興奮、悲傷、憤怒等廣泛情感的語音。
技術實現
Emotivoice的核心在于其情感/風,格控制的提示機制。它使用了先進的 深度學習模型只,如Tacotron和WaveRNN,來實現高質量的語音輸出。此外,EmotiVoice還提供了一個易于使用的Web界面,以及用于批量生成結果的腳本接口。
性能特點
Emotivoice的性能特點包括其多樣化的聲音選擇和高度的情感表達能力。用戶可以根據需要選擇不同的聲音和情感,從而生成更加個性化和富有表現力的語音內容。
GitHub:https://github.com/netease-youdao/EmotiVoice
Metavoice-1B是一個強大的1.2億參數的文本轉語音Q(TTS)模型,訓練在10萬小時的語音數據上,專注于情感豐富、節奏自然和音調準確的英語發音。這個開源項目不僅實現了零樣本美國與英國口音克隆,還支持跨語言的聲線定制,并能合成任意長度的文本。MetaVoice-1B的核心目標是提供真實、有感情色彩的語音體驗。它允許用戶通過短短30秒的參考音頻,無樣本的復制美國和英國口音,還能利用微調功能進行印度等地區的語音克降,只需1分鐘的訓練數據即可實現,更重要的是,模型可以處理長篇幅的文本合成任務,打開無限的可能性。
項目特點
多媒體制作:為視頻、動畫或游戲添加個性化的配音
無障礙應用:幫助視覺障礙者通過語音閱讀網頁、文檔等內容
個性化播客:生成獨特的播客主播聲音,無需真人錄音
GitHub:https://github.com/metavoiceio/metavoice-src
Voice Engine是OpenAl最新公布的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。Voice Engine的核心功能是從15秒的錄音中生成接近說話者音色的自然語音。如果你上傳自己的錄音和一段文本,它可以使用聽起來像你的AI合成語音來讀取文本。并且,文本不必是母語。例如,VoiceEngine可以用中文、英語、西班牙語、法語或許多其他語言重新創建你的聲音。
Voice Engine的應用前景廣泛,包括為兒童和非讀者提供閱讀輔助、翻譯內容以觸及全球聽眾、支持非言語交流者、幫助恢復患者的聲音等。同時,為確保技術的安全使用OpenAl制定了嚴格的使用政策,防止聲音冒充,并采取了包括水印追蹤在內的多項安全措施。
GitHub:https://ai-bot.cn/openai-voice-engine/
Bark 是由Suno創建的基于轉換器的文本到音頻模型。Bark 可以生成高度逼直的多語言語音以及其他音頻。包括音樂、背景噪音和簡單的音效。該模型還可以產生非語言交流,如大笑、嘆息和哭泣。
功能特點:
1.非常真實自然的語音
2.英文效果最佳,其他語言還欠佳
3.支持通過文本生成歌曲
4.支持生成背景噪音、簡單的音效
5.支持大笑、嘆息、哭泣
GitHub:https://github.com/suno-ai/bark
#AI開源項目推薦#