欄目導航

新聞資訊

新聞資訊

如果你到現在還在用付費的文字轉語音工具，一定要認真看完本篇文章。

hello，大家好，今天給大家分享一款免費又好用的文字轉語音軟件，安裝也非常簡單。

TTS-Vue（微軟語音合成工具），該軟件是使用 Electron + Vue + ElementPlus + Vite 構建的，并且原作者標注了永久免費使用，不得商用。

截止到目前，該軟件目前已實現的功能：

普通文本轉語音
SSML 文本轉語音
批量轉換
長文本/文件切片
日志

以下就是軟件的使用界面，也很清爽簡潔，非常好用。

那么這款軟件安裝呢，也非常容易，首先進入到下載界面，

下載地址：https://github.com/LokerL/tts-vue/releases/tag/1.9.15

下載下來之后，隨便放在哪個盤里，解壓到當前文件夾就行，然后雙擊安裝。

選擇為所有用戶使用還是僅為我安裝，點擊下一步。

選擇安裝位置點擊安裝。

安裝完成后就可以正常運行該程序了。

是不是非常簡單，然后就是要跟大家講一下一個使用小問題，

就是這個接口的地方，暫時Microsoft Speech API我是用不了，然后Azure Speech API需要先配置密鑰和服務地址，所以我都是用的中間這個Edge Speech API，平時做做短視頻配配音也夠用了。

這只是個基礎的入門的免費配音小軟件，如果大家有需要的話，后期還可以給大家分享更高階的語音克隆技術，不過那個安裝門檻就高一些了，沒這么簡單明了。

如果有什么問題都可以后臺私信我，能力范圍內的問題，有問必答。

大家好，最近給大家分享了很多AI開源項目，而隨著AI技術的不斷發展，TTS語音模型在AI界也是迅速出圈，并且熱度不小！小編結合自己了解的 TTS 模型，給大家做了個TTS 模型匯總!文章內容基于項目熱度和效果排行，可直接拿來部署使用，覺得對你有幫助記得點贊和收藏哦！也歡迎大家補充指正，感謝大家！

1.自然流暢！ChatTTS：支持中英文對話的文本到語音TTS模型！

ChatTTS是一個專門為對話場景設計的文本到語音模型，支特中英文，能生成自然流暢的對話語音。這個項目提供了基礎模型和高級控制方法，可以用來生成帶有情感和語調變化的語音。用戶可以通過基礎代碼快速上手，也可以根據需要進行高級定制。

ChatTTS詳細主要功能

1.對話式TTS(Conversational TTS)

2.多說話人支持(Multiple Speakers)

3.高質量音頻(High-Quality Audio)

GitHub:https://github.com/2noise/ChatTTS

2.ChatTTS-ui:開箱即用的ChatTTS將文字合成為語音

一個簡單的本地網頁界面，直接在網頁使用 ChatTTS 將文字合成為語音，支持中英文、數字混雜，并提供API接口，同時支持Windows、Linux、Mac 部署。

功能特點：

1.自動視頻翻譯：集成更快耳語模型/并支持自定義擁抱臉模型。同時，它集成了批量語音到字幕、批量字幕翻譯和批量配音小工具。

2.多種配音和翻譯渠道

3.完全離線：翻譯通道換成本地模式，配音通道換成克隆語音，可實現完全本地離線視頻翻譯。

4.免費開源：該代碼在 GitHub 上公開供查看，免費，沒有功能限制，也沒有隱藏費用

Github:https://github.com/jianchang512/ChatTTS-ui?tab=readme-ov-file

官網:https://pyvideotrans.com/

3.字節開發！Seed-TTS：幾乎完美接近人聲的文本到語音(TTS)模型！

Seed-TTS是由字節跳動開發的一種高級文本到語音(TTS)模型系列，能夠生成高質量、幾乎無法與人類語音區分的語音。該模型可以基于簡短的語音片段生成高度自然且富有表現力的語音。

Seed-TTS在多個實驗中表現優異，其生成的語音在自然度和說話者相似度上接近人類語音，展示了強大的生成能力和應用潛力。

主要功能

1.高質量語音生成

Seed-TTS是一種能夠生成高質量、幾乎無法與人類語音區分的語音模型。通過大規模自回歸文本到語音(TTS)模型的架構設計，Seed-TTS在語音自然度和說話者相似度方面達到了新的高度。

2.語音屬性控制

Seed-TTS提供了對各種語音屬性的高級控制能力，包括但不限于情感、語調、說話風格等。通過精調，用戶可以靈活地控制生成語音的不同屬性，以滿足各種應用場景的需求。

3.多樣性和表現力

Seed-TTS能夠生成高度多樣化和富有表現力的語音，這使得它在多個應用場景中表現出色，如有聲讀物、虛擬助手、視頻配音等。

項目及演示：https://bytedancespeech.github.io/seedtts_tech_report/

論文：https:/arxiv.org/pdf/2406.02430

GitHub:https://github.com/BytedanceSpeech/seed-tts-eval/

4.接近人類水平！Fish Speech:開源的支持中英日語言的完美TTS模型！

Fish Speech 是一個全新的文本轉語音 (TTS)解決方案，該項目由fishaudio開發。當前模型使用約十五萬小時三語數據訓練，對中文支持非常的完美。

能夠熟練處理和生成中文、日語和英語的語音，語言處理能力接近人類水平，并且聲音表現形式豐富多變。作為一個僅有億級參數的模型，Fish Speech 設計高效輕量，用戶可以在個人設備上輕松運行和微調，成為您的私人語音助手。

Fish Speech 支持多種不同的語音生成模型，包括但不限于

VITS2:一種基于變分推理的文本到語音型。
Bert-VITS2:結合BERT模型的變分推理文本到語音型
GPT VITS:結合GPT模型的文本到語音模型。
MQTTS:基于量化技術的文本到語音模型。
GPT Fast:快速生成語音的GPT模型,
GPT-SOVITS:結合GPT和SoVITS技術的文本到語音模型

GitHub :https://github.com/fishaudio/fish-speech

在線體驗:https://fish.audio/zh-CN/

5.GPT-SoVITS：開源 AI語音克隆工具，智能語音合成的新境界！

想象一下你第一次聽到機器發出的聲音，聽起來就像是人類的聲音。你既驚訝又難以置信，對這項技術能走多遠充滿好奇。GPT-SoVITS 不僅突破了界限，還重新定義了界限。這不僅僅是機器說話；而是它們用一種帶有人類語言的細微差別、情感和獨特性的聲音說話，標志著語音技術的未來已經到來。

功能：

零樣本文本到語音（TTS）： 輸入 5 秒的聲音樣本，即刻體驗文本到語音轉換。
少樣本 TTS： 僅需 1 分鐘的訓練數據即可微調模型，提升聲音相似度和真實感。
跨語言支持： 支持與訓練數據集不同語言的推理，目前支持英語、日語和中文。
WebUI 工具： 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注，協助初學者創建訓練數據集和 GPT/SoVITS 模型。

GitHub：https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

6.OpenVoice:輕松克隆任何聲音用多種語言說話并可控制情感口音

openVoice能對聲音風格的精細控制，包括情感、口音、節奏、停頓和語調，同時能夠復制參考發言者的音色。支持的語言包括英語(英國、美國、印度、澳大利亞)、西班牙語、法語、中文、日語和韓語。

主要功能:

準確的音色克隆: OpenVoice能夠精確地克隆參考音色，并在多種語言和口音中生成語音。靈活的聲音風格控制:允許用戶對聲音的情緒、口音、節奏、停頓和語調進行詳細的調整，提供個性化的聲音輸出。

零樣本跨語言聲音克隆: OpenVoice實現了對大規模多語言數據集之外的語言進行零樣本聲音克隆，即使這些語言未在訓練集中出現也能進行聲音復制。

GitHub: https://github.com/myshell-ai/OpenVoice

技術報告:https://arxiv.org/pdf/2312.01479.pdf

7.Parler-TTS ：一個完全開源的高質量ai語音生成項目！

Parler-TTS是一個輕量級的文本到語音（TTS）模型，可以以特定說話者的風格（包括性別、音調、說話風格等）生成高質量、自然聽起來的語音。這個模型是根據Dan Lyth和Simon King的論文《使用合成注解的高保真文本到語音的自然語言指導》而開發的，Dan Lyth屬于Stability AI，Simon King來自愛丁堡大學。

與其他TTS模型不同，Parler-TTS是完全開源發布的。所有的數據集、預處理、訓練代碼和權重都是公開發布的，這使得社區能夠在此基礎上建立自己的強大TTS模型。

它能夠生成高質量且聽起來非常自然的語音。還可以定制說話者的風格（如性別、音調、說話風格等）。與其他TTS模型不同，Parler-TTS 完全開源發布，包括數據集、預處理、訓練代碼和權重。只需一行代碼即可安裝。 此外，它還提供了交互式演示和詳細的訓練指南，使用戶能夠快速上手并自定義模型。

開源地址：https://github.com/huggingface/parler-tts

8.Ege-TTS文本轉語音開源項目

3kstar！支持40多種語言，300多種聲音，代替科大訊飛的收費TTS服務完全沒問題，它利用了微軟Azure Cognitive Services的強大功能，能夠將文本信息轉換成流暢自然的語音輸出。這個庫特別適合需要在應用程序中加入語音功能的開發者使用。

Github地址：https://github.com/rany2/edge-tts

9.阿里發布! FUNAudioLLM：能理解和生成各種人類語音的語音處理模型！

FunAudioLLM 是阿里巴巴開發的一組語音處理模型，旨在改善人類與大語言模型之間的語音交互,它由兩個主要模型構成:SenseVoice 和 CosyVoice。

SenseVoice:語音識別模型，這個模型可以識別多種語言的語音，識別說話人的情感，檢測音頻中的特殊事件(比如音樂、笑聲等)。它可以快速而準確地轉錄語音內容。

CosyVoice:語音生成模式，這個模型主要生成自然目情感豐富的語音。它可以模仿不同的說話人，甚至可以用幾秒鐘的音頻樣本來克隆一個人的聲音。

SenseVoice 主要專注于多語言語音識別、情感識別和音頻事件檢測，提供高精度、低延遲的語音處理能力。CosyVoice 則側重于自然語音生成和控制，支持多種語言、音色和說話風格的生成，能夠實現零樣本學習和細粒度的語音控制。這兩者結合，使得 FunAudioLLM 能夠在多種應用場景下提供卓越的語音交互體驗。

FUNAudioLLM的應用：

1.語音到語音翻譯(Speech-to-Speech Translation)

2.情感語音聊天(Emotional Voice Chat)

3.互動播客(Interactive Podcasts)

4.情感有聲書(Expressive Audiobooks)

GitHub地址：https://github.com/FunAudioLLM/CosyVoice

10.VoiceCraft：支持克隆語音及修改音頻文本的語音模型

VoiceCraft是一款新型語音模型，支持克隆語音和修改音頻文本。據稱其性能超越了XTTS，引起了業界關注。模型具有強大的音頻克隆能力和編輯功能，專注于零樣本語音編輯和文本到語音(TTS)任務。該模型采用Transformer架構，通過創新的token重排過程,結合因果掩蔽和延遲疊加技術，可零樣本實現在現有音頻序列內的高效生成。VoiceCraft在多種口音、風格和噪聲條件下的語音編輯和TTS任務上展現出卓越性能，生成的語音自然甚至難以與原聲區分。

特點

1.易用性:簡單的用戶界面讓任何人都可以輕松上手生成和編輯語音

2.實時預覽:通過Gradio，用戶可以即時聽到變化，方便調整。

3.高度可定制:支持多種參數調整，以創建各種風格的聲音。

4.開源:完全免費且開源，鼓勵社區貢獻和改進。

GitHub地址：https://github.com/jasonppy/VoiceCraft

11.有道開源！EmotiVoice：具有情緒控制功能的語音合成引擎！

EmotiVoice是一款現代化的開源語音合成引擎，支持中英文雙語，包含2000多種不同的音色，以及特色的情感合成功能，支持合成包含快樂、興奮、悲傷、憤怒等廣泛情感的語音。

技術實現

Emotivoice的核心在于其情感/風,格控制的提示機制。它使用了先進的深度學習模型只,如Tacotron和WaveRNN，來實現高質量的語音輸出。此外，EmotiVoice還提供了一個易于使用的Web界面，以及用于批量生成結果的腳本接口。

性能特點

Emotivoice的性能特點包括其多樣化的聲音選擇和高度的情感表達能力。用戶可以根據需要選擇不同的聲音和情感，從而生成更加個性化和富有表現力的語音內容。

GitHub：https://github.com/netease-youdao/EmotiVoice

12.MetaVoice-1B：高度真實和自然的文本到語音（TTS）轉換模型

Metavoice-1B是一個強大的1.2億參數的文本轉語音Q(TTS)模型，訓練在10萬小時的語音數據上,專注于情感豐富、節奏自然和音調準確的英語發音。這個開源項目不僅實現了零樣本美國與英國口音克隆，還支持跨語言的聲線定制，并能合成任意長度的文本。MetaVoice-1B的核心目標是提供真實、有感情色彩的語音體驗。它允許用戶通過短短30秒的參考音頻，無樣本的復制美國和英國口音，還能利用微調功能進行印度等地區的語音克降,只需1分鐘的訓練數據即可實現,更重要的是，模型可以處理長篇幅的文本合成任務，打開無限的可能性。

項目特點

多媒體制作:為視頻、動畫或游戲添加個性化的配音

無障礙應用:幫助視覺障礙者通過語音閱讀網頁、文檔等內容

個性化播客:生成獨特的播客主播聲音，無需真人錄音

GitHub：https://github.com/metavoiceio/metavoice-src

13.OpenAI發布Voice Engine模型！

Voice Engine是OpenAl最新公布的一項AI語音合成和聲音克隆技術，能夠利用簡短的15秒音頻樣本和文本輸入，生成接近原聲的自然聽起來的語音。Voice Engine的核心功能是從15秒的錄音中生成接近說話者音色的自然語音。如果你上傳自己的錄音和一段文本，它可以使用聽起來像你的AI合成語音來讀取文本。并且，文本不必是母語。例如，VoiceEngine可以用中文、英語、西班牙語、法語或許多其他語言重新創建你的聲音。

Voice Engine的應用前景廣泛,包括為兒童和非讀者提供閱讀輔助、翻譯內容以觸及全球聽眾、支持非言語交流者、幫助恢復患者的聲音等。同時,為確保技術的安全使用OpenAl制定了嚴格的使用政策，防止聲音冒充，并采取了包括水印追蹤在內的多項安全措施。

GitHub：https://ai-bot.cn/openai-voice-engine/

14.GitHub 開源神器 Bark模型！

Bark 是由Suno創建的基于轉換器的文本到音頻模型。Bark 可以生成高度逼直的多語言語音以及其他音頻。包括音樂、背景噪音和簡單的音效。該模型還可以產生非語言交流，如大笑、嘆息和哭泣。

功能特點：

1.非常真實自然的語音

2.英文效果最佳，其他語言還欠佳

3.支持通過文本生成歌曲

4.支持生成背景噪音、簡單的音效

5.支持大笑、嘆息、哭泣

GitHub：https://github.com/suno-ai/bark

#AI開源項目推薦#

操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综