Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
AI-Enabled Text-to-Music Generation: A Comprehensive Review of Methods, Frameworks, and Future Directions
University of Science and Technology Beijing, China.
Guangxi Tourism Development One-Click Tour Digital Cultural Tourism Industry Co., Ltd., China.
Administrative Office, Chunan Academy of Governance, China.
Jinzhong University, China.
Visa övriga samt affilieringar
2025 (Engelska)Ingår i: Electronics, E-ISSN 2079-9292, Vol. 14, nr 6, artikel-id 1197Artikel, forskningsöversikt (Refereegranskat) Published
Abstract [en]

Text-to-music generation integrates natural language processing and music generation, enabling artificial intelligence (AI) to compose music from textual descriptions. While AI-enabled music generation has advanced, challenges in aligning text with musical structures remain underexplored. This paper systematically reviews text-to-music generation across symbolic and audio domains, covering melody composition, polyphony, instrumental synthesis, and singing voice generation. It categorizes existing methods into traditional, hybrid, and end-to-end LLM-centric frameworks according to the usage of large language models (LLMs), highlighting the growing role of LLMs in improving controllability and expressiveness. Despite progress, challenges such as data scarcity, representation limitations, and long-term coherence persist. Future work should enhance multi-modal integration, improve model generalization, and develop more user-controllable frameworks to advance AI-enabled music composition. 

Ort, förlag, år, upplaga, sidor
MDPI, 2025. Vol. 14, nr 6, artikel-id 1197
Nyckelord [en]
artificial intelligence, large language model, music generation, text-to-music generation
Nationell ämneskategori
Språkbehandling och datorlingvistik
Identifikatorer
URN: urn:nbn:se:bth-27688DOI: 10.3390/electronics14061197ISI: 001453821500001Scopus ID: 2-s2.0-105001095759OAI: oai:DiVA.org:bth-27688DiVA, id: diva2:1950322
Tillgänglig från: 2025-04-07 Skapad: 2025-04-07 Senast uppdaterad: 2025-09-30Bibliografiskt granskad

Open Access i DiVA

fulltext(6550 kB)789 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 6550 kBChecksumma SHA-512
e9087b7477befb25d30a52b18ebad8cbc11741856c9a81a165a2a82cf6b353d107adf9f34ecbad3c1bd644dfef9ed26a1b4daed2fbed45c8827ef46dce9b7576
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltextScopus

Person

Ding, Jianguo

Sök vidare i DiVA

Av författaren/redaktören
Ding, Jianguo
Av organisationen
Institutionen för datavetenskap
I samma tidskrift
Electronics
Språkbehandling och datorlingvistik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 791 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 1426 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf