ഇതാ വരുന്നു പാട്ട് പാടുന്ന നിർമിത ബുദ്ധി. ചാറ്റ് ജിപിടിയുടെ ഓഡിയോ മോഡല് തന്നെയാണ് ഈ മ്യൂസിക്ക്ജെൻ -MusicGen പതിപ്പ്. സംഗീത രചന പോലുള്ള മറ്റൊരു ക്രിയേറ്റീവ് ഡൊമെയ്നിലേക്ക് കടന്നുകയറി കാര്യമായ പുരോഗതി കൈവരിക്കുന്നതിന്റെ തുടക്കമാണ് മ്യൂസിക്ജെൻ പോലെയുള്ള ആഴത്തിലുള്ള പഠന മോഡലുകൾ.
ടെക്സ്റ്റ് പ്രോംപ്റ്റുകളെ അടിസ്ഥാനമാക്കി യഥാര്ത്ഥ സംഗീതം സൃഷ്ടിക്കുന്നതിനും നിലവിലുള്ള ഗാനങ്ങളുമായി സമന്വയിപ്പിക്കുന്നതിനും മ്യൂസിക്ജെന് ഒരുക്കിയിറക്കിയിരിക്കുന്നതു മെറ്റയുടെ ഓഡിയോക്രാഫ്റ്റ് റിസർച്ച് ടീമാണ്. ഒരു ഓപ്പണ് സോഴ്സ് ഡീപ് ലേണിംഗ് ഭാഷാ മോഡലാണ് മ്യൂസിക് ജെന്.
ന്യായമായ പ്രോസസ്സിംഗ് സമയത്തിന് ശേഷം നൽകിയിരിക്കുന്ന ടെക്സ്റ്റ് പ്രോംപ്റ്റുകളും മെലഡിയും അടിസ്ഥാനമാക്കി MusicGen സവിശേഷവും സംക്ഷിപ്തവുമായ ഒരു സംഗീത ശകലം നിർമ്മിക്കുന്നു.
Facebook-ന്റെ Hugging Face AI വെബ്സൈറ്റിലെ ഈ സാങ്കേതികവിദ്യ ഉപയോക്താക്കൾക്ക് വിവിധ ഉദാഹരണങ്ങൾ ഉപയോഗിച്ച് അവർ ആഗ്രഹിക്കുന്ന സംഗീത ശൈലി വിവരിക്കാനുള്ള അവസരം നൽകുന്നു.
30 സെക്കന്ഡ് വരെ ദൈര്ഘ്യമുള്ള തിരഞ്ഞെടുത്ത ഗാന സ്നിപ്പറ്റ് ഉപയോഗിച്ച് ഉപയോക്താക്കള്ക്ക് മ്യൂസിക്ജെനെ ‘കണ്ടീഷന്’ ചെയ്യാന് കഴിയും. ഏതു ഗാനം വേണമെന്ന് ചാറ്റ് ജി പി ടി മാതൃകയിൽ ആവശ്യപ്പെടുക. ട്രാക്കിന്റെ ഒരു പ്രത്യേക ഭാഗം വ്യക്തമാക്കാന് അനുവദിക്കുന്ന നിയന്ത്രണങ്ങള് ഉപയോഗിച്ച്, ‘ജനറേറ്റ്’ ബട്ടണിന്റെ ലളിതമായ ക്ലിക്കിലൂടെ AI മ്യൂസിക്ജെന് 12 സെക്കന്ഡ് വരെ നീണ്ടുനില്ക്കുന്ന ഉയര്ന്ന നിലവാരമുള്ള സംഗീത സാമ്പിള് നല്കും.
MusicGen മോഡലിനെ പരിശീലിപ്പിക്കാൻ, ഗവേഷണ സംഘം 20,000 മണിക്കൂർ ലൈസൻസുള്ള സംഗീതം ഉപയോഗിച്ചു. ഈ സമഗ്രമായ ഡാറ്റാസെറ്റിൽ ഷട്ടർസ്റ്റോക്ക്, പോണ്ട്5 തുടങ്ങിയ അറിയപ്പെടുന്ന ഉറവിടങ്ങളിൽ നിന്നുള്ള ട്രാക്കുകൾക്ക് പുറമെ ഒരു ആന്തരിക ശേഖരത്തിൽ നിന്നുള്ള 10,000 മികച്ച സംഗീത ട്രാക്കുകളും ഉൾപ്പെടുന്നു.
പ്രകടനം ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിനായി, ടീം മെറ്റയുടെ 32KHz എൻകോഡെക് ഓഡിയോ ടോക്കനൈസർ ഉപയോഗിച്ചു, ഇത് ഒരേസമയം പ്രോസസ്സ് ചെയ്യാവുന്ന ചെറിയ സംഗീത സെഗ്മെന്റുകളുടെ ജനറേഷൻ സുഗമമാക്കി.
ഗൂഗിൾ കഴിഞ്ഞ മാസം MusicLM എന്ന പേരിൽ സമാനമായ ഒരു മ്യൂസിക് ജനറേറ്റർ അവതരിപ്പിച്ചെങ്കിലും, MusicGen അൽപ്പം മികച്ച ഫലങ്ങൾ നൽകുന്നതാണ്. ഗവേഷകർ നടത്തിയ ഒരു സാമ്പിൾ താരതമ്യത്തിൽ, MusicGen-ന്റെ ഔട്ട്പുട്ട് MusicLM-ന്റെയും അതുപോലെ Riffusion, Musai എന്ന് പേരുള്ള മറ്റ് രണ്ട് മോഡലുകളുടേയും ഔട്ട്പുട്ടിനെക്കാൾ അതിന്റെ ശ്രദ്ധേയമായ പ്രകടനത്തെ ശക്തിപ്പെടുത്തി. കുറഞ്ഞത് 16GB RAM ഉള്ള ഒരു GPU വിൽ MusicGen പ്രാദേശികമായി പ്രവർത്തിപ്പിക്കാൻ കഴിയും.
കൂടാതെ ചെറിയ 300 ദശലക്ഷം പാരാമീറ്ററുകൾ മുതൽ വലിയ 3.3 ബില്ല്യൺ പാരാമീറ്ററുകൾ വരെയുള്ള നാല് വ്യത്യസ്ത മോഡൽ വലുപ്പങ്ങളിൽ ലഭ്യമാണ്, രണ്ടാമത്തേത് ഏറ്റവും ഉയർന്ന സാധ്യതകൾ വാഗ്ദാനം ചെയ്യുന്നു. സങ്കീർണ്ണവും സങ്കീർണ്ണവുമായ സംഗീത രചനകൾ സൃഷ്ടിക്കുന്നു.