網(wǎng)絡(luò)消費(fèi)網(wǎng) >  科技 > > 正文
“Tiamat”完成近千萬(wàn)美元A輪融資 專注將AI生成圖像的可控性做到極致
時(shí)間:2023-02-28 09:20:04

36氪獲悉,「Tiamat」已于日前完成近千萬(wàn)美元A輪融資,由老股東DCM和綠洲資本聯(lián)合領(lǐng)投,遠(yuǎn)識(shí)資本擔(dān)任獨(dú)家財(cái)務(wù)顧問(wèn)。本輪融資額將用于繼續(xù)打磨產(chǎn)品和自研大模型,拓展商業(yè)化能力等。數(shù)月前,「Tiamat」已經(jīng)獲得由DCM獨(dú)家領(lǐng)投的數(shù)百萬(wàn)美元天使輪融資。

36氪曾報(bào)道過(guò)的「Tiamat」是一家國(guó)內(nèi)AI圖像生成技術(shù)服務(wù)商,成立于2021年。其自研的MorpherVLM是國(guó)內(nèi)首個(gè)基于概念融合范式提出的近百億級(jí)跨模態(tài)生成模型,通過(guò)異構(gòu)的視覺(jué)編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu),并引入基于用戶反饋的強(qiáng)化學(xué)習(xí)(RLHF)和細(xì)粒度的提示-隱變量對(duì)齊技術(shù),提高了模型對(duì)圖像多尺度信息的建模能力,在用戶Prompt輸入的理解能力方面也實(shí)現(xiàn)了進(jìn)步。

圖片來(lái)源:Tiamat


【資料圖】

去年夏天,AI Art一躍成為了熱度最高的新興技術(shù),在設(shè)計(jì)、繪畫等專業(yè)化領(lǐng)域的影響力不亞于如今ChatGPT帶來(lái)的全民狂歡。

AIGC的結(jié)構(gòu)性機(jī)會(huì)下,“不追逐風(fēng)口,但等到了風(fēng)口”是技術(shù)型創(chuàng)業(yè)者和資本最愿意看到的擁抱創(chuàng)新的方式。而在時(shí)間差方面,「Tiamat」從2021年開始進(jìn)行模型訓(xùn)練,以自研并自主訓(xùn)練底層模型的方式,始終與海外技術(shù)節(jié)點(diǎn)、開源社區(qū)等保持著同頻。

“我們拼命地想告訴大家,這件事情很快就會(huì)成為風(fēng)口。”

「Tiamat」創(chuàng)始人青柑告訴36氪,去年上半年融資的時(shí)候,他們還需要花很多精力去教育市場(chǎng),解釋什么是AI生成,什么是多模態(tài),為什么要做圖像。彼時(shí),距離Stable Diffusion、MidJourney這些引領(lǐng)著行業(yè)革新的產(chǎn)品上線還有幾個(gè)月左右的時(shí)間。

而作為國(guó)內(nèi)AI生成圖像領(lǐng)域的第一批團(tuán)隊(duì),「Tiamat」如今也成為了為數(shù)不多成功融資并實(shí)現(xiàn)了商業(yè)化的技術(shù)服務(wù)商。

為此,36氪對(duì)話了「Tiamat」創(chuàng)始人青柑和聯(lián)合創(chuàng)始人Eric,從「Tiamat」自研大模型和商業(yè)化的階段性成果出發(fā),探討AIGC未來(lái)在國(guó)內(nèi)市場(chǎng)的應(yīng)用可行性。

36氪:從大模型出發(fā),AI繪畫和以ChatGPT為代表的對(duì)話式AI有哪些差異?

青柑:AIGC中的不同賽道其實(shí)會(huì)有很多細(xì)節(jié)上的差異。首先,是這些模型涉及的是單一模態(tài)還是多模態(tài)。我們的模型打通的是多個(gè)模態(tài),體現(xiàn)在用戶可以用文本去指導(dǎo)生成的圖像,或者也可以用一張草圖得到新的生成結(jié)果。而ChatGPT作為聚焦在文本領(lǐng)域的理解和生成模型,它只有文字這一個(gè)模態(tài)。但與此同時(shí),它的參數(shù)非常多,需要花大量的時(shí)間和數(shù)據(jù)去清洗有害信息,所以實(shí)際上花費(fèi)的時(shí)間精力和算力是遠(yuǎn)大于我們AI Art領(lǐng)域的。從一個(gè)比較直觀的感受切入,如果文本出現(xiàn)了一些邏輯上的錯(cuò)誤或?qū)υ捝系氖д妫脩艨梢院芸斓馗惺艿?,而不像?duì)于圖片的細(xì)微瑕疵可能會(huì)有更好的包容度。

我們現(xiàn)在正在做的「Tiamat」文本到圖像模型,大概是數(shù)十億參數(shù),這個(gè)量級(jí)實(shí)際上要比ChatGPT文本模型的參數(shù)量要低將近100倍左右。換算成他們當(dāng)年發(fā)展的話,大概是在GPT1-2之間。所以,雖然都叫大模型,其實(shí)數(shù)據(jù)和參數(shù)量級(jí)還是有很大區(qū)別的。在此基礎(chǔ)上,對(duì)于我們來(lái)說(shuō),不停地把模型的參數(shù)量級(jí)進(jìn)行擴(kuò)張并不是最重要的指標(biāo)。

Eric:除了模態(tài)和輸入種類上的區(qū)別之外,生成的任務(wù)是另一個(gè)可供參考的維度。我們?cè)谡務(wù)揂I的時(shí)候其實(shí)有很多解釋空間,比如人臉識(shí)別、大數(shù)據(jù)文本分析等,他們更多地在于理解數(shù)據(jù)。但回歸到AIGC領(lǐng)域,更多的則是在理解的基礎(chǔ)上生成。ChatGPT首先能夠做到很好地理解你的輸入內(nèi)容,并調(diào)用潛藏在自己參數(shù)里的知識(shí),對(duì)人類的輸入作出反應(yīng)。在這一方面我們可以與ChatGPT做一個(gè)類比。我們會(huì)用多個(gè)不同的網(wǎng)絡(luò)把用戶的輸入放到一個(gè)對(duì)AI來(lái)說(shuō)比較自然的空間里,再?gòu)倪@個(gè)空間中去找到合適的解答。這與以往生成理解類的AI是不太一樣的。

圖片來(lái)源:Tiamat

36氪:那么對(duì)于AI生成圖像來(lái)說(shuō),更重要的指標(biāo)有哪些?

青柑:更重要的指標(biāo)在于能不能在垂直領(lǐng)域有更好的精準(zhǔn)性和可控性,能不能更好地讓圖像展現(xiàn)出人類理想的構(gòu)圖、或者一致性的角色等等。除此之外,我們自研的考慮也來(lái)自如何能讓研發(fā)的成本結(jié)構(gòu)更加精益和可控。從這一點(diǎn)來(lái)說(shuō),創(chuàng)業(yè)公司也會(huì)有更多機(jī)會(huì)。剛才提到,圖像文本多模態(tài)生成的領(lǐng)域參數(shù)量級(jí)更低,在標(biāo)注數(shù)據(jù)和訓(xùn)練上的成本也可以有效壓縮。整個(gè)圖像類的AIGC創(chuàng)新更加關(guān)注具體的技術(shù)路徑和商業(yè)化上的突破,成本壓力相對(duì)較小。而文本領(lǐng)域目前的一次訓(xùn)練可能會(huì)花掉幾十到幾百萬(wàn)美元,成本是巨大的。

Eric:是的,同時(shí)可控性也是一個(gè)和商業(yè)化應(yīng)用息息相關(guān)的指標(biāo)。我們?cè)谡務(wù)摯竽P偷臅r(shí)候會(huì)有一個(gè)問(wèn)題,很多大模型都是在大規(guī)模的數(shù)據(jù)集上構(gòu)建的,其中大部分來(lái)源于互聯(lián)網(wǎng)上獲取的知識(shí),問(wèn)題隨之產(chǎn)生:如何用人類可以操控的方式去做這些大模型可以做的事情?我們都知道,OpenAI的GPT-3和ChatGPT在技術(shù)上是同源的,但是ChatGPT效果明顯好得多,大家也直觀感受到了它在各行各業(yè)的應(yīng)用。而在技術(shù)環(huán)節(jié),就是因?yàn)镃hatGPT比GPT-3多了一個(gè)用人類的反饋來(lái)自我學(xué)習(xí)的過(guò)程,可以使得它的應(yīng)用更符合期望。所以,我們?cè)谧觥窽iamat」生成模型的時(shí)候也會(huì)格外在意這一點(diǎn),就是怎么樣能讓生成結(jié)果符合用戶的期望。

36氪:從去年下半年開始,AIGC跑得非???,整個(gè)行業(yè)在被資本推著走,可能還沒(méi)有來(lái)得及出現(xiàn)一個(gè)得到廣泛印證的商業(yè)模式,「Tiamat」在商業(yè)化方面是如何考慮的?

青柑:從創(chuàng)業(yè)開始,我們就在自研圖像模型,自己去訓(xùn)練,一步步的優(yōu)化和迭代。所以目前為止,我們應(yīng)該是國(guó)內(nèi)AI圖像領(lǐng)域在商業(yè)化方面跑得最快的。去年Q4,我們有幾百萬(wàn)元的合同訂單。因?yàn)閳D像領(lǐng)域其實(shí)需要的是更加專業(yè)化、垂直化的理解生成。以我們正在商業(yè)化的服裝領(lǐng)域?yàn)槔?。服裝領(lǐng)域現(xiàn)在需要AI來(lái)代替設(shè)計(jì)師或者幫設(shè)計(jì)師尋找靈感,那么首先他們的輸入方式一定是服裝設(shè)計(jì)領(lǐng)域的“黑話”,比如什么樣的領(lǐng)口版式、版型,不一定是外行能夠理解到的行業(yè)知識(shí)。所以我們?cè)谌プ鲂袠I(yè)模型的時(shí)候會(huì)先去理解設(shè)計(jì)師之間的溝通語(yǔ)言,再去理解對(duì)應(yīng)的圖片,在此過(guò)程中可能需要重新去構(gòu)建一些圖像文本作為訓(xùn)練數(shù)據(jù)集。

此外,我們還會(huì)通過(guò)一些方法去增強(qiáng)AI對(duì)行業(yè)的理解,基于大模型去調(diào)整,然后才能做行業(yè)的專有模型。所以比起其他非自研的圖像生成公司,這是我們能夠體現(xiàn)出優(yōu)勢(shì)的地方。

36氪:在當(dāng)下的開源趨勢(shì)中,非自研模型還有哪些弊端?

青柑:文本圖像生成這個(gè)領(lǐng)域基本上是從去年二三月份開始公開測(cè)試,去年七八月份,SD(Stable Diffusion)這一類開源模型放出來(lái)之后,緊接著就有大量的創(chuàng)業(yè)者入局。但開源模型的參數(shù)本身是固定的,模型中本身沒(méi)有特定行業(yè)的知識(shí)和術(shù)語(yǔ),未經(jīng)進(jìn)一步的有效訓(xùn)練,很多用戶輸入都難以被理解。而且在我們看來(lái),純開源模型本身在圖像的精準(zhǔn)性和可控性上其實(shí)還是有一些問(wèn)題。所以在國(guó)內(nèi)市場(chǎng)經(jīng)常會(huì)遇到的一些情況是,一些廠商需要圖像生成的供應(yīng)商,可能會(huì)找到一些用了開源模型的公司,發(fā)現(xiàn)沒(méi)法達(dá)到好的效果,然后再來(lái)找我們。所以,自研也是我們商業(yè)化比較順利的理由之一,因?yàn)榉亲匝械姆?wù)商始終不能特別直接地生成一個(gè)行業(yè)想要的東西。

Eric:開源的另一個(gè)問(wèn)題是數(shù)據(jù)訓(xùn)練細(xì)節(jié)上的模仿難度。因?yàn)镾table Diffusion雖然本身的模型結(jié)果是開源了出來(lái),但其實(shí)現(xiàn)在大家對(duì)于其中一些具體的訓(xùn)練方法和細(xì)節(jié)仍然是不明確的。就好比說(shuō),如果我們想要做一個(gè)ChatGPT,這一系列的論文都是開放出來(lái)的,大家也大概知道它使用的參數(shù)和數(shù)據(jù)量在什么規(guī)模,但如果真的想要從零去做ChatGPT,遇到的難度會(huì)遠(yuǎn)比收集這么多數(shù)據(jù)要大。所以當(dāng)我們?cè)趶?qiáng)調(diào)自研的時(shí)候,也意味著我們踩過(guò)很多圖像生成工程化的坑,現(xiàn)在才能取得一個(gè)比較好的階段成果。

圖片來(lái)源:Tiamat

36氪:經(jīng)過(guò)一段時(shí)間的商業(yè)化沉淀后,發(fā)現(xiàn)了來(lái)自哪些具體行業(yè)的商業(yè)化潛力?

青柑:我們最開始聚焦的是一些垂直領(lǐng)域的中小型企業(yè),因?yàn)樗麄冇泻芏喽ㄖ苹瘜傩曰蛘呖缃绾献鞯男枨?,在市?chǎng)層面的動(dòng)作也是最活躍的,接受度更高,客戶反饋也更多。其中目前發(fā)展得最好的行業(yè)其實(shí)還是廣告、還有相關(guān)設(shè)計(jì)行業(yè)的,因?yàn)闊o(wú)論從調(diào)性、感興趣程度、需求強(qiáng)烈度還是預(yù)算幾個(gè)方面來(lái)說(shuō),這一領(lǐng)域的中小B表現(xiàn)都比較好。合作大多數(shù)都是主動(dòng)找過(guò)來(lái)的,通過(guò)一些定制化的案例來(lái)幫助我們更深入地了解具體商業(yè)場(chǎng)景中的痛點(diǎn)。

36氪:在行業(yè)模型上的積累是AIGC商業(yè)化的核心壁壘嗎?

青柑:從我們的視角出發(fā)是的,甚至于行業(yè)的數(shù)據(jù)會(huì)變得越來(lái)越重要。因?yàn)殡S著之后大家可能都會(huì)想要擁有AI技術(shù),拉開差距的可能就是數(shù)據(jù)量、如何篩選有效數(shù)據(jù)、哪些數(shù)據(jù)是獨(dú)有的,包括用戶的正反反饋數(shù)據(jù)也包含在內(nèi)。這些東西會(huì)逐漸成為各個(gè)AI公司的壁壘,而且會(huì)逐漸走向不同的垂直領(lǐng)域。數(shù)據(jù)收集的類型不一樣,也會(huì)產(chǎn)生不同的影響。

36氪:“大廠”入局AIGC會(huì)讓創(chuàng)業(yè)公司產(chǎn)生壓力嗎?

青柑:我們訓(xùn)練大模型,其實(shí)目標(biāo)是找到一個(gè)更有效、更有優(yōu)勢(shì)的功能性定義。對(duì)于大廠來(lái)說(shuō),基于產(chǎn)品生態(tài),在訓(xùn)練語(yǔ)料的數(shù)據(jù)量上會(huì)有一定優(yōu)勢(shì),但可用性上不一定更強(qiáng)。再加上中文的語(yǔ)匯環(huán)境特點(diǎn)更加復(fù)雜,數(shù)據(jù)清洗難度很大,目前實(shí)際可用性的文本量級(jí)并沒(méi)有這么高,可能僅為英文語(yǔ)境可用性的1/20。同時(shí),就圖像生成來(lái)說(shuō),更并沒(méi)有觀察到像文本領(lǐng)域一樣由參數(shù)量引發(fā)的質(zhì)變。

因此,在數(shù)據(jù)清洗和數(shù)據(jù)選擇這一方面,大廠要去經(jīng)歷的流程和創(chuàng)業(yè)公司沒(méi)有太大區(qū)別。當(dāng)然也不排除大廠有更好的驅(qū)動(dòng)力和更多擅長(zhǎng)數(shù)據(jù)清洗的人。但從我們的技術(shù)視角來(lái)說(shuō),我們平時(shí)會(huì)開玩笑說(shuō),其實(shí)并不擔(dān)心大廠突然做一個(gè)非常強(qiáng)的東西出來(lái),而是會(huì)擔(dān)心再出現(xiàn)一個(gè)很聰明的年輕人用有限的資源做出了一個(gè)很有意思的技術(shù)和方向,解決了一個(gè)復(fù)雜的問(wèn)題。因?yàn)楝F(xiàn)在看來(lái),AI可能會(huì)離現(xiàn)代技術(shù)更近,但如果一項(xiàng)技術(shù)的工程化潛力沒(méi)有那么強(qiáng),關(guān)于它的任何遐想,很快就會(huì)在下一代技術(shù)出現(xiàn)的時(shí)候被迭代掉。

36氪:如何評(píng)價(jià)ChatGPT引發(fā)的“AI浪潮”?

Eric:現(xiàn)在的AI技術(shù)其實(shí)比較像之前的影像技術(shù),到了一個(gè)關(guān)鍵的技術(shù)節(jié)點(diǎn)之后自然會(huì)有一些不同的流向。比如有些是做照相機(jī),有些做攝影機(jī),而ChatGPT在產(chǎn)品化方面就像是直接做了個(gè)電視。大家現(xiàn)在的沖動(dòng)可能來(lái)自于,有一天看到了電視,看到里面的一個(gè)影像化呈現(xiàn)非常感興趣,引發(fā)了對(duì)整個(gè)成像技術(shù)的興趣。但其實(shí)在用戶興趣的背后,不同的技術(shù)在不同的流向里都是有各自的發(fā)展的。單純地去做影像或者相機(jī)本身,也可以發(fā)展出徠卡、佳能這樣的應(yīng)用端公司,中間層也有蔡司鏡頭等。細(xì)分市場(chǎng)的延伸不同,大家都有自己獨(dú)有的數(shù)據(jù),但技術(shù)節(jié)點(diǎn)后的市場(chǎng)空間會(huì)非常廣闊,每個(gè)賽道都有可能催生非常大的公司。

ChatGPT一個(gè)很重要的意義是提高了大家對(duì)AI的接受程度。以前AI只是幫人類解決輔助性的問(wèn)題,比如識(shí)別分析和判定。但現(xiàn)在關(guān)于AI的討論已經(jīng)發(fā)展到了如何和人的工作流進(jìn)行有機(jī)結(jié)合,哪些環(huán)節(jié)應(yīng)該直接交給AI來(lái)做,要做到什么程度,形成怎樣的互動(dòng)或者相互依存的關(guān)系。但這些都要針對(duì)接入特定的商業(yè)場(chǎng)景和工作流。

圖片來(lái)源:Tiamat

36氪:我們?cè)鯓尤ダ斫鈱IGC融合進(jìn)工作流的重要性?

青柑:在一點(diǎn)上,圖像生成和文本可能又會(huì)存在比較大的區(qū)別。比如說(shuō)AI幫我寫了一封郵件、一段文字,它可以很順滑地融入生產(chǎn)力工具,提高編輯效率,比如Notion AI。但圖像生成的最終判定標(biāo)準(zhǔn)就是圖片本身,比起工具體驗(yàn)的好壞,大家可能更關(guān)注圖片效果。因?yàn)镾D在開源之后大家其實(shí)做了很多插件,放到Blender、Figma等生產(chǎn)力環(huán)境中,但更多用戶并沒(méi)有很順滑地去用這些插件,而是更愿意去MidJourney生成一張圖片復(fù)制下載到工具中使用。根本原因就是MidJourney的生成質(zhì)量要好很多。當(dāng)然,生成圖像之后一些二次編輯的小功能是大家愿意去快速使用的,但這和他們過(guò)去使用的軟件并不沖突。整體來(lái)說(shuō)我的感受是,在圖像生成領(lǐng)域,目前工具化的接入方式還沒(méi)有成為用戶關(guān)注的重點(diǎn)。

36氪:「Tiamat」未來(lái)會(huì)考慮做文本語(yǔ)言模型嗎?

青柑:我們公司的整體風(fēng)格和選擇方向都比較專注。我們非常信服前沿技術(shù),但更加關(guān)注的是當(dāng)下的技術(shù)能不能解決當(dāng)下的問(wèn)題。也許有能力的人會(huì)去努力成為“中國(guó)的OpenAI”,但目前來(lái)說(shuō),我們還沒(méi)有去做ChatGPT這樣的文本大模型的理由。因?yàn)閷?duì)于一家創(chuàng)業(yè)公司來(lái)說(shuō),如果能把圖像模型的可控性、精準(zhǔn)性和連續(xù)性做到最好,它其實(shí)就已經(jīng)能帶來(lái)很多垂直行業(yè)和場(chǎng)景下的商業(yè)化應(yīng)用了。比如去支持更加細(xì)分的、特定的設(shè)計(jì)行業(yè),幫助它們完成生產(chǎn)力提效。

比較讓我們高興的一點(diǎn)是,我們看到AI技術(shù)正在向一個(gè)“新的互聯(lián)網(wǎng)”形式進(jìn)發(fā),而我們?cè)诋a(chǎn)品戰(zhàn)略方面也會(huì)更加審慎。一個(gè)很具代表性的現(xiàn)象是,OpenAI可能都還沒(méi)有想好ChatGPT的商業(yè)化應(yīng)用場(chǎng)景,國(guó)內(nèi)的創(chuàng)業(yè)公司反而會(huì)把這些問(wèn)題想得更清楚??傮w來(lái)說(shuō),AI是一個(gè)新的主題,每一個(gè)細(xì)分領(lǐng)域都值得被認(rèn)真打磨,大家聚焦在各自擅長(zhǎng)的地方,才能形成更好的產(chǎn)業(yè)。

關(guān)鍵詞: tiamat chatgpt

版權(quán)聲明:
    凡注明來(lái)網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品,版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有,未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來(lái)源:網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
    除來(lái)源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外,其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考并自行核實(shí)。
熱文

網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
 

Copyright © 2000-2020 m.netfop.cn All Rights Reserved.
 

中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
 

聯(lián)系郵箱:920 891 263@qq.com

備案號(hào):京ICP備2022016840號(hào)-15

營(yíng)業(yè)執(zhí)照公示信息