●是次測(cè)評(píng)中的圖像修改測(cè)試,左圖為示例,指令為「請(qǐng)將這張圖像改為黑白版畫,線條分明」。下圖為模型答覆示例。港大圖片
港大AI模型圖像生成評(píng)測(cè)成績(jī)

生成式人工智能(AI)技術(shù)不斷進(jìn)步,圖像生成是其中一個(gè)取得突破性成果的核心領(lǐng)域AI。針對(duì)有關(guān)情況,香港大學(xué)經(jīng)管學(xué)院昨日發(fā)表全新《人工智能模型圖像生成能力綜合評(píng)測(cè)報(bào)告》,針對(duì)15個(gè)「文生圖模型」及7個(gè)「多模態(tài)大語(yǔ)言模型」進(jìn)行全面評(píng)估。研究顯示,字節(jié)跳動(dòng)的即夢(mèng)AI和豆包,分別在圖像生成的內(nèi)容質(zhì)量,以及圖像修改兩項(xiàng)任務(wù)中勇奪排名第一的佳績(jī)。百度的文心一言亦在兩項(xiàng)分列第二及第三表現(xiàn)優(yōu)秀。 ●香港文匯報(bào)記者 高鈺

港大指,目前對(duì)人工智能圖像生成能力的評(píng)估仍處?kù)镀鸩诫A段,現(xiàn)有AI模型圖像生成的評(píng)測(cè)體系亦未有充分考慮安全與倫理因素,難以全面反映模型表現(xiàn)。有見(jiàn)及此,繼早前發(fā)布的《人工智能大語(yǔ)言模型評(píng)測(cè)綜合排行榜》及《人工智能大語(yǔ)言模型圖像理解能力綜合評(píng)測(cè)報(bào)告》後,港大經(jīng)管學(xué)院創(chuàng)新及資訊管理學(xué)教授兼夏利萊伉儷基金教授 (戰(zhàn)略信息管理學(xué))蔣鎮(zhèn)輝再次率領(lǐng)人工智能大模型評(píng)測(cè)團(tuán)隊(duì),就新圖像生成和圖像修改兩大核心範(fàn)疇,共同構(gòu)建一套更全面的AI模型圖像生成能力評(píng)測(cè)體系,透過(guò)更科學(xué)多元的評(píng)測(cè)方式,幫助用家理解及選擇合適的圖像生成模型,亦為開(kāi)發(fā)者提供參考以改進(jìn)設(shè)計(jì)。

評(píng)測(cè)22個(gè)中美研發(fā)AI模型

是次評(píng)測(cè)聚焦22個(gè)分別由中國(guó)內(nèi)地及美國(guó)研發(fā)的AI模型,當(dāng)中的圖像生成任務(wù)包含內(nèi)容質(zhì)量,和安全與責(zé)任性兩方面。

圖像生成內(nèi)容質(zhì)量透過(guò)以下三個(gè)維度進(jìn)行評(píng)估,分別為圖文一致性(衡量圖像是否能準(zhǔn)確反映文字指令中的物件、場(chǎng)景或概念);圖像合理可靠性(衡量圖像內(nèi)容的事實(shí)準(zhǔn)確性,確保圖像符合現(xiàn)實(shí)世界規(guī)律);圖像美感(衡量圖像的美學(xué)質(zhì)素,包括構(gòu)圖、色彩協(xié)調(diào)性和創(chuàng)意等因素),並由專家評(píng)分者在模型一對(duì)一比較的情況下作評(píng)價(jià),最終以Elo評(píng)分進(jìn)行科學(xué)排名。最終由即夢(mèng)AI獲得1,123分表現(xiàn)最佳,文心一言 V3.2.0、Midjourney v6.1及豆包則緊隨其後。

安全與責(zé)任性方面,則是衡量AI模型在生成新圖像時(shí)的安全合規(guī)性與社會(huì)責(zé)任意識(shí),測(cè)試指令涵蓋以下類別:偏見(jiàn)與歧視、違法活動(dòng)、危險(xiǎn)元素、倫理道德、版權(quán)侵犯以及隱私/肖像侵犯。當(dāng)中OpenAI的GPT-4o的評(píng)分最高,通義千問(wèn)V2.5.0和 Google的Gemini 1.5 Pro 分別排第二及第三。港大指,評(píng)測(cè)結(jié)果顯示,部分文生圖模型雖然在內(nèi)容質(zhì)量方面表現(xiàn)優(yōu)異,卻在安全與責(zé)任表現(xiàn)未如理想,反映文生圖模型的圖像生成能力不均,如缺乏足夠安全保障和倫理約束,這些工具或帶來(lái)社會(huì)風(fēng)險(xiǎn)。

至於圖像修改任務(wù)的評(píng)測(cè)範(fàn)圍包括風(fēng)格修改和內(nèi)容修改,參與模型中有13個(gè)支援相關(guān)功能,豆包、即夢(mèng)AI和文心一言V3.2.0均表現(xiàn)出色,緊隨其後為 GPT-4o和Gemini 1.5 Pro。

創(chuàng)新提質(zhì)安全責(zé)任間須取平衡

蔣鎮(zhèn)輝表示,當(dāng)前中國(guó)科技迅猛發(fā)展,在推動(dòng)技術(shù)突破的同時(shí)必須在創(chuàng)新、提升質(zhì)素與安全責(zé)任之間取得平衡,以促進(jìn)行業(yè)健康發(fā)展,期望是次多模態(tài)評(píng)測(cè)體系,能幫助生成式AI技術(shù)奠基,「助力建立一個(gè)安全、負(fù)責(zé)任且可持續(xù)的人工智慧大模型生態(tài)系統(tǒng)?!?/p>