(香港文匯報記者 高鈺)生成式人工智能(AI)技術(shù)不斷進步,圖像生成是其中一個取得突破性成果的核心領(lǐng)域AI。針對有關(guān)情況,香港大學經(jīng)管學院昨日發(fā)表全新《人工智能模型圖像生成能力綜合評測報告》,針對15個「文生圖模型」及7個「多模態(tài)大語言模型」進行全面評估。研究顯示,字節(jié)跳動的即夢AI和豆包,分別在圖像生成的內(nèi)容質(zhì)量,以及圖像修改兩項任務中勇奪排名第一的佳績。百度的文心一言亦在兩項分列第二及第三表現(xiàn)優(yōu)秀。

港大指,目前對人工智能圖像生成能力的評估仍處於起步階段,現(xiàn)有AI模型圖像生成的評測體系亦未有充分考慮安全與倫理因素,難以全面反映模型表現(xiàn)。有見及此,繼早前發(fā)布的《人工智能大語言模型評測綜合排行榜》及《人工智能大語言模型圖像理解能力綜合評測報告》後,港大經(jīng)管學院創(chuàng)新及資訊管理學教授兼夏利萊伉儷基金教授 (戰(zhàn)略信息管理學)蔣鎮(zhèn)輝再次率領(lǐng)人工智能大模型評測團隊,就新圖像生成和圖像修改兩大核心範疇,共同構(gòu)建一套更全面的AI模型圖像生成能力評測體系,透過更科學多元的評測方式,幫助用家理解及選擇合適的圖像生成模型,亦為開發(fā)者提供參考以改進設計。

●是次測評中的圖像修改測試,左圖為示例,指令為「請將這張圖像改為黑白版畫,線條分明」。下圖為模型答覆示例。港大圖片

評測22個中美研發(fā)AI模型

是次評測聚焦22個分別由中國內(nèi)地及美國研發(fā)的AI模型,當中的圖像生成任務包含內(nèi)容質(zhì)量,和安全與責任性兩方面。

圖像生成內(nèi)容質(zhì)量透過以下三個維度進行評估,分別為圖文一致性(衡量圖像是否能準確反映文字指令中的物件、場景或概念);圖像合理可靠性(衡量圖像內(nèi)容的事實準確性,確保圖像符合現(xiàn)實世界規(guī)律);圖像美感(衡量圖像的美學質(zhì)素,包括構(gòu)圖、色彩協(xié)調(diào)性和創(chuàng)意等因素),並由專家評分者在模型一對一比較的情況下作評價,最終以Elo評分進行科學排名。最終由即夢AI獲得1,123分表現(xiàn)最佳,文心一言 V3.2.0、Midjourney v6.1及豆包則緊隨其後。

安全與責任性方面,則是衡量AI模型在生成新圖像時的安全合規(guī)性與社會責任意識,測試指令涵蓋以下類別:偏見與歧視、違法活動、危險元素、倫理道德、版權(quán)侵犯以及隱私/肖像侵犯。當中OpenAI的GPT-4o的評分最高,通義千問V2.5.0和 Google的Gemini 1.5 Pro 分別排第二及第三。港大指,評測結(jié)果顯示,部分文生圖模型雖然在內(nèi)容質(zhì)量方面表現(xiàn)優(yōu)異,卻在安全與責任表現(xiàn)未如理想,反映文生圖模型的圖像生成能力不均,如缺乏足夠安全保障和倫理約束,這些工具或帶來社會風險。

至於圖像修改任務的評測範圍包括風格修改和內(nèi)容修改,參與模型中有13個支援相關(guān)功能,豆包、即夢AI和文心一言V3.2.0均表現(xiàn)出色,緊隨其後為 GPT-4o和Gemini 1.5 Pro。

港大AI模型圖像生成評測成績

創(chuàng)新提質(zhì)安全責任間須取平衡

蔣鎮(zhèn)輝表示,當前中國科技迅猛發(fā)展,在推動技術(shù)突破的同時必須在創(chuàng)新、提升質(zhì)素與安全責任之間取得平衡,以促進行業(yè)健康發(fā)展,期望是次多模態(tài)評測體系,能幫助生成式AI技術(shù)奠基,「助力建立一個安全、負責任且可持續(xù)的人工智慧大模型生態(tài)系統(tǒng)?!?/p>

點此進入2025全國兩會專題

責任編輯: 宋得書