Google公開最新圖像生成AI,輸出結果比OpenAI DALL-E 2更好

Google公開最新圖像生成AI,輸出結果比OpenAI DALL-E 2更好

Google Brain發表了最新圖像生成人工智慧研究,提出一種稱為Imagen的人工智慧系統,可透過解析使用者的文字輸入,創建出寫實的圖像,與當前其他先進的圖像生成演算法,諸如VQ-GAN、LDM和DALL-E 2比較,人類皆傾向覺得Imagen所產生的圖像更真實,也更符合輸入的文字敘述。

Imagen為文字生成圖像擴散模型(Diffusion Model),能夠深度理解文字的意義,並且輸出如照片寫實的圖像。Imagen建立在大型Transformer語言模型之上,因此擁有強大的文字理解能力,並且仰賴擴散模型生成高傳真圖像。

研究人員提到,他們發現像是T5這類,經過純文字語料庫預訓練過的通用大型語言模型,在圖像合成的文字編碼上非常有效。藉由增加Imagen中語言模型的大小,就可以提高樣本真實度,以及圖像與文字描述的一致性,比起增加擴散模型大小還有效。

Imagen雖然沒有在COCO(Microsoft Common Objects in Context)資料集中訓練過,但可獲得目前最低的7.27 FID分數(越低越好),而且人類評估者也發現,在圖像和文字一致性上,Imagen樣本與COCO資料集相當。

Google還利用DrawBench基準測試,來進一步評估Imagen文字生成圖像的能力,DrawBench是一個在文字生成圖像領域,更全面也更具挑戰性的基準測試。藉由將Imagen與VQ-GAN、LDM和DALL-E 2演算法一起,進行空間關係、長篇文字和罕用字等系統性測試,並由人工評估演算法的圖像與文字一致性,還有圖像的真實性。

什麼是POGOPIN?

POGOPIN是一種應用於手機等電子產品中的精密連接器,廣泛應用於半導體設備中,起連接作用。

專業客製化禮物、贈品設計,辦公用品常見【L夾】搖身一變大受好評!

採用PVC0.2白色軟皮料印製,4色印刷加上表層防刮油墨,另也可選表層上亮膜。

如何將貨櫃屋變身活動展場空間?

金誠貨櫃屋設計,結合生活理念、發揮無限的創意及時尚的設計,顛覆以往「貨櫃」給人骯髒、簡陋、四方無聊的印象、打造出獨一無二的展示空間。

高價位跟低價位的示波器又有何差異?

示波器是一種能夠顯示電壓訊號動態波形的電子測量儀器。它能夠將時變的電壓訊號,轉換為時間域上的曲線,原來不可見的電氣訊號

由下圖可見,無論是在圖像與文字的一致性(Alignment),還是圖像真實性(Fidelity),人類普遍認為Imagen表現的比VQ-GAN、LDM與DALL-E 2更好。

Google暫不對外開放Imagen,並把未來工作放在解決開放的挑戰與限制上,研究人員提到,雖然他們已經過濾了訓練資料集,並且採用不當內容LAION-400M資料集,來避免模型產生有害的內容,但是因為Imagen仰賴使用未經過濾的網路資料,所訓練出來的文字編碼器,因此Imagen仍可能存在一些有害刻板印象。

另外,當前人們對於圖像生成文字,以及圖像標記模型做了大量的審查工作,以避免產生社會偏見,但是文字到圖像模型的社會偏見評估工作相對較少,Google研究人員經過內部評估,已發現Imagen存在一些社會和文化偏見,像是整體來說,圖像人物的膚色偏淺,對職業的描繪,也更傾向西方性別刻板印象。

因此即便Imagen的能力強大,但目前Google仍不打算開源Imagen的程式碼,也不提供公開展示,原因在於文字生成圖像模型的下游應用非常多樣,且可能以複雜的形式影響社會,考慮到潛在的風險,Google暫不對外開放Imagen,直到開發人員建立起負責任的外部框架,來平衡無限制開放所帶來的風險。

https://www.ithome.com.tw/news/151126

如何利用一般常見的「L型資料夾」達到廣告宣傳效果?

滑鼠墊是滑鼠的好夥伴,可使滑鼠游標穩定滑順,多樣的材質尺寸與專屬設計的圖案, 成為您電腦桌上的亮點!

飲水機設備有哪些?

步步經營服務始終如一於雲嘉南地區,建立優質的飲水機之品牌

塑膠射出成型不良品原因及改善對策 !

隨著技術的不斷提升新觀念、新技術、新設備的不斷加入。

CCD Taping Machine

包裝設計實際上涵蓋了多種設計範疇,需要高度設計專業,以酒為例,酒瓶上的標籤設計是包裝設計的一種,需考量美觀與形塑產品特色提供充足資訊等,至於酒的外盒,提袋等,同樣是包裝設計的範疇,但更必須思考運送、保護、送禮、便利性與價值感等不同層面之問題。