新聞中心

首頁 > 新聞中心 > 行業(yè)新聞

公司新聞行業(yè)新聞展會活動

分類

春節(jié)期間AI界最新新聞

2024-02-27

Sora的視頻生成能力：

· Sora 能夠生成提供圖像和提示作為輸入的視頻。

· Sora 還能夠在時間上向前或向后擴展視頻。比如多個視頻都是從生成的視頻片段開始向后延伸的。因此，幾個視頻的開頭都不同，但所有視頻的結(jié)局都是相同的。使用此方法向前和向后擴展視頻以產(chǎn)生無縫的無限循環(huán)。

· 擴散模型啟用了多種根據(jù)文本提示編輯圖像和視頻的方法。將其中一種方法 SDEdit,?32應(yīng)用于 Sora。這項技術(shù)使 Sora 能夠零鏡頭地改變輸入視頻的風(fēng)格和環(huán)境。

· 還可以使用 Sora 在兩個輸入視頻之間逐漸進行插值，從而在具有完全不同主題和場景構(gòu)成的視頻之間創(chuàng)建無縫過渡。

· Sora 還能夠生成圖像。通過在時間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來實現(xiàn)這一點。該模型可以生成各種尺寸的圖像，分辨率高達 2048x2048。

Sora還有一些其他的特征：

· 3D 一致性： Sora 可以生成帶有動態(tài)攝像機運動的視頻。隨著攝像機的移動和旋轉(zhuǎn)，人和場景元素在三維空間中一致移動。

· 長期連貫性（Long-range coherence）和物體持久性（Object permanence）：是視頻生成系統(tǒng)面臨的重大挑戰(zhàn)之一，特別是在采樣長視頻時維持時間上的連續(xù)性。Sora通常能夠有效地處理短期和長期依賴關(guān)系，盡管并不總是如此。

· 與世界互動：Sora 有時可以用簡單的方式模擬影響世界狀況的行動。例如，畫家可以在畫布上留下新的筆觸，并隨著時間的推移而持續(xù)存在，或者一個人可以吃漢堡并留下咬痕。

· 模擬數(shù)字世界：Sora同樣能夠模擬人工過程，例如視頻游戲。在Minecraft中，Sora可以同時控制玩家的基本策略，還能高保真度地渲染游戲世界及其動態(tài)變化。通過使用提及“Minecraft”的字幕提示Sora，可以實現(xiàn)零樣本（Zero-shot）地激發(fā)這些能力。

Open AI 還透露了一些訓(xùn)練的大概過程：

· 將視覺數(shù)據(jù)轉(zhuǎn)換為Patches：探討了如何讓生成視覺數(shù)據(jù)的模型繼承LLM通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上訓(xùn)練，來獲得廣泛的能力的優(yōu)勢。不同于LLMs使用文本標記，Sora模型使用了“視覺補丁”（Visual Patches）。之前的研究已經(jīng)顯示，對于視覺數(shù)據(jù)模型而言，補丁是一種有效的表現(xiàn)形式。我們發(fā)現(xiàn)，對于訓(xùn)練多種類型視頻和圖像的生成模型而言，補丁是一種高效且可大規(guī)模擴展的表現(xiàn)形式。

· 視頻壓縮網(wǎng)絡(luò)：訓(xùn)練了一個可以降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)以原始視頻作為輸入，并輸出在時間和空間上都經(jīng)過壓縮的潛在表示。Sora在這個壓縮的潛在空間中進行訓(xùn)練，并隨后生成視頻。還訓(xùn)練了一個相應(yīng)的解碼器模型，將生成的潛在表示映射回像素空間。

· 時空潛在Patches：在處理一個壓縮后的輸入視頻時，會提取一系列的“時空補丁”（spacetime patches），這些補丁在這里起到了類似于變換器（Transformer）中的“標記”（tokens）的作用。這種方法同樣適用于圖像處理，因為從本質(zhì)上講，圖像就是只有一幀的視頻。采用的基于補丁的表示方法，使得Sora能夠處理不同分辨率、時長和寬高比的視頻和圖像。

· 用于視頻生成的Scaling transformers：Sora是一種擴散模型；它主要的作用是，給定輸入的帶有噪聲的補丁（以及如文本提示這樣的條件信息），Sora被訓(xùn)練來預(yù)測并還原出原始的“干凈”補丁。更為關(guān)鍵的是，Sora實際上是一個“擴散變換器”（diffusion transformer）。擴散變換器在視頻模型中也能有效擴展。隨著訓(xùn)練計算量的增加，樣本質(zhì)量顯著提高。

一些關(guān)于技術(shù)原理的補充閱讀：

· Open AI官方發(fā)布的技術(shù)報告，演示視頻基本都來自這里：https://openai.com/research/video-generation-models-as-world-simulators

· 這是構(gòu)成Sora基礎(chǔ)之一的Diffusion Transformer論文作者關(guān)于Sora的一些猜測和技術(shù)解釋：https://x.com/op7418/status/1758822875707154838?s=20

· 寶玉關(guān)于生成原理比較通俗的解釋：https://x.com/dotey/status/1758726880381862000?s=20

· Sora所有使用的相關(guān)技術(shù)對應(yīng)的論文合集：https://huggingface.co/collections/pxiaoer/sora-65d0e2db17e2b305e0fc572e

· SIY.Z的解讀有一些世界模型的歷史介紹：https://www.zhihu.com/question/644473449

· JimFan關(guān)于Sora訓(xùn)練素材來源的討論：https://x.com/DrJimFan/status/1758210245799920123?s=20

谷歌發(fā)布Gemini 1.5 Pro和開放?Ultra 1.0模型

谷歌在Sora之前幾個小時發(fā)布的內(nèi)容，也非常離譜了，100萬上下文長度可以支持1小時的視頻內(nèi)容、11小時的音頻內(nèi)容、3萬行代碼、70萬字的文字。RAG基本上不存在了，同時他們還測試了1000萬的上下文，錯誤率也不是很高。目前公開模型上下文長度最長的是Claude 2.1的20萬Token。

· Gemini 1.5基于Transformer和MoE架構(gòu)的研究和工程創(chuàng)新，提高了訓(xùn)練和服務(wù)的效率。

· Gemini 1.5 Pro是一個中等規(guī)模的多模態(tài)模型，適用于多種任務(wù)，并引入了在長上下文理解方面的實驗性特性。

· Gemini 1.5 Pro在文本、代碼、圖像、音頻和視頻評估的綜合面板上的性能超過了Gemini 1.0 Pro，并且與1.0 Ultra在同樣的基準測試上表現(xiàn)相當。

· 此外，Gemini 1.5 Pro在進行長上下文窗口的測試中表現(xiàn)出色，在NIAH評估中，它在長達100萬個Token的數(shù)據(jù)塊中99%的時間內(nèi)找到了嵌入的文本。

里面還舉了一些可以提現(xiàn)上下文能力的例子：

· 它可以完整理解高達80 萬 Token 的 Three.js 代碼以及相關(guān)文檔庫。并根據(jù)提示找到對應(yīng)的代碼和示例完成教學(xué)和編碼任務(wù)。

· 多模態(tài)演示，可以從一部有 60 萬 Token 的電影中精確的找到截圖的時間戳以及所描述的內(nèi)容。

· 維克多·雨果的五卷本長篇小說《悲慘世界》（共1382頁，含有大約732,000個Token）。
它的多模態(tài)（multimodal）處理能力可以處理粗略地畫出一個場景，然后詢問“請看這幅圖畫中的情景。這個場景出現(xiàn)在書的哪一頁？”

谷歌還像泄露的文件描述的一樣將Bard更名為Gemini，同時推出了Gemini Advanced付費會員計劃，可以使用Ultra 1.0模型。

Gemini Advanced 現(xiàn)已在 150 多個國家和地區(qū)提供英語版本。

可以在安卓的Gemini應(yīng)用和iOS 的谷歌應(yīng)用使用Gemini Advanced。

同時Google Assistant 語音功能將會由Gemini驅(qū)動，這個真是大招，直接吊打 siri 。

Gemini 開始在美國的 Android 和 iOS 手機上推出英語版本，并將在未來幾周內(nèi)全面推出。從下周開始，將能夠在更多地點以英語、日語和韓語訪問它，并且即將推出更多國家/地區(qū)和語言。

公告地址：https://blog.google/products/gemini/bard-gemini-advanced-app/

Stability AI發(fā)布新架構(gòu)圖片生成模型Stable Cascade

Stability AI同時進行著多條線還又開新坑，發(fā)布了一個基于Würstchen架構(gòu)的新的圖片生成模型Stable Cascade，這個模型由三部分構(gòu)成使得訓(xùn)練和微調(diào)變得非常容易。

他們還提供了了微調(diào)、ControlNet 和 LoRA 訓(xùn)練腳本。

除了標準的文本到圖像生成之外，Stable Cascade 還可以執(zhí)行圖像變化和圖像到圖像生成。

會跟隨模型一起發(fā)布的 Controlnet：

· 局部重繪：輸入與文本提示附帶的蒙版配對的圖像。該模型根據(jù)提供的文本提示填充圖像的遮罩部分。

· Canny Edge：通過跟蹤輸入到模型的現(xiàn)有圖像的邊緣來生成新圖像。該測試也可以從草圖進行擴展。

· 2x超分辨率：也可用于C階段生成的潛在空間。

社區(qū)的支持也很快，ComfyUI已經(jīng)官方支持了Stable Cascade的使用可以在這里查看工作流和對應(yīng)的教程：https://gist.github.com/comfyanonymous/0f09119a342d0dd825bb2d99d19b781c

這里是可以在A1111 Web UI上使用Stable Cascade的插件：https://github.com/blue-pen5805/sdweb-easy-stablecascade-diffusers

還有人在第二天就實驗了Stable Cascade的微調(diào)流程，發(fā)了第一個微調(diào)的模型：https://civitai.com/models/306144

Midjourney的一些動態(tài)合集

· 將把V6設(shè)為默認版本（目的是對服務(wù)器進行壓力測試）

· Niji V6的平移、縮放及區(qū)域變更功能現(xiàn)已推出

· 對V6核心模型進行了更新，在細節(jié)表現(xiàn)、對比度和整體連貫性上都有所提升

· Midjourney alpha測試版網(wǎng)站現(xiàn)在開放了1000張圖片生成賬號的使用權(quán)限，這里嘗試：https://alpha.midjourney.com/

· 生成圖像的速度可能提高一倍，v6 將配備渦輪模式

· 正在開發(fā)下一版本的風(fēng)格調(diào)節(jié)器以及提升一致性

· 網(wǎng)站將引入社交群組功能！包括團隊創(chuàng)建和實時社交互動，在向所有用戶開放網(wǎng)站前，將制作入門視頻和流程，三月全量開放新網(wǎng)站。

· 正在訓(xùn)練視頻模型，進展比較慢尚不確定何時完成

· V7 版本模型已經(jīng)開始訓(xùn)練

· ControlNet目前還未達到標準，將繼續(xù)訓(xùn)練

· 正在研究如何實現(xiàn)角色的一致性

其他動態(tài)?

· Runway GEN:48 AI 電影大賽公布了獲勝者，這個視頻巧妙的用游戲?qū)υ挼男问秸宫F(xiàn)劇情：https://x.com/iamneubert/status/1758493728925270022?s=20

· Open AI 公布了一個 Open AI論壇，參與者可以參加 open AI 組織的線上和線下活動并且同 Open AI 員工深入交流，更有機會可以提前測試一些相關(guān)功能（Sora？）https://forum.openai.com/

· Open AI 取消了 GPT-4 Turbo 的每日調(diào)用限制并將總的調(diào)用限制提高了一倍：https://platform.openai.com/docs/guides/rate-limits/usage-tiers

· Open AI 公布了幾個他們封禁的跟國家相關(guān)的惡意使用者，其中中國兩個、俄羅斯一個、朝鮮一個、伊朗一個：https://openai.com/blog/disrupting-malicious-uses-of-ai-by-state-affiliated-threat-actors

· Meta 發(fā)布了一個音頻生成模型與傳統(tǒng)的逐字生成模型相比速度快了 7 倍：https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/?

· MAGIC-ME 字節(jié)發(fā)布了一個針對視頻生成中人物身份保持的項目?？梢栽谝曨l生成中保持對應(yīng)輸入圖像人物的身份特征：https://magic-me-webpage.github.io/

· OpenAI 一直在積極開發(fā)一款網(wǎng)絡(luò)搜索引擎，這一動作預(yù)示著這家獲得微軟支持的創(chuàng)業(yè)公司將與 Google 展開更為直接的競爭：https://www.theinformation.com/articles/openai-develops-web-search-product-in-challenge-to-google

· Open AI早期員工Andrej Karpathy再次從Open AI離職自己創(chuàng)業(yè)：https://x.com/op7418/status/1757626444258435182?s=20

· ChatGPT 增加了記憶功能及控制選項，可以記住你在對話中提到的內(nèi)容，可以控制打開或者關(guān)閉，也可以有無記憶對話的臨時聊天選項：https://openai.com/blog/memory-and-new-controls-for-chatgpt

· ElevenLabs 現(xiàn)在可以在語音庫中分享自己的聲音模型，并獲得收益：https://elevenlabs.io/payouts

· 蘋果發(fā)布了一個可以利用LLM 生成動畫的框架Keyframer。Keyframer允許用戶通過自然語言提示來創(chuàng)建靜態(tài)2D圖像的動畫：https://arxiv.org/pdf/2402.06071.pdf

· Vercel集成了一堆AI服務(wù)包括Perplexity、Replicate、ElevenLabs等，現(xiàn)在利用Vercel開發(fā)AI項目更加方便了，直接一步到位：https://vercel.com/blog/ai-integrations

· ARC瀏覽器新增了一個功能，可以直接自動將你打開的一堆標簽頁按功能分組：https://x.com/browsercompany/status/1755252656078024976?s=20

· RMBG v1.4一個新的背景分割開源模型，效果非常好：https://huggingface.co/briaai/RMBG-1.4

產(chǎn)品推薦?

LangSmith：LLM應(yīng)用開發(fā)平臺

LangChain 的 LLM 應(yīng)用開發(fā)平臺LangSmith正式開放給了所有人使用，同時宣布獲得了Sequoia 領(lǐng)投的 A 輪融資。LangSmith 是一個統(tǒng)一的 DevOps 平臺，用于開發(fā)、協(xié)作、測試、部署和監(jiān)控LLM應(yīng)用程序。新的品牌形象和網(wǎng)站搞得也很不錯。

Ollama Windows?預(yù)覽版推出

本地LLM運行工具 Ollama 推出了 windows 版本。以下是如何開始：

· 下載+雙擊安裝

· 打開最喜歡的終端并輸入 ollama run llama2

Enchanted：與Ollama搭配使用的客戶端

Enchanted是一款開源的、與Ollama兼容的、適用于macOS/iOS/iPad的優(yōu)雅聊天應(yīng)用程序。它專為私有部署的模型如Llama 2、Mistral、Vicuna、Starling等設(shè)計，本質(zhì)上是一個連接到自己的Ollama模型的ChatGPT應(yīng)用界面。

Leiapix：上傳圖片生成運鏡視頻

試了一下Leiapix 這個可以提取圖片深度信息，然后生成運鏡視頻的產(chǎn)品。效果還挺好的，自定義選項也很豐富，一些簡單的場景運鏡視頻不用視頻生成工具用這個也挺好。直接上傳圖片然后再右側(cè)調(diào)整選項就行。

Chat with RTX：英偉達的本地LLM聊天程序

英偉達發(fā)布了一個可以在 PC 使用的本地 AI 聊天軟件Chat with RTX。

可以使用 Chat with RTX 連接到你的內(nèi)容的自定義聊天機器人。使用 RAG 和 TensorRT-LLM 在 RTX 加速的 PC 上本地進行聊天。

stable-diffusion-webui-forge：另一個Web UI界面

Controlnet 的作者lllyasviel，他跟 UI 界面杠上了，除了之前他維護的Fooocus之外還新發(fā)布了一個 Web UI Forge。

這個新的 UI 跟原有的 Web UI 交互和樣式完全一致，但是解決了兩個 Web UI比較重要的問題：

首先是他大幅優(yōu)化了低顯存顯卡的顯存占用和推理速度，6G 顯存的顯卡推理速度會提高 60% 到 75%，顯存占用會降低800MB 到 1.5GB。

另一個是降低了一些 SD 支持項目在 Web UI的實現(xiàn)成本，使用 Unet Patcher，Self-Attention Guidance、Kohya High Res Fix、FreeU、StyleAlign、Hypertile 等方法都可以在大約 100 行代碼中實現(xiàn)。

Deforum Studio：Deforum?的Web版本應(yīng)用

早期 SD 視頻生成項目Deforum現(xiàn)在推出了 Web 版本的視頻生成服務(wù)，相較于 WebUI 的插件版本網(wǎng)頁應(yīng)用更加的易用和穩(wěn)定。

同時內(nèi)置了相當多的風(fēng)格和運鏡效果可以選擇。雖然現(xiàn)在已經(jīng)有很多視頻生成模型可以生成連貫且一致的效果了Deforum生成的這種風(fēng)格的視頻依然很有視覺沖擊力。

Galileo AI：自動生成UI設(shè)計稿

Chat GPT發(fā)布之初就放出Demo的UI設(shè)計稿自動生成應(yīng)用，終于向所有用戶開放了。支持文字圖片以及線稿直接生成UI設(shè)計稿。

Dittto：用AI修復(fù)落地頁文案

Dittto是一個利用人工智能技術(shù)幫助改善網(wǎng)站首頁文案的服務(wù)平臺。該平臺指出，不良的文案會嚴重影響轉(zhuǎn)化率，因為有35%的用戶在未滾動頁面前就離開，而57%的閱讀時間發(fā)生在頁面的上半部分，用戶僅需50毫秒就能對網(wǎng)站形成初步判斷。Dittto提供的解決方案包括復(fù)制成功品牌的文案以提高轉(zhuǎn)化率、網(wǎng)站定位審核以清晰展示客戶價值、自動發(fā)現(xiàn)適合產(chǎn)品的品牌聲音，并從50多個頂級SaaS品牌中選擇模仿對象。此外，Dittto還提供了一個英雄文案AI工具，該工具經(jīng)過訓(xùn)練，能夠在幾次點擊內(nèi)生成準備就緒的文案，并設(shè)有保存變體庫以便日后進行A/B測試。
Rizzle：從博客、播客內(nèi)容創(chuàng)建視頻

Rizzle AI 是一個無需編輯的視頻創(chuàng)作平臺，它與 GettyImages 合作，為創(chuàng)作者提供了訪問全球最大的無版稅庫存媒體庫的能力。這個庫存包含超過5億張圖片和視頻，這些資源都是專為 Rizzle 平臺的用戶準備的，并且擁有版權(quán)保護。

精選文章?

偉大的巫師經(jīng)常獨自行事，只要空氣中的元素依然回應(yīng)他的咒語和呼喚

“如果一個人的領(lǐng)域知識廣度足以覆蓋整個行業(yè)，而深度恰好多于「能夠評價任務(wù)執(zhí)行的好壞與否」的程度，就可以比較好地操縱 AI 去完成那些本來需要好幾個不同職責(zé)的人去完成的事情。”

“知識就在那，但是需要你念出咒語才能讓它顯形。”

Logan Kilpatrick Open AI?開發(fā)者關(guān)系主管的專訪

Logan Kilpatrick Open AI 開發(fā)者關(guān)系主管的專訪，幾個關(guān)于他們的招聘理念和 Open AI 以及 ChatGPT 的發(fā)展的部分可以關(guān)注一下：

OpenAI之所以能迅速推進項目并交付高品質(zhì)的產(chǎn)品，關(guān)鍵在于聘請那些具備強烈的自主驅(qū)動力和緊迫感的人才。
這種做法讓OpenAI能夠超越常規(guī)流程，培養(yǎng)出一種文化氛圍，員工在這里可以迅速洞察并主動解決問題，而無需長時間等待審批或達成共識。

要想從ChatGPT那里獲得更精準的答案，關(guān)鍵是要提出具體問題，并為問題提供更多背景信息。不是簡單地提問，而是像與人交談一樣提供詳細信息。
由于AI本身不具備背景知識，因此通過詳細的問題指引它是非常關(guān)鍵的。這種做法不僅能提升即時的回答質(zhì)量，也有助于隨著時間推移逐漸培養(yǎng)出更智能的AI系統(tǒng)。

GPT的出現(xiàn)開啟了一個“智能體未來”的可能性，在這個未來中，我們可以將復(fù)雜的任務(wù)交由AI工具來完成。目前，我們向GPT提出問題，得到快速回應(yīng)后就結(jié)束互動。
隨著GPT技術(shù)的發(fā)展，我們將能夠讓它們承擔(dān)更加復(fù)雜和細致的任務(wù)，并在任務(wù)完成后向我們匯報。例如，我們可能會讓AI智能體花費數(shù)小時撰寫一篇引用了眾多參考文獻和案例研究的詳盡博客文章，并詳細說明在撰寫過程中所做的權(quán)衡選擇。

Josh Miller關(guān)于后?URL?時代（人工智能時代）的互聯(lián)網(wǎng)暢想

這個東西可能很多人都想過，很早就有人提出來未來的 UI 會是一個對話頁面加上各種匹配數(shù)據(jù)展示樣式的組件來完成，Josh Miller這個更近一步解決了內(nèi)容來源的問題，由網(wǎng)站自己暴露對應(yīng)內(nèi)容的元數(shù)據(jù)，然后在瀏覽器或者系統(tǒng)完成整合。

全面的LLM RAG教程和資料

elvis寫了一篇非常詳細的文章來介紹 RAG 生態(tài)的所有部分，還會添加清晰易懂的參考文獻列表以及技術(shù)性編程教程幫助提高 RAG 系統(tǒng)的性能。

主要內(nèi)容來自《大語言模型的檢索增強生成：一項調(diào)查》這篇論文，我簡要總結(jié)了一下文章每個部分的內(nèi)容，感興趣可以去看原文：

檢索增強生成（Retrieval Augmented Generation, RAG）技術(shù)，旨在通過結(jié)合外部知識源，如數(shù)據(jù)庫，來提升大語言模型（LLMs）的能力。它主要用于解決領(lǐng)域知識的缺失、事實性問題和生成錯誤。RAG特別適用于那些需要最新知識、又不需針對每個特定任務(wù)重復(fù)訓(xùn)練LLM的應(yīng)用場景，比如對話代理和知識密集型任務(wù)。

從軟件范式到模型范式，什么是?AI-Native?時代的大產(chǎn)品

這篇文章討論了從軟件范式到模型范式的轉(zhuǎn)變，探討了AI-Native時代的大產(chǎn)品。作者以信息商品經(jīng)濟的視角對AI-Native產(chǎn)品進行了定義、分析和分類，提出了實現(xiàn)“GenAI大產(chǎn)品”和評估AI-Native程度的方法。文章指出AI-Native意味著產(chǎn)品范式向模型范式轉(zhuǎn)移，強調(diào)了算法擬合度、可訓(xùn)練數(shù)據(jù)占比和功能prompt比率是判斷產(chǎn)品是否AI-Native的關(guān)鍵維度。最終，文章提出了AI-Native產(chǎn)品的可能信仰——“產(chǎn)品智能主義”，探討了連續(xù)性對AI-Native產(chǎn)品智慧的衡量標準。

評估LLM應(yīng)用程序

在人工智能領(lǐng)域，大型語言模型（LLM）正在徹底改變公司的產(chǎn)品體驗和內(nèi)部運營。這類基礎(chǔ)模型代表了一種新型計算平臺，并且引入了提示工程，取代了軟件開發(fā)的部分方面，使軟件能力的范圍迅速擴展。在生產(chǎn)環(huán)境中有效利用LLM至關(guān)重要，但由于LLM的新穎性和復(fù)雜性，這對大多數(shù)公司來說是一個獨特的挑戰(zhàn)。與傳統(tǒng)軟件和非生成式機器學(xué)習(xí)模型不同，LLM的評估過程更主觀、難以自動化，并且系統(tǒng)出錯的風(fēng)險更高。

LLM應(yīng)用程序的基本構(gòu)成包括以下幾個組件：LLM模型（核心推理引擎）、提示模板（模型的樣板指令）、數(shù)據(jù)源（提供模型所需上下文的來源，如檢索增強生成）、內(nèi)存（歷史交互記錄）、工具（允許模型與外部系統(tǒng)交互）和代理控制流（允許模型通過某些停止標準解決任務(wù)的多步驟生成）。

設(shè)計增強的genAI特性

探討了生成式人工智能（Generative AI，簡稱genAI）如何通過智能內(nèi)容增強和個性化提升用戶體驗。文章首先指出，ChatGPT等聊天機器人作為接入生成式AI特性的便捷入口，其簡單性允許它們無縫集成到各種數(shù)字平臺中。然而，這些技術(shù)的應(yīng)用范圍遠不止于對話界面。通過將這些先進模型的APIs融入到產(chǎn)品特性中，可以提供稱為“AI增強特性”的重大價值增強。

文章強調(diào)，在設(shè)計涉及內(nèi)容生成或展示的特性時，考慮生成式AI的潛在作用至關(guān)重要。GPT和Claude等模型的出現(xiàn)大幅降低了內(nèi)容創(chuàng)作的成本，使得復(fù)雜的大型語言模型（LLM）變得觸手可及。通過恰當?shù)奶崾荆谋究梢暂p松地被重塑、擴展或轉(zhuǎn)換，激發(fā)創(chuàng)造性的可能性。

新市場地圖提醒

a16z文件討論了人工智能的第一個殺手級用例，即制作創(chuàng)意內(nèi)容。它重點介紹了致力于內(nèi)容生成和編輯的各種公司，例如 Midjourney、DALL-E、Runway、Pika、ElevenLabs 等。該文件還提到了該領(lǐng)域未來的潛在發(fā)展，包括跨不同模式的獲勝產(chǎn)品、使開源模型易于訪問的應(yīng)用程序以及用于創(chuàng)建和發(fā)布內(nèi)容工作流程的平臺。最后，它邀請該領(lǐng)域的相關(guān)人士伸出援手，并提供了文件中提到的公司名單。

對2024年人工智能就業(yè)市場的思考

2024年人工智能（AI）就業(yè)市場的發(fā)展趨勢和個人加入Cohere公司的原因是本文的主要內(nèi)容。文章從作者作為一名專注于自然語言處理（NLP）的歐洲研究員的角度出發(fā)，分享了他對AI就業(yè)市場的一些宏觀趨勢觀察和個人職業(yè)選擇的思考。

AI就業(yè)市場趨勢

1.研究變得更加應(yīng)用化：與過去相比，當前的ML和NLP問題更多地集中在應(yīng)用研究上，基礎(chǔ)研究與應(yīng)用研究之間的界限逐漸模糊。例如，BERT模型的引入極大提高了Google搜索的質(zhì)量，而大型語言模型（LLMs）的出現(xiàn)則開啟了新應(yīng)用的大門。

2.創(chuàng)業(yè)公司成為PhD以外的選擇：鑒于當前研究問題的應(yīng)用性質(zhì)，加入創(chuàng)業(yè)公司成為了接觸前沿AI工作的另一條路徑。創(chuàng)業(yè)公司特別是早期的創(chuàng)業(yè)公司，能夠提供快速學(xué)習(xí)和實踐的機會，盡管這可能需要個人對工作內(nèi)容有一定的靈活性。

3.機器學(xué)習(xí)變得更加封閉和兩極分化：盡管機器學(xué)習(xí)社區(qū)過去以開放性著稱，但最近的趨勢顯示，開源AI的先鋒如OpenAI和Google開始減少關(guān)于其模型的信息發(fā)布。這種趨勢可能會阻礙AI發(fā)展的進步。

4.研究集中在大型項目上：隨著LLMs的出現(xiàn)，參與一個項目的作者數(shù)量顯著增加。大型項目不僅需要研究人員，還需要強大的軟件工程師團隊以及多方面的專業(yè)知識。

5.更多公司，更多機會：LLMs的興起帶來了一波新公司的浪潮，這些公司利用這項技術(shù)或?qū)⑵湔系疆a(chǎn)品中。這為AI領(lǐng)域的專業(yè)人士提供了更多的職業(yè)選擇。

塑造設(shè)計的未來

探討了設(shè)計領(lǐng)域面臨的變革，特別是在虛擬現(xiàn)實（VR）、生成式人工智能（AI）和大型語言模型（LLMs）等技術(shù)的推動下，設(shè)計師如何適應(yīng)這些變化以保持相關(guān)性。文章強調(diào)了三個核心觀點：擁抱變化、在不變中尋找根基、以模型作為設(shè)計的對象。

首先，作者提倡擁抱技術(shù)和范式的變化，鼓勵設(shè)計師通過實踐新技術(shù)來學(xué)習(xí)其局限性和能力，而不是僅僅從理論上了解。這要求設(shè)計師持續(xù)學(xué)習(xí)和專業(yè)發(fā)展，不僅僅是在設(shè)計技藝上，也包括其目的和方向。通過比喻鐵匠轉(zhuǎn)變?yōu)槠嚈C械師的故事，文章強調(diào)了適應(yīng)變化的重要性。

其次，文章指出盡管技術(shù)不斷進步，但某些事物如人性和社會基礎(chǔ)結(jié)構(gòu)等仍將保持不變。設(shè)計師應(yīng)該在這些永恒的事物上建立自己的工作，利用新技術(shù)和方法來改善這些不變的方面。作者建議閱讀古典文學(xué)作品來深入理解人性和社會，因為這些作品揭示了跨越不同文化和時代的普遍真理。

最后，文章提出將模型作為設(shè)計的對象。模型是關(guān)于世界如何組織和運作的思想，描述了構(gòu)成整體的部分、綁定它們的結(jié)構(gòu)以及部分之間的行為方式。設(shè)計師應(yīng)該定義系統(tǒng)模型，以確保用戶能夠通過系統(tǒng)以相對較少的努力完成他們需要做的事情。這要求設(shè)計師與抽象概念保持健康的關(guān)系，這些抽象概念指導(dǎo)UI層面的設(shè)計，并由其他人（可能是AI）執(zhí)行。

大型語言模型評估?-?第二部分

作者探討了大型語言模型（LLMs）作為評估者的概念，即“LLM作為評判”。這篇文章是對之前介紹評估LLMs的早期基準和指標的博客的延續(xù)，并指出了這些評估方法的問題。文章進入了自然語言處理（NLP）的一個新研究領(lǐng)域，該領(lǐng)域?qū)Ｗ⒂陂_發(fā)更準確地衡量LLMs生成能力的指標，并引入了LLMs作為評估者的角色，這種方法被稱為基于LLM的自然語言生成（NLG）評估。

文章提到了使用靜態(tài)基準來評估LLMs的問題，例如基準泄露，即評估基準中的數(shù)據(jù)無意中成為模型訓(xùn)練集的一部分，這可能會顯著夸大模型的性能指標，提供對其實際能力的誤導(dǎo)性表示。為了解決這個問題，文章探討了使用最先進的LLMs（如GPT-4）作為人類評估的替代品，因為這些模型通常經(jīng)過RLHF訓(xùn)練，已經(jīng)表現(xiàn)出強烈的人類一致性。這種方法被稱為LLM-as-a-judge，有三種類型的LLM-as-a-judge機制，每種都旨在增強評估過程。

1.成對比較：LLM被提出一個問題和兩個可能的答案，然后任務(wù)是確定哪個答案更優(yōu)或兩個答案是否同等優(yōu)秀。

2.單一答案評分：這種方法簡化了過程，要求LLM為一個答案分配分數(shù)，而不進行直接比較。

3.參考指導(dǎo)評分：在這種方法中，LLM被給予一個參考解決方案以及它需要評估的答案，這在需要客觀正確性或精確性的情況下特別有用。

文章還指出了使用LLMs作為評估者的準確性問題和可能影響評估的固有偏見。為了解決這些問題，文章介紹了Prometheus，這是一個專門的開源評估語言模型，擁有130億參數(shù)，能夠根據(jù)用戶提供的定制評分標準來評估任何給定的長文本。Prometheus在與人類評估者的評分相關(guān)性方面表現(xiàn)出色，其Pearson相關(guān)系數(shù)為0.897，與GPT-4（0.882）相當，并且大大優(yōu)于ChatGPT（0.392）。

設(shè)計未來？使用AI增強人類認知和創(chuàng)造力

最近的研究結(jié)合了生物反饋工具和人工智能（AI），旨在提高設(shè)計師的元認知技能。元認知是指對自己的思考過程進行思考，以批判性地評估設(shè)計，識別知識空白，并適應(yīng)創(chuàng)造性方法。文章探討了如何通過監(jiān)測我們的元認知活動，比如評估情緒反應(yīng)，來幫助導(dǎo)航設(shè)計不確定性并促進創(chuàng)新。文章重點介紹了康奈爾大學(xué)最近研發(fā)的“多重自我”工具，該工具通過神經(jīng)數(shù)據(jù)提供設(shè)計師情緒狀態(tài)的實時生物反饋。通過將這些通常是內(nèi)部信息外化，“多重自我”旨在激發(fā)有價值的自我反思和擴展創(chuàng)造性探索。

設(shè)計中的元認知監(jiān)控是一個迭代過程，涉及在探索不同選項（發(fā)散思維）和評估/綜合這些想法（收斂思維）之間來回進行。在探索階段，設(shè)計師可能會對他們的想法是否真的有效或成功感到不確定。元認知監(jiān)控特別涉及評估自己的知識、思想和任務(wù)進展。對于設(shè)計師來說，元認知有助于他們調(diào)節(jié)不確定性，并將其保持在創(chuàng)造力的最佳區(qū)域。它可以幫助評估不同的方法，識別知識空白，管理不確定性并產(chǎn)生更多創(chuàng)造性的解決方案。

“多重自我”工具使用腦電圖（EEG）傳感器來檢測與情緒反應(yīng)相關(guān)的大腦活動。該工具應(yīng)用機器學(xué)習(xí)到原始EEG數(shù)據(jù)，以預(yù)測用戶的情緒價值（積極與消極的感覺）和喚醒（興奮/參與）。該工具的目標是幫助設(shè)計師通過使用AI和生物傳感器更好地感知他們當下的情緒。在虛擬設(shè)計會話期間，設(shè)計師看到一個在他們視野中的2D圖表上移動的點，該點的位置表示他們預(yù)測的情緒，允許他們在操作虛擬設(shè)計時跟蹤變化。

研究人員通過與24名參與者（包括10名擁有超過3年建筑設(shè)計實踐的專家和14名經(jīng)驗較少的新手）測試“多重自我”的可行性。他們首先通過觀看室內(nèi)建筑空間的全景360度圖像并記錄EEG來評估參與者的基線情緒反應(yīng)。然后，他們使用視覺量表自我報告他們的價值和喚醒感。這些數(shù)據(jù)被用來訓(xùn)練個性化的機器學(xué)習(xí)分類模型，以從后續(xù)的EEG信號中預(yù)測每個參與者的高、中或低水平的價值和喚醒。

盡管這種方法仍然是新穎和實驗性的，但這項研究強調(diào)了我們可以如何將先進技術(shù)如AI和生物測量學(xué)整合到UX中，以增強我們的技能和能力。這項研究為人工智能增強的元認知支持在UX設(shè)計中的潛力奠定了有希望的基礎(chǔ)，但要實現(xiàn)其全部潛力仍然是一個需要跨學(xué)科合作和進一步研究的廣泛挑戰(zhàn)。例如，這項研究只研究了界面的短期使用和非多樣化樣本。然而，隨著人工智能和生理感應(yīng)技術(shù)的應(yīng)用，未來的設(shè)計已經(jīng)到來，這為未來人機協(xié)作的現(xiàn)實提供了一個展望，并展示了如何用它來增強創(chuàng)造力。

a16z：人工智能將如何改變消費技術(shù)

人工智能工具使普通消費者更容易創(chuàng)作藝術(shù)、音樂、視頻和圖形，而無需廣泛的培訓(xùn)或復(fù)雜的軟件。這些工具不僅縮小了創(chuàng)意與工藝之間的差距，而且還提高了現(xiàn)有和專業(yè)創(chuàng)意人員的工作水平。人工智能可以使編輯工作流程自動化，并引入新型的人工智能原生編輯，同時還可以讓人工智能工具根據(jù)文本指令完成任務(wù)，從而提高工作效率。此外，人工智能內(nèi)容正變得與人類內(nèi)容無異，人工智能角色和內(nèi)容有望在在線娛樂和社交互動中發(fā)揮重要作用。

解釋?SDXL?潛在空間

文章《解釋SDXL潛在空間》詳細介紹了SDXL潛在空間的特點和如何改進SDXL生成的圖像。SDXL是一種基于擴散模型的圖像生成架構(gòu)，其輸出的潛在表示包含四個通道，與傳統(tǒng)的8位RGB像素空間的三個通道不同。這四個通道分別代表亮度、青/紅色、黃綠色/中紫色和圖案/結(jié)構(gòu)。文章中提到，SDXL生成的圖像往往存在噪點、過度平滑和顏色偏差問題，尤其是偏向黃色，這是因為模型在訓(xùn)練過程中對現(xiàn)實世界圖像的學(xué)習(xí)導(dǎo)致的。

為了改進這些問題，作者進行了實驗性探索，并開發(fā)了一系列校正工具和方法。這些方法包括直接將潛在表示轉(zhuǎn)換為RGB的線性近似函數(shù)、中心化張量以調(diào)整顏色偏差、去除異常值以控制細節(jié)、顏色平衡和增加顏色范圍、張量最大化以及回調(diào)實現(xiàn)示例。通過這些技術(shù)，可以在生成圖像之前改善信息和顏色范圍，而不是在圖像生成后進行后處理。

設(shè)計師實用指南：使用?AI?進行?3D?渲染

在數(shù)字產(chǎn)品設(shè)計中，早期概念化和設(shè)計階段需要快速創(chuàng)新，但傳統(tǒng)的高質(zhì)量3D渲染過程通常與此不兼容。作為一個熱愛3D的產(chǎn)品設(shè)計師，我發(fā)現(xiàn)了使用AI技術(shù)來加速3D渲染的方法，這對于不具有深入3D專業(yè)知識的設(shè)計師來說也更加可訪問（大部分是開源的）[1]。

傳統(tǒng)3D渲染流程包括建模、紋理和照明、渲染三個階段，每個階段都需要細致的注意力和對工具和藝術(shù)流程的深入理解，需要多年的經(jīng)驗才能掌握[1]。然而，這種詳細控制的方法在快速概念化和迭代中不太適用，尤其是項目初期。

AI生成圖像提供了近乎無限的視覺可能性，加快了迭代速度，但缺乏控制力是一個主要問題。AI渲染的關(guān)鍵挑戰(zhàn)在于結(jié)合速度和細節(jié)的優(yōu)勢，同時保持對創(chuàng)意輸出的決定性控制[1]。

AI增強的3D工作流程結(jié)合了傳統(tǒng)3D建模的精確性和AI的靈活性和速度。設(shè)計師可以創(chuàng)建簡單的3D模型，并使用AI快速探索不同的視覺風(fēng)格，進行快速調(diào)整。這種方法產(chǎn)生了協(xié)作式的過程，結(jié)合了3D建模的精確性和AI的速度：

1.建模：創(chuàng)建簡單的3D模型，關(guān)注比例、布局和組合，而不是細節(jié)。

2.生成：使用ControlNet等工具，將場景信息共享給擴散模型，生成圖像，保持組合和主題不變。

3.迭代：調(diào)整生成圖像的控制。如果控制力很大，AI會確保渲染與模型的比例相匹配，但限制細節(jié)和“創(chuàng)造力”。

AI增強的3D工作流程有助于更有效地與創(chuàng)意團隊和產(chǎn)品設(shè)計師共享早期概念，為項目設(shè)定一個明確的方向，節(jié)省寶貴的時間和資源。這種方法也支持創(chuàng)建一致的情感板，這些板在設(shè)計過程中起著至關(guān)重要的參考作用[1]。

AI技術(shù)在3D設(shè)計工作流程中生成快速插圖和圖像方面只是冰山一角。創(chuàng)新正以驚人的速度發(fā)展。AI將成為渲染的未來，將與3D軟件和游戲引擎本身集成。AI已經(jīng)被用于Blender中的降噪和超分辨率渲染，以及Pixar的Elements中的渲染時間優(yōu)化，Unreal Engine中的幀率優(yōu)化。

關(guān)于IP-adapter你需要了解的一切

IP-adapter是Stable Diffusion的一個附加組件，用于使用圖像作為提示，類似于Midjourney和DaLLE 3。它可以復(fù)制參考圖像中的風(fēng)格、構(gòu)圖或面孔。文章介紹了多種IP-Adapter模型，包括Plus、Face ID、Face ID v2、Face ID portrait等，并說明了如何在AUTOMATIC1111和ComfyUI中使用IP-adapters。IP-adapter模型的數(shù)量正在迅速增長，包括兩種圖像編碼器：OpenClip ViT H 14（即SD 1.5版本，632M參數(shù)）和OpenClip ViT BigG 14（即SDXL版本，1845M參數(shù)）。

IP-adapter通過訓(xùn)練圖像的單獨交叉注意力層來提高圖像生成過程的指導(dǎo)效果。文章還詳細介紹了如何在AUTOMATIC1111和ComfyUI軟件中設(shè)置和使用IP-Adapter，包括安裝ControlNet擴展、下載IP-Adapter和LoRA模型以及在AUTOMATIC1111中使用IP-adapter模型的步驟。此外，還提供了在ComfyUI中使用IP-Adapter的指南，包括安裝InsightFace、下載模型和LoRAs以及設(shè)置工作流程。

Meta?聚焦人工智能投資如何為廣告商帶來回報

在2023年被稱為“效率之年”之后，Meta將人工智能（AI）作為2024年的主題，大力投資于觸及其業(yè)務(wù)的每一個方面的技術(shù)，從用戶和創(chuàng)作者到企業(yè)和開發(fā)者。Meta首席執(zhí)行官馬克·扎克伯格在公司最近的財報電話會議上表示，尤其是生成式AI已經(jīng)推動Meta的廣告業(yè)務(wù)在第四季度同比增長24%，總額達到387億美元。Meta的高管們進一步深入其AI計劃，解釋了廣告商和代理商今年可以從技術(shù)中期待什么，并在2月7日的虛擬圓桌會議上分享了幾個成功故事。Meta的全球商業(yè)集團副總裁阿爾文·鮑爾斯表示：“2023年對我們來說是一個明確的轉(zhuǎn)折點，我們的第四季度收益顯示，對于使用我們工具的廣告商來說，Meta確實在發(fā)揮作用。我們在AI上的投資不僅為廣告商的表現(xiàn)帶來了回報，也為我們的社區(qū)帶來了比以往任何時候都更相關(guān)的發(fā)現(xiàn)引擎。”隨著廣告收入的增長，Meta在最后一個季度也看到了用戶和觀看時間的增加，所有視頻類型的日觀看時間同比增長超過25%，用戶每天重新分享Reels 35億次。Meta將這種參與度增長歸因于多年來一直是其業(yè)務(wù)核心的AI和發(fā)現(xiàn)引擎投資，這些投資現(xiàn)在正在得到回報。

Meta的這些AI投資不僅提高了其廣告系統(tǒng)的性能，還改善了人們在所有應(yīng)用中看到的個性化內(nèi)容。此外，Meta還在其廣告產(chǎn)品中進行了多年的機器學(xué)習(xí)、自動化和AI投資，以應(yīng)對數(shù)字廣告行業(yè)的變化，這些投資正在為廣告商帶來成功。Meta還開始在其廣告套件中推出生成式AI功能，包括文本變化和圖像擴展，并計劃在本季度晚些時候擴大背景圖像生成的可用性。例如，珠寶小企業(yè)Felicity在感恩節(jié)到網(wǎng)絡(luò)星期一的Cyber Five期間大量使用Advantage套件，看到收入增長了24%，客戶回頭率提高了20%。瑞士運動服品牌On測試了Meta的Advantage+ Catalog廣告和產(chǎn)品級視頻解決方案，導(dǎo)致廣告支出回報增加了41%，購買成本降低了45%。

“原文鏈接：春節(jié)期間AI界最新新聞 - AI魔法學(xué)院 https://www.wehelpwin.com/news/119”。

上一篇：中央企業(yè)安全生產(chǎn)監(jiān)督管理辦法，新規(guī) 下一篇：安全生產(chǎn) | 新《安全生產(chǎn)法》解讀！

亚洲成人色av一区,曰韩色999,福利姬一区二区,97尹人在线视频

新聞中心

春節(jié)期間AI界最新新聞