OpenAI Atlas測試報告說明_第1頁
OpenAI Atlas測試報告說明_第2頁
OpenAI Atlas測試報告說明_第3頁
OpenAI Atlas測試報告說明_第4頁
OpenAI Atlas測試報告說明_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

目錄前前言測試任務(wù)測試任務(wù)測試任務(wù)時間單位:秒OpenAIAtlas谷歌Gemini瀏覽器插件PerplexityCometGenspark瀏覽器場景結(jié)果結(jié)果結(jié)果結(jié)果1總結(jié)文章個人助理5成功5成功成功5成功2Youtube視頻總結(jié)社媒失敗失敗成功40成功3Youtube視頻轉(zhuǎn)錄社媒失敗失敗部分成功成功4發(fā)郵件預(yù)約會議個人助理0成功2失敗成功成功5當(dāng)日推特AI新聞總結(jié)個人助理失敗部分成功成功部分成功6回復(fù)推特私信社媒成功失敗成功部分成功7完成學(xué)生作業(yè)教育-成功-部分成功-部分成功-成功平均時間正確/錯誤比例4/3任務(wù)解析表Prompt任務(wù)解析主要測試Agent的文字內(nèi)容理解能力、信息提取主要測試Agent的視頻內(nèi)容理解能力、信息提取主要測試Agent的語音識別、字幕提取和文本創(chuàng)建指定時間、指定參會人的會議邀請,生成Zoom會議鏈接,關(guān)聯(lián)Notion文檔,并提取關(guān)鍵信息并生成高層次概覽。同時需要訪問Readwise提取managerialaccountingprinciplescanenha這是一個學(xué)生的期末大匯報,需要基于前2次midterm小作業(yè)的內(nèi)容,以及第三主要測試Agent能否理解上下文語義、支持上傳并讀取附件,進行分析瀏覽器測試感想by郎瀚威willhttps://zw73xyquvv.feishu.cChatbot形態(tài)是一個很復(fù)雜的產(chǎn)品,用戶花了2年時間去習(xí)慣chatgpt這個chatbot產(chǎn)品,期間有無數(shù)的KOL次,從感興趣到使用到分享傳播。做過chatbot創(chuàng)業(yè)的朋友知道,后臺Prompt查詢一開始最多的是Hello和?問號。覽器的用戶習(xí)慣培育才是剛剛開始。因此像三體3提到的情節(jié)一樣,有些產(chǎn)品選擇降維,從prosumer到普通用戶,我們現(xiàn)在叫他AI瀏覽器,瀏覽器的概念其實對照的是“瀏覽信息”,未來這個名字可能會變成PC端聯(lián)網(wǎng)AI助手,以及還會出現(xiàn)純巨頭們義無反顧的開坑,昭告天下,趕鴨子上架。雖然現(xiàn)在能“辦公三件套”測試報告視頻長剪短測試報視頻長剪短測試報告設(shè)計能力測試報告設(shè)計能力測試報告編程能力測試報告電商購物測試報告長視頻總結(jié)測試報數(shù)據(jù)抓取測試報告編程能力測試報告電商購物測試報告長視頻總結(jié)測試報數(shù)據(jù)抓取測試報告微軟Copilot測試告綜合能力測試報告綜合能力測試報告AI搜索戰(zhàn)局升溫:從perplexity的ll焦慮式營銷"看wrapper產(chǎn)品的困境-BY貓貓頭產(chǎn)品形態(tài)的演進邏輯:觀察核心戰(zhàn)場的玩家打法,可以看到清晰的產(chǎn)品路徑,OpenAI:7月發(fā)布Agent推出SuperAgent→9月推出這或許解釋了為什么Perplexity最近動作如此頻繁——它需要在窗口期關(guān)閉前測試設(shè)計理念by郎瀚威willComet瀏覽器的按鈕增加了一鍵總結(jié)當(dāng)下網(wǎng)頁內(nèi)容我們這一次沒有按照openai官方給出的引導(dǎo)prompt進行測試。因為我們認(rèn)Comet瀏覽器的按鈕增加了一鍵總結(jié)當(dāng)下網(wǎng)頁內(nèi)容第四個,則是郵件相關(guān)內(nèi)容。其實本來我們是要出一期郵件專輯的,由于種種原因拖延了國內(nèi)用戶可能比較難以理解。郵件有點類似于老外的微信。圍繞微信的rpa,如果微是最豐富的。無論是自動回復(fù),批量增刪改查好友等等,感興趣的朋友可以去影刀看看。Com測試感受bywill團隊成員1wzy本次測試了推特新聞總結(jié)、回復(fù)推特私信2個任務(wù),很出色,速度也比Comet快,但是另一個任務(wù)卻完全理解錯了任務(wù)要求,也存在AI幻覺,給出了不存在的東西,但據(jù)其在成2.Gemini插件:未能識別屏幕內(nèi)容,功能最少。背靠強大的模型卻在這兩個任務(wù)中表現(xiàn)最相對最差,3.Comet:完成任務(wù)準(zhǔn)確無誤,但執(zhí)行速度慢。通過其完全自動化的操作,能夠正4.Genspark瀏覽器:工具很全,但任務(wù)執(zhí)行表現(xiàn)一般。沒有像Comet那樣進行自動化模擬操作,但對不同的任務(wù)有相應(yīng)的測試感受bywill團隊成員2tcj4.Genspark瀏覽器:轉(zhuǎn)錄和總結(jié)的結(jié)構(gòu)清晰。對視頻的核心內(nèi)容進行了歸納和分類,摘要結(jié)構(gòu)清晰。成功將視頻內(nèi)容提煉總結(jié):本次測試了4個平臺對長視頻的總結(jié)轉(zhuǎn)錄功能,Comet和Genspark瀏覽器的轉(zhuǎn)錄能力真的讓我驚訝,速度快是一方面,其中兩1.OpenAIAtlas:交互性很強,有趣但是墨跡。會實時給你框出來問你"要不要看我玩紙牌接龍"像一個桌寵,而且確實保護隱私,你可以選擇自己粘貼鏈接不用給它權(quán)限。但2.Gemini插件:不能發(fā)郵件,不標(biāo)注信息來源。有點尷尬,發(fā)郵件這個任務(wù)直接說做不了。文章總結(jié)還行3.Comet:快是真的快,但就是有點太的打磨。對方收到可能會覺得挺敷衍的。文章總結(jié)也是,寫得像論文似大綱,看著有些費勁。追求效率的話可以用,真正讓人滿意的是做實際工作的時候,發(fā)出去的郵件格式漂亮、內(nèi)容完整,收件人一看就知道你是認(rèn)真對待的。還會主動問/OpenAI/status/1980685602384441368【1、段子經(jīng)濟主導(dǎo)輿論場】681條評論里,最高贊接近2k是諷刺"AI會報警"的段子,第二高約1.5k是"Chrome用戶拒絕切換"的梗圖。Top20里16條是圖片段子,只有3條是真正的負(fù)面批評。帶圖評論平均34贊,純文字只有10贊。這說明Atlas發(fā)布后,實質(zhì)討論被Meme淹沒——大家在看熱鬧,不是在評估產(chǎn)品。【2、Chrome遷移成本是致命傷】50條提到Chrome,核心論點是"Chrome已經(jīng)夠用"、"又是Chromiumwrapper"。約1.5k贊的段子直接戳中痛點:用戶習(xí)慣鎖定太強。更要命的是,OpenAI要說服的不是"零AI工具"用戶,而是"已經(jīng)在用Chrome+ChatGPT插件"的人——這群人看不到切換的【3、增長策略引發(fā)反噬】"用設(shè)為默認(rèn)瀏覽器boost額度很scummy"拿約500贊,配合"別用數(shù)據(jù)換光標(biāo)動畫"(約500贊),形成了"OpenAI為增長不擇手段"的敘事。這個策略本想降低試用門檻,結(jié)果被解讀成強制綁定。對B端客戶尤其危險——企業(yè)IT看到這種討論會更謹(jǐn)慎?!?、Agent價值傳播失敗】評論區(qū)充斥"Chrome已經(jīng)能做這些"的質(zhì)疑,說明大部分人沒看懂Agentmode和傳統(tǒng)瀏覽器的區(qū)別。OpenAI強調(diào)了sidebar、typingsuggestion這些表層功能,但"自動完成任務(wù)"這個殺手場景沒打透。用戶只看到"又一個帶AI的瀏覽器",而不是"能替我訂機票的Agent"?!?、正面聲音被碾壓】只有約40條正面評價(6%),最高贊才約200("Onboarding體驗棒")。而單條負(fù)面段子就接近2k贊——近10倍差距。說明即使有人愿意說好話,也找不到足夠有力的論據(jù)去對抗"Chrome夠用"、"隱私擔(dān)憂"、"強制綁定"三個負(fù)面敘事。輿論場上完全是防守姿態(tài)?!?、Maconly制造平臺歧視】約40條抱怨平臺可用性,約100贊問"為什么只有Mac"。雖然官方說Windows/Android即將推出,但首發(fā)Mac已經(jīng)制造了"精英主義"印象。企業(yè)用戶Windows占主導(dǎo),這等于把最有付費能力的群體先拒之門外。而Mac用戶里Arc和Safari忠誠度高,反而不是最容【7、Comet被當(dāng)笑話送葬】約40條提到Comet,最高贊約300是"感謝Comet的服務(wù)"——典型悼詞。但這不是因為Atlas強,而是Comet本來就岌岌可危。有人說"Comet還活著",但無人理睬。核心問題:中位數(shù)只有1贊,35%評論0贊,87%是中性/段子/疑問。這說明Atlas沒有引發(fā)"支持vs反對"的激烈討論,大部分人在觀望看熱鬧——對新產(chǎn)品這是最糟糕的反應(yīng),因為說明用戶根本沒認(rèn)真考慮要不要用。2025/10/22數(shù)據(jù)來源:similarweb單位:萬visitperplexitycEO帖子情緒分析(Al)/AravSrinivas/status/1980849846287474792活躍(愿意回復(fù)),但影響力極其有限——大部分人只是來報個到表忠心,內(nèi)容質(zhì)量低到?jīng)]人轉(zhuǎn)發(fā)點贊。對比Open【2、"nothingtoworry"是集體自我安慰】40條評論明確說"nothingtoworry/n評論(113贊)是"試了30秒Atlas就回來Perplexity了",第二高贊(107贊)是Paytm創(chuàng)始人說"印度有雙倍Comet"。這問題是:如果用戶覺得"Atlas=Comet=Perplexity的瀏覽器",那品確實容易被復(fù)制。用戶沒有討論Agent能力差異這種盲目支持對Perplexity長期不利——如果用戶是因為社群歸屬感而不是產(chǎn)品體驗留下來,一旦O實很在意。評論區(qū)有人調(diào)侃"你缺根煙"、"缺個打火機",說明Ar贊。似乎他們確實在印度市場有根據(jù)地。但問題是:印度市場能支撐多大估值?如果核心戰(zhàn)場(美國)被Open總結(jié)文章任務(wù)來源:團隊成員(貓貓頭)Prompt:Canyouexplainthisinsimpleterms文章鏈接任務(wù)分析:訪問Wallstreet頁面并讀取文章內(nèi)容,需要能夠獲取文章內(nèi)容,提取關(guān)鍵內(nèi)容點,并生成簡潔明了的總結(jié)。主要測試Agent的文字內(nèi)容理解能力、信息提取5成功對話鏈接5成功對話鏈接成功對話鏈接5成功對話鏈接OpenAIAtlas執(zhí)行結(jié)果:成功鏈接?任務(wù)成功?最簡潔,直觀的列出5個要點快速概括核心思想,適合想快速了解文章主旨的讀者,但犧牲了很多細(xì)節(jié)和深度。圖片來自測試結(jié)果截圖GoogleGemini插件執(zhí)行結(jié)果:成功鏈接?任務(wù)成功?既保留了關(guān)鍵細(xì)節(jié)(如具體的預(yù)測數(shù)據(jù)),又不過分冗長。?結(jié)構(gòu)清晰,每個領(lǐng)域都有具體的子要點,信息密度適中,可讀性強。圖片來自測試結(jié)果截圖PerplexityComet執(zhí)行結(jié)果:成功鏈接?任務(wù)成功?信息量最大,但組織方式有點過于學(xué)術(shù)化——用了很多框架和術(shù)語(比如"returnstointelligence"讀起來像在看論文大綱而不是科普總結(jié)。圖片來自測試結(jié)果截圖Genspark瀏覽器執(zhí)行結(jié)果:成功鏈接?任務(wù)成功?最全面深入,不僅總結(jié)了內(nèi)容還包括了文章的假設(shè)前提、局限性和作者態(tài)度等元層面的分析。篇幅較長。圖片來自測試結(jié)果截圖任務(wù)來源:團隊成員(貓貓頭)Prompt:SummarizeVideoContent,Youtube視頻鏈接任務(wù)分析:訪問YouTube視頻并理解視頻內(nèi)容。需要能夠獲取視頻信息,提取關(guān)鍵內(nèi)容點,并生成簡潔明了的總結(jié)。主要測試AI的視頻內(nèi)容理解能力、信息提取和總結(jié)能力。失敗對話鏈接失敗對話鏈接成功對話鏈接40成功對話鏈接OpenAI執(zhí)行結(jié)果:失敗鏈接?任務(wù)失敗?版權(quán)問題無法查看視頻,只總結(jié)了視圖片來自測試結(jié)果截圖GoogleGemini插件執(zhí)行結(jié)果:失敗鏈接?任務(wù)失敗?無法查看視頻,只總結(jié)了視頻頁中的圖片來自測試結(jié)果截圖PerplexityComet執(zhí)行結(jié)果:成功鏈接?任務(wù)成功?對視頻的要點和主題進行了總結(jié),給出了關(guān)于(DHH)的介紹,并對視頻內(nèi)容進行了歸納分類,包含了多個核心話題。此外,還可以根據(jù)章節(jié)標(biāo)題提供更詳細(xì)的摘要。圖片來自測試結(jié)果截圖Genspark瀏覽器執(zhí)行結(jié)果:成功鏈接?任務(wù)成功?對視頻的核心內(nèi)容進行了高質(zhì)量的歸納和分類,摘要的結(jié)構(gòu)非常清晰。成功將長達(dá)六小時的播客內(nèi)容提煉成幾個關(guān)鍵主題。最后還支持對視頻的關(guān)鍵主題進行深入研究。圖片來自測試結(jié)果截圖任務(wù)來源:團隊成員(貓貓頭)Prompt:ExtractTranscript,Youtube視頻鏈接任務(wù)分析:提取YouTube視頻字幕,轉(zhuǎn)錄視頻為文本。需要訪問視頻并將視頻轉(zhuǎn)錄為文字。主要測試AI的語音識別、字幕提取和文本格式化能力。失敗對話鏈接失敗對話鏈接部分成功對話鏈接成功對話鏈接OpenAI執(zhí)行結(jié)果:失敗鏈接?任務(wù)失敗?版權(quán)問題不予轉(zhuǎn)錄,提供了一系列視頻轉(zhuǎn)錄的工具,附上了工具的使用方圖片來自測試結(jié)果截圖GoogleGemini插件執(zhí)行結(jié)果:失敗鏈接?任務(wù)失敗?給出轉(zhuǎn)錄內(nèi)容,按說話人給出了對應(yīng)的時間戳,缺點是只給出了轉(zhuǎn)錄文本,無對應(yīng)下載文件,無結(jié)構(gòu),無總結(jié)。圖片來自測試結(jié)果截圖PerplexityComet執(zhí)行結(jié)果:部分成功鏈接?沒有給出轉(zhuǎn)錄內(nèi)容,給出的是帶時間戳的視頻摘要,經(jīng)過驗證查看,給出的視頻摘要內(nèi)容是準(zhǔn)確的,抓取到了官方的視頻時間軸?信息來源可靠,明確說明了“本視頻頁面提供了官方轉(zhuǎn)錄入口與完整時間軸概要;上文轉(zhuǎn)錄摘錄與摘要均基于該頁面返回內(nèi)容整理?!眻D片來自測試結(jié)果截圖Genspark瀏覽器執(zhí)行結(jié)果:成功鏈接?給出了完整的可供下載的轉(zhuǎn)錄文件,轉(zhuǎn)錄格式簡潔規(guī)范,結(jié)構(gòu)清晰,給出了視頻大綱,每句話有對應(yīng)的時間戳、并對視頻的核心話題進行的歸納分類。支持深度研究,點擊深度研究后給出了對視頻的深度研究報告。圖片來自測試結(jié)果截圖發(fā)郵件預(yù)約會議發(fā)郵件預(yù)約會議任務(wù)來源:團隊成員(貓貓頭)Prompt:PleasereplytothisTwittermessagefor任務(wù)分析:創(chuàng)建指定時間、指定參會人的會議邀請,生成Zoom會議鏈接,關(guān)聯(lián)Notion文檔,并通過Slack通知主要測試Agent的社交媒體操作,消息理解,和消息回成功對話鏈接2失敗對話鏈接成功對話鏈接成功對話鏈接OpenAI執(zhí)行結(jié)果:成功鏈接?任務(wù)成功?可直接用連接器鏈接谷歌郵箱和notion,讓GPT自己翻找目標(biāo)文件,也可以直接把需要附帶的會議鏈接以及notion文件鏈接粘貼給GPT,發(fā)郵件的整個過程非常流暢透明,用戶一直可以看見GPT的操流程,總之既保障了隱私安全又提升了工作效率。圖片來自測試結(jié)果截圖發(fā)郵件預(yù)約會議–GoogleGeGoogleGemini插件執(zhí)行結(jié)果:失敗鏈接?gemini回復(fù)不能直接操作郵箱。圖片來自測試結(jié)果截圖PerplexityComet執(zhí)行結(jié)果:成功鏈接?整個過程非常之快,comet也可以使用連接器鏈接notion,主動翻閱notion鏈接并附帶到郵件里。等待用戶確認(rèn)信息無誤后,直接點擊對會內(nèi)的按鈕后自動發(fā)送。圖片來自測試結(jié)果截圖Genspark瀏覽器執(zhí)行結(jié)果:成功鏈接?任務(wù)流程順利完成。Genspark瀏覽器同樣支持與Notion的連接器集成,具備主動檢索并提取鏈接內(nèi)容的能力。Genspark瀏覽器會在確認(rèn)階段補充追問發(fā)郵件所需的具體信息,用戶確認(rèn)無誤后,可在當(dāng)前會話內(nèi)點擊發(fā)送按鈕實現(xiàn)自動發(fā)送。圖片來自測試結(jié)果截圖任務(wù)來源:團隊成員(貓貓頭)Prompt:givemeahighleveloverviewofthemajornewsortrendingconversationshappeningonXaboutAl.Finally,pullaquotefrommysavedgoldensayinginNotiontoendthenewsletter.任務(wù)分析:訪問X平臺獲取當(dāng)日關(guān)于AI的主要新聞和熱門話題,需要能夠抓取實時社交媒體數(shù)據(jù),提取關(guān)鍵信主要測試Agent的社媒實時數(shù)據(jù)抓取能力和總結(jié)能力。失敗對話鏈接部分成功對話鏈接成功對話鏈接部分成功對話鏈接OpenAI執(zhí)行結(jié)果:失敗鏈接?任務(wù)失敗思,它給到的內(nèi)容全部是圍繞x和xAI的新聞與分析,而非x平臺上關(guān)于AI的熱門新聞,其他AI都獲取到的很熱門的OpenAI的一條,它給出了,但我的notion中并沒圖片來自測試結(jié)果截圖GoogleGemini插件執(zhí)行結(jié)果:部分成功鏈接?給出了三段較長的內(nèi)容,成功的獲取到了實時熱點與話題包括AI瀏覽器,概括的比較全面細(xì)致,比較有專業(yè)性。在最后直截了當(dāng)?shù)卣f明了無法訪問圖片來自測試結(jié)果截圖PerplexityComet執(zhí)行結(jié)果:成功鏈接?Comet此項任務(wù)是通過控制模擬操作完成,搜索AI關(guān)鍵詞,滾動屏幕獲取信息,任務(wù)完成的很不錯,給出了X上關(guān)于AI的實時熱點概括,但是相對的執(zhí)行速度較慢。?按照要求成功地獲取到了我保存在Notion中的金句,并沒有捏造。圖片來自測試結(jié)果截圖Genspark瀏覽器執(zhí)行結(jié)果:部分成功鏈接?十分迅速地獲取到了x上關(guān)于AI的熱門新聞與話題,內(nèi)容經(jīng)過驗證沒什么?在要求獲取保存在notion中的金句時,Genspark瀏覽器有專門的工具來打開Notion,但是執(zhí)行的比較死板,我在Notion的命名為“AI金句”,它卻嚴(yán)格按照“金句”二字搜尋,最終說未找到。圖片來自測試結(jié)果截圖任務(wù)來源:團隊成員(貓貓頭)Prompt:PleasereplytothisTwittermessagefor任務(wù)分析:回復(fù)Twitter上的私信需要Agent能讀懂收到的消息內(nèi)容,然后代替用戶寫回復(fù)。主要測試Agent的社交媒體操作,消息理解,和消息回成功對話鏈接失敗對話鏈接成功對話鏈接部分成功對話鏈接OpenAI執(zhí)行結(jié)果:成功鏈接?任務(wù)成功中推薦了五個產(chǎn)品,并且附帶了是否需要付費、產(chǎn)品的亮點等且附帶了使用教程。圖片來自測試結(jié)果截圖GoogleGemini插件執(zhí)行結(jié)果:失敗鏈接一條私信,Gemini卻根據(jù)另一條私信中圖片來自測試結(jié)果截圖PerplexityComet執(zhí)行結(jié)果:成功鏈接了是否需要付費、產(chǎn)品的亮點等且附帶了圖片來自測試結(jié)果截圖Genspark瀏覽器執(zhí)行結(jié)果:部分成功鏈接問題。生成了草稿,讓用戶自行發(fā)送,不使用小提示,比較人性化。推薦的AI產(chǎn)品圖片來自測試結(jié)果截圖任務(wù)來源:團隊成員(貓貓頭)Prompt:AccordingtoCLIPI&attached,andtheCLIPPartIIIWritingPrompt,helpmecompletethiswork(PARTIII:LeadershipandGrowth:Reflectonhowmanagerialaccountingprinciplescanenhancedecision-making,fostertrust,andpromoteacultureoftransparencywithintheorganization.)任務(wù)分析:這是一個學(xué)生的期末大匯報,需要基于前2次midterm小作業(yè)的內(nèi)容,以及第三次的匯報要求,生成一個PPT主要測試Agent能否理解上下文語義、支持上傳并讀取附件,進行分析寫作,最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論