從算法選擇到大模型應用的實踐及需要警惕的誤區(qū)_第1頁
從算法選擇到大模型應用的實踐及需要警惕的誤區(qū)_第2頁
從算法選擇到大模型應用的實踐及需要警惕的誤區(qū)_第3頁
從算法選擇到大模型應用的實踐及需要警惕的誤區(qū)_第4頁
從算法選擇到大模型應用的實踐及需要警惕的誤區(qū)_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

?按照網安標委2024首次u標準周會議"組委會工作要求,我承擔了一個大模型與網絡安全相關的報告任務,之后我上報了《大模型對網絡安全的價值和?因我對大模型領域也是在摸索嘗試階段,擔心做全局梳理和提煉高度不夠,于是用自己熟悉的威脅檢測與特征工程工作視角來帶入,把算法選擇問題作為入口(第一節(jié)),也借著這次報告任務對我們自身的特征工程體系的工作軌跡進行了梳理總結(第二節(jié)),之后展開幾點泛化思考(第三節(jié))。?但為避免在公共技術會議中出現太多自身工作,因此在2024年6月24會議公開報告的版本,在第二節(jié)只保留了兩頁內容,但也使報告內容完整型受到了影響,這一分享版本是我的底稿我調整了報告標題并對錯誤作了修訂。?PPT中途做了兩次小范圍分享會有一些內容是不一致的(但這不影響正確的使用)。2從我們的特征工程運營實踐看賦能體系的智能化演進///具有大規(guī)模參數和負責計算結構的機器學習模型,由深度神經網絡構建,能夠提高模型的表達能力和具有大規(guī)模參數和負責計算結構的機器學習模型,由深度神經網絡構建,能夠提高模型的表達能力和預測性能,能夠處理更加復雜的任務和數據。更高的檢測精度自適應學習能力實時響應復雜行為不局限分類任務的,超級的被認為是無敵的….(RNN)處理序列數據的神經網絡架構,通過在序列的每個時間步上共享參數,并使用其前一步的隱藏狀態(tài),使得網絡能夠捕捉序列中的時間依賴性。時間序列分析、自然語言處理等任務卷積神經網絡高效地提取圖像中的空間特征。被認為可發(fā)現未知威脅,卷積神經網絡高效地提取圖像中的空間特征。被認為可發(fā)現未知威脅,(CNN)長短時記憶(LSTM)長短時記憶(LSTM)生成式對抗無監(jiān)督深度學習模型,通過生成網絡G(Generator)和判別網絡D(Discriminator)不斷博弈,從而生成圖像為其他模型生成訓練數據補全缺失的信息(GAN)從給定的訓練數據集生成更真實的新數據。根據2D數據生成3D模型等監(jiān)督學習,通過一個或多個自變量與因變量之間進行建模的回歸分析,其特點為一個或多個稱為回歸邏輯回歸監(jiān)督學習,根據給定的自變量數據集來估計事件的發(fā)生概率,由于結果是一個概率,因此因變量的范圍在0和1之間基于概率分類隨機森林曾在本世紀初前十年大量出現在中的曾在本世紀初前十年大量出現在中的分類、回歸和異常檢測任務,識別新的或未知異常支持向量機(SVM)在一組數據進行排序或選擇的過程中,通過給不同數據項分配不同的權重,以優(yōu)化模型性能和提高預測準確性。簽名檢測代碼的簽名特征與惡意代碼庫進行對比,判定。模式匹配把任意長度的輸入(又叫做預映射),通過散列算法,變提高存儲空間利用率,提高數據查詢效率,””?X86、Mips、ARM、以及國產架構:飛騰、龍?windows、linux、以及國產操作系統(tǒng):中標麒麟、銀河麒麟、中科方德、凝思、?X86、Mips、ARM、以及國產架構:飛騰、龍?windows、linux、以及國產操作系統(tǒng):中標麒麟、銀河麒麟、中科方德、凝思、?具有海量的病毒檢測規(guī)則,且檢測速度極快,約為其他引擎產品的2-兼容性及性能?感染式病毒、蠕蟲、木馬、黑客工具、風險軟件、已知威脅精準檢測 ?感染式病毒、蠕蟲、木馬、黑客工具、風險軟件、已知威脅精準檢測 惡意代碼環(huán)境前綴惡意代碼環(huán)境前綴識別及拆解能力?支持識別:可執(zhí)行文件、包裹、文檔、媒體文件、圖片文件、軟件關聯格式、腳本、文本格式、其它格式等九大類格式?格式數(含版本)298 識別及拆解能力?支持識別:可執(zhí)行文件、包裹、文檔、媒體文件、圖片文件、軟件關聯格式、腳本、文本格式、其它格式等九大類格式?格式數(含版本)298 ?可深度拆解的可執(zhí)行程序的種類:下載器、釋放器1?可深度預處理的復合文檔的格式數?可深度拆解的可執(zhí)行程序的種類:下載器、釋放器1?可深度預處理的復合文檔的格式數知識標簽?覆蓋ATT&CK技術點171個覆蓋?包括威脅類型、漏洞、黑客組織、武器裝備、屬性等知識標簽及描述3?包括威脅類型、漏洞、黑客組織、武器裝備、屬性等知識標簽及描述3?包括惡意代碼類別、平臺、行為、家族等知識標簽及描述超過70/啟發(fā)式檢測N/A較強依賴測試較大依靠多個提取判斷點生成值域本地檢測啟發(fā)式檢測N/A較強依賴測試較大依靠多個提取判斷點生成值域本地檢測+CNN++高檢測已捕獲腳本樣本及其變種低高高千本地檢測網絡快速擴展檢測能力,全對象全量或局部IO+匹配本地檢測網絡萬強依賴測試+高依賴測試較低全IO+向量提取+匹配本地檢測(向量情報擴展)較低/()感染式對象、無法提取長特征高局部IO+匹配包和非完整流檢測、部分本地檢測。檢測已捕獲樣本及其變種,二進制對象、腳本對象預處理結果弱較低,構造風險網絡資源和延遲(云查時)無HASH/CRC檢測已捕獲樣本,全對象無極低,構造風險全對象IO+HASH計算+值查找云查(含誤報處理)無特征發(fā)散樣本家族非等長依賴測試較高提取點計算搜索匹配加權比較本地檢測高特征發(fā)散樣本家族等長依賴測試高提取多個維度判斷點+概率計算本地檢測高特征發(fā)散樣本家族等長依賴測試較高提取多個維度判斷點距離度量距離比較本地檢測高特征發(fā)散樣本家族等長依賴測試較高提取多個維度判斷點最優(yōu)分類超平面本地檢測高檢測已捕獲樣本及其變種,獨立載荷對象等長較高極低全對象IO+模糊HASH計算+值查找本地檢測無注意力框架長(處理大規(guī)模數據)高(需要高性能集群或云服務)低(依賴問題類型和模型設計)高(具備廣泛的泛化能力)新興(適用于特定大規(guī)模應用)遞歸神經網絡(RNN)、卷積神經網絡(CNN)、長短時記憶(LSTM)、生的神經網絡)相對較高(需要GPU等高性能硬件)相對較低(通過數據驅動優(yōu)化)相對較高(可能受到對抗性攻擊的影響)相對新興(需要大規(guī)模數據和算力支線性回歸邏輯回歸、決策樹隨機森林、支持向法等相對較短(依賴算法復雜度)相對較低(可能需要中等算力)相對較高(處理復雜模式)相對較低(通過數據增強和集成學習提升)相對成熟(需要數據準備和模型訓練)特征碼匹配正則匹配特征哈希匹配全哈希值域計算和加權等極短(簡單算法)極低(不需要大量數據和復雜計算)極高(通過大規(guī)模數據和訓練獲低(受模型設計影響)成熟(易于部署)/基于能力消費(使用)的視角?實時反應:要確保99%的防護和拒止動作都是實時完成的,而不是都需要等待異步的DR環(huán)。?精確的命名:對檢測結果"Trojan/Win32.lockbit[ransom]”這樣準確的分類命名,而不僅僅是提供"有害"、"疑似"這樣的模糊似檢出率90%,誤報率3%當成一個好結果。時監(jiān)測場景下幾乎沒有價值,或者只能是現代檢測引擎體系基于工程約束其局限性的一個局部分支。/基于特征工程運營側的視角【安天在特征工程體系中運行的基本規(guī)則】測能力,而不是基于一個小集合樣本進行訓練,并基于增量集合進行驗證?最短的響應時間:新樣本(包括客戶反饋的誤報漏報,甚至錯報)要用盡量短的時間完成定性,轉化為分發(fā)和升級,對象的判定和提取時間代價需要是分鐘級(含動態(tài)分析環(huán)節(jié)),而不是允許用更長時間調節(jié)?精確判定:威脅對象需要形成輸出準確的分類、家族、變種名稱,而不是僅僅給出黑白結論?誤報會帶來更大的麻煩:在引擎工作中誤報不能絕對避免,但后端不能進行會導致明確的誤報的輸出,而不是為了檢測能力提升,直接容忍誤報是試圖用統(tǒng)一集合適配所有場景。?充分但不是無限的算力:安全企業(yè)比客戶擁有更大的安全分析算力,但所有的安全能力生成都有代價,廠商和用戶的算力都不是無限的,安全產品的設計要充分考慮算力的要求,而不是假定有無限的算力?增量而非全量的升級:流量和帶寬不是無限的,要使用增量升級降低用戶獲取成本,縮短用戶獲取安全能力的時間,而不是每次分發(fā)全量?支持云查:規(guī)則擴張必然導致無法把所有規(guī)則都部署在本地,需要用云側來進行彌補,用最小的交互代價,讓云上的安全能力彌補本地庫的局限,特征需要是可查詢的,而不是把所有的文件上傳到云端分析基于以上原因基礎檢測能力必須以一個海量對象特征工程的方式來持續(xù)運行,絕大多數算法都無法支撐這個運行體系的主閉環(huán)。一部分算法被用于輔助對象判斷多源聯合分析異構數據分析等多數使用在充分算力的生產場景和客戶側的管理中心、XDR、SOCO人際外部協同人際外部協同外部賦能與生產(共性的、廣譜的)認知情報威脅情報與檢測認知情報威脅情報與檢測能力認知情報易忽規(guī)則與威脅情報難安全產品/規(guī)則與威脅情報難安全產品/網空防御是一套有賦能的人機系統(tǒng),網空防御是一套有賦能的人機系統(tǒng),要把能力和智力合理的分布在體系中,更多的智能運用是基于多源融合和群體協同,而不是把邊威脅對象分析威脅情報匯聚生產和發(fā)布服務運營和私有化生產網絡邊界和流量檢測主機系統(tǒng)防護面向海量的樣本對象,依托大規(guī)模集群算力節(jié)點,承載動靜態(tài)分析鑒定工作,支撐規(guī)則和威脅情報生產,通過共性能力實現全局防御資源的集約化。面向大量的自產規(guī)則、情報和開源情報,依托一定規(guī)模的分布式節(jié)點。面向政企機構自身,在多種日志和告警數據上的處理,針對自動化機制不可識別、處置的情況驅動處面向網絡流量對象,安裝在網絡出口和關鍵網段,由載體設備承載,實現訪問控制和流量過濾檢測。面向操作系統(tǒng)和應用安全環(huán)境,通常使用系統(tǒng)本身的算力,實現威脅檢測和防護等工作。分析和生產基于云查詢、云分析和反饋支撐響應閉環(huán)。匯聚、判斷和決策,使準實時和異步的OODA環(huán)閉合,支撐PDCA環(huán)。即時反應(拒止)異步響應,支撐NDR的采集和響應即時反應(拒止與處置)異步響應,支撐EDR的采集和響應。豐富的大量的相對充分的較低極低高度集中的集中的集中的分散的用于大規(guī)模集中的對象分多源匯聚分析集中日志分析和批量的對采集、元數據化、分布式、采集、元數據化支持、分從我們的特征工程運營實踐看賦能體系的智能化演進從我們的特征工程運營實踐看賦能體系的智能化演進?安天研發(fā)反病毒引擎24年,累計實現了超過四十億節(jié)點的安全賦能,覆蓋終端、云、流量、業(yè)務等場景,并為支撐引擎持續(xù)升級構建了一套威脅分析的流程框架和自動化分析平臺(賽博超腦)。?面向總量達百億的,日均增量超過200萬個執(zhí)行體對象(含含白)構建了大規(guī)模特征工程體系,以支撐檢測能力的持續(xù)升級。?依托感知和分析能力,我們多次捕獲、深度分析了源自最頂級攻擊者的APT攻擊事件和樣本,支撐了溯源研判工作,并發(fā)布了大量公開分析成果。?承擔多個國家級/省級的威脅采集/分析或態(tài)感平臺的建設和運營支撐。?基于威脅對抗的體系運行和工作流程,持續(xù)為改善威脅檢測和分析能力并提升自動化水平,歷史上進行了大量的算法層面的嘗試選擇優(yōu)化和淘汰。19861995199520022002200520052012201220162016~2022操作系統(tǒng)和軟件規(guī)局網應用成熟Internet發(fā)展操作系統(tǒng)日趨復雜網絡主渠道應用大網絡經濟大發(fā)展催生地下經濟體系,網絡計算、云大數據技術和工程體系大模型平臺技術取得突辨識壓力超越處置壓力樣本和正常應用都以幾何大國博弈和地緣安全風險,傳統(tǒng)惡意代碼融入網空殺傷鏈突防能力增強,攻擊戰(zhàn)術持續(xù)豐富化更高水平的自動化攻擊反病毒范式最基礎征自動化提純技術(針對非解決分析員作業(yè)和樣解決海量樣本的自動化判有力支持大規(guī)模樣本的同源分析威脅溯源和載荷檢測和戰(zhàn)術能力的大模型的深入賦能,場景的有效融合,copilotPE特征自動化提取(2001)腳本特征自動化提取(2002)集成化人工分析環(huán)境(2004)集成自動化分析的樣本管理平臺(2004)基于決策樹的自動化分析機制(2004)基于對象指令和結果三總線的第一代自動化流水線(2011)基于分析向量擴線的APT分析(2013)基于人機協作的的第二代自動化流水線(2016)基于海量移動端的威脅情報運營(2016)平臺和海量邊緣計算的端到端賦能運行(2017)ATT&CK威脅框架與載荷的映射運營(2021)向量情報的戰(zhàn)術映射與運營(2019)本體建模與圖譜化情報環(huán)境(2022)指導全量執(zhí)行體分析的新方法框架(2023)VILLM威脅分析垂直大模型(2024)?2002~2006:人工集成化分析、樣本管理平臺+批量自動化分析?2006~今:第一代樣本分析流水線?2006~今:第二代樣本分析流水線,與海量邊緣計算端到端協同運行?2016~今:威脅情報與知識工程的嘗試與演進?2023~今:大模型的疊加與改進結構復雜度:特征碼可以基于增加長度或跨越結構來降低誤報。(質量控制)A范式:病毒特征碼的本質是一個能夠唯結構復雜度:特征碼可以基于增加長度或跨越結構來降低誤報。(質量控制)A范式:病毒特征碼的本質是一個能夠唯一標識該種病毒的內容表達。(即不能出現于正常文件種,也不宜出現在其他病毒中)(必須遵守的)功能特異性:特征碼如能對應該種病毒的特殊功能,則該特征碼具有表征價值。(價值增量)惡意代碼分析基地基本支撐環(huán)境▲樣本分析的早期工序規(guī)劃(2004)多機構的聯合分析運行規(guī)劃樣本分析的早期工序規(guī)劃(2004)2001年,安天完成了特征自動化提取的基本范式設計,并在主機引擎場景(2001)和網絡高速引擎場景(2002)完成了落地。后來我們概括為特征的A范式模型。其基本邏輯是基于A范式形成可用預選,并基于功能特異性和結構復雜度來進行選擇和質量調節(jié)。集成分析環(huán)境:PE樣本靜態(tài)分析集成分析環(huán)境:交互式行為分析存儲子系統(tǒng)中心辦公區(qū)人工分析數據挖掘服務器數據交互服務器升級及系統(tǒng)策略管理服務器預警服務器樣本索引數據庫服務器靜態(tài)分析服務器組周期性多引擎服務器組安全事件分析服務器安天的第一代樣本分析流水線(2006~日志管理服務器安天的第一代樣本分析流水線(2006~今)的建設,圍繞大規(guī)模增量樣本的分析與特征提取全量樣本的遍歷測試等任務目標完成。由分揀(預處理)、樣本自動分析(靜態(tài))、人工分析子系統(tǒng)連接組織,后續(xù)擴又擴展了自動分析、樣本養(yǎng)殖(BotNet監(jiān)測),整體上支撐了分析能力的彈性擴展,實現了日百萬量級的樣本自動化分析能力,確保了基礎檢測引擎面向生態(tài)伙伴的持續(xù)賦能。安全事件接收存儲子系統(tǒng)中心辦公區(qū)人工分析數據挖掘服務器數據交互服務器升級及系統(tǒng)策略管理服務器預警服務器樣本索引數據庫服務器靜態(tài)分析服務器組周期性多引擎服務器組安全事件分析服務器安天的第一代樣本分析流水線(2006~日志管理服務器安天的第一代樣本分析流水線(2006~今)的建設,圍繞大規(guī)模增量樣本的分析與特征提取全量樣本的遍歷測試等任務目標完成。由分揀(預處理)、樣本自動分析(靜態(tài))、人工分析子系統(tǒng)連接組織,后續(xù)擴又擴展了自動分析、樣本養(yǎng)殖(BotNet監(jiān)測),整體上支撐了分析能力的彈性擴展,實現了日百萬量級的樣本自動化分析能力,確保了基礎檢測引擎面向生態(tài)伙伴的持續(xù)賦能。安全事件接收服務器#1黑名單倉庫安全事件接收服務器2#事件匯總預處理服務器白名單倉庫系統(tǒng)運維管理WEB服務器中央控制服務器人工分析任務控制服務器樣本分析掃描服務器組待定樣本倉庫安天第一代流水線的部署拓撲安天作為引擎后發(fā)者,在PE、腳本、復合文檔等檢測分支上,用了超過16年的時間追趕卡巴斯基的深度解析和預處理能力,因此在這些分支上采取了先基于后臺分析實驗新方式和能力,成熟后迭代到引擎的路線安天第一代流水線的設計安天第一代流水線服務的價值場景是支撐反病毒引擎對網絡安全生態(tài)伙伴(主要是防火墻廠商)的嵌入賦能,以及兼顧支持國家應急體系的分析"、-反饋型閉環(huán),而不是支撐大量OODA環(huán)。流水線也是以分析效能最大化兼顧可以細粒度管理的目標展開的。整體框架設計為依托對象總線指令總線和結果的三總線調度機制,實現彈性的算力擴展和新的子系統(tǒng)向流水線的靈活掛載。對照系統(tǒng)樣本比對跟蹤檢測比對跟蹤樣本捕獲及時性樣本流轉對照系統(tǒng)樣本比對跟蹤檢測比對跟蹤樣本捕獲及時性樣本流轉優(yōu)化引擎檢測優(yōu)化現實訓練數現實訓練數據目標數據分類器非現實訓練數據擬合判定非現實訓練數據擬合判定目標數據聚類目標分類器產品能力跟蹤產品能力跟蹤快速檢測響應/擬合判定反饋和驅動交叉比對結果算法模式修訂算法模式修訂產品策略人工作業(yè)安天的第二代樣本分析流水線(201l1~今)檢測引擎特征更新移動互聯網流量互聯網數據流量樣本上報、樣本交換樣本捕獲和采集樣本預處理樣本采集接口Web應用接口更新和接口支持惡意代碼樣本庫惡意代碼云支撐庫后端分析支撐體系惡意代碼樣本庫惡意代碼云支撐庫后端分析支撐體系樣本人工分析惡意代碼自動化分揀惡意代碼事件惡意代碼行為數據預處理檢測結果檢測結果檢測結果檢測結果形成模塊引擎反饋信息引擎反饋信息預處理模塊構體功能模塊控制模塊檢測邏輯控制模塊核心檢測模塊特征庫文件特征庫加載模塊安天移動側引擎作為技術先發(fā)者,從開始就按照了深度預處理多分支冗余檢測的思路,因此在第二代流水線中,是按照引擎復用于靜態(tài)分析的同構設計。設計極致執(zhí)行了大規(guī)模自動化分析對人工分析降維,再將人工分析經驗迭代回滾到自動化的運營理念。并基于第一代流水線的樣本綜合分析效能導向,將分析向量的運營到達精細粒度,保證了分析能力的生產力導向分析流水線分析流水線++威脅事件驅動業(yè)務需求牽引威脅事件驅動業(yè)務需求牽引基礎特征和向量數據是一致的目標樣本樣本庫>樣本捕獲>輸入訓練數據機器+數據+多邊生態(tài)能力基礎特征和向量數據是一致的目標樣本樣本庫>樣本捕獲>輸入訓練數據機器+數據+多邊生態(tài)能力人工分析機器分析機器&人工分析數據集合人工作業(yè)面向聚類和分類標定進行輸出e傾向于分析/判定/關聯等知識生成人工分析機器分析機器&人工分析數據集合人工作業(yè)面向聚類和分類標定進行輸出e傾向于分析/判定/關聯等知識生成學習聚類訓練分類訓練其它半監(jiān)聚類訓練分類訓練其它半監(jiān)督訓練和學習策略傾向于檢測/識別等知識輸出結構化知識庫歸一化模傾向于檢測/識別等知識輸出結構化知識庫歸一化模型分類標簽輸知識化引擎云加速引擎知識化引擎云加速引擎分類器和基準聚類器本地引擎重新定義自動化分析調度策略和模式,引入新的邊緣計算調度模式重新定義自動化分析調度策略和模式,引入新的邊緣計算調度模式,,+是其與賦能端的邊緣計算視為一個整體,從而強化端到端的安全賦能,在一個海量端點的體系中實現威脅分析響應的高速OODA環(huán)。移動威脅情報的探索移動威脅情報的探索(2017規(guī)劃采集加工分析要求感知處理生產反饋、規(guī)劃采集加工分析要求感知處理生產反饋、消費改進消費改進私有化情報生產(知識工程共同運營的嘗試)(2019)ATT&CK威脅框架作為能力指標的引入(2020) 在特征工程體系建立完善后,在反病毒引擎升級之外疊加c威脅情報"的輸出成為自然的選擇在寬頻嘗試的挫折后,我們整體上回歸到基于引擎提供面向執(zhí)行體高質量、基于實證可以指引行動的向量級威脅情報在進入政企產品業(yè)務,嘗試將全線產品體系能力對接到殺傷鏈到威脅框架指標,但這對原有基于樣本對象的特征工程運行帶來了巨大挑戰(zhàn)ATT&CK和TCTF的引入嘗試都沒有找到類似海量樣本分析的歸一化"的有效方式,試圖引入MBSE的應對復雜性問題的努力是不成功的,將本體模型引入到網升檢測效果但也帶來了更多心智負擔。輔助公共知識生成VILLM輔助公共知識生成增強威脅檢測輔助同源分析發(fā)現很多事情是辦不到的,將輔助能力鎖定到增強威脅檢測輔助同源分析發(fā)現很多事情是辦不到的,發(fā)現很多事情是辦不到的,轉向面向安全服在初期的探索階段安天的工程師們嘗試了用開源模型建立僚機系統(tǒng)進行分析輔助工作,但很快陷入了困境開源模型無法擺脫詞表的限制、同時在分析字節(jié)數據時存在大量的Token浪費,上下文的處理性能難以滿足樣本分析的的場景。在分析對比了多種開源方案之后,安天選擇了在基于海量執(zhí)行體樣本數據的基礎上,開始自研生成式模型。聚焦在二進制對象,突破Token和上下文限制進行展開,目前初步形成了點突破。99.48%完全準確率99.48%完全準確率11DGA檢測:95.62%128上下文惡意行為檢測:94.25%DGA檢測:95.62%128上下文惡意行為檢測:94.25%512上下文CIFAR10:52.4%3192上下文MNIST:94.76%800上下文FiFTY文件格式取證分析數據集達到SOTA水平SS512集合準確度72.6%在開發(fā)VILLM中,將基礎的文字理解任務和圖像理解識別任務場景,轉換到檢測分析惡意代碼分析全量執(zhí)行體生成知識,每一項任務都面臨著海量數據的存儲算力和配套的能耗限制。同時也讓安天的工程師更深刻的認識到,過去的分析經驗中有著大量難以形式化的知識經驗需要由模型來學習繼承。在解決每一項性能挑戰(zhàn)的同時,我們也清晰的認識到模型距離網絡空間安全的通用智能還有很長的路,目前模型仍是工程師的輔助手段。11,904,5612672開源模型VILLM-256K百兆網絡Token7,283,5//AC-BM自動機、KMP樣本輔助分析CNN、LSH等BP神經網絡等大量算法局部IO對象高性能散列計算MD4CRCMD5SHA1SHA2啟發(fā)式檢測決策樹、樸素貝葉斯、SVM同源分析局部敏感哈希LSH、隨機森林K-meanKNN本地檢測、網絡緩存BloomFilter知識存儲AVML(自定義)、JSONOWLRDFXML基礎模型自研模型VILLMBertRWKVBloom?惡意代碼監(jiān)測能力的持續(xù)迭代改善升級,是基于歸一化的基本思想支撐的大規(guī)模特征工程的持續(xù)迭代,所有算法和實現路徑都服務于這個過程。?我們目的性很強,所以我們本質上不關心智能,只關心自動化。方法是服務于效能,而自動化是效能的關鍵。?有多少人工,就有多少智能,這是大規(guī)模特征工程體系智能演進的要義。?具象的技術都會死亡,但工程永遠長青,因為工程體系是不斷迭代的。?遠離工程支撐或不能轉化為工程邏輯的的創(chuàng)新都會失敗,導致工程目標發(fā)散的創(chuàng)新會導致工程失敗。?不要試圖創(chuàng)造算法,我們需要的算法一定存在,為需求尋找算法,而不是為算法尋找場景。?任何基于網安向應用領域的泛在都值得警惕(比如我們基于威脅情報平臺走向通用的Palantir是不成功的,)。?大模型不靠譜的原因很可能是我們自己不靠譜。安天病毒通緝令每年更新,都需要設計師數月時間才能完成的手繪畫稿,在小組搭建了一個開源大模型的設計工具后,VSVS基于同一個知名的惡意代碼內容詞條,秘塔Al所搜的實體抽取、知識邏輯生成顯然好于我們的自動化詞條,哪怕這個惡意代碼的歷史分析報告成果很大比例是安天貢獻的。在具有豐富公開資料支撐的知識性內容方面,顯然通用大模型具有碾壓性優(yōu)勢,但安全廠商依然擁有特征工程所支撐的深源優(yōu)勢。?OpenAI+ChatGPT在領跑,而且是加速領跑這是不言而喻的,是只有依靠發(fā)展才能應對的。但臺的唯一選擇,更幾乎無法作為中國企業(yè)機構的可靠選擇,這不是單方面愿不愿意靠上去的問題,而是美方要把我們脫鉤的問題。?但受到先進性成熟度生態(tài)完善程度等影響,國內產業(yè)已存在OpenAI+ChatGPT依附生態(tài)是必須正視和尊重的既定事實,在網絡安全領域也存在多種后臺利用的情況。在美情報機構棱鏡"等超級接口的訪問檢索范圍內,但我們對此實際情況缺少詳盡的實際頻譜分析,而從戰(zhàn)略上,這已經不只是信息安全風險,也帶來了知識安全風險,以及對中美戰(zhàn)略安全平衡的微妙影響。AI??一個很有意思的對比是,在某運營商出口將數據分流給:A組基于特征體系的兩臺檢測設備;B組一個基于上百臺服務器支撐的AI檢測模型,前者的威脅事件有效報警量是后者的100倍。?中國網絡安全面臨著創(chuàng)新和補課兩個基本任務,而不是只有創(chuàng)新一個基本任務。多數未補課帶來的問題,不是能通過創(chuàng)新補償的不完成這些補課,大量的創(chuàng)新是無效的?從防御場景看,可管理的網絡才是可防御的網絡,有效的治理是防御的基礎;從能力供給看,高質量特征工程和知識工程體系,是安全共性能力建設和安全賦能的基礎。?神經系統(tǒng)是驅動手和腳的,而不是替代手和腳的決問題。?安全廠商和通用平臺廠商合作并未普遍展開,一方面真實反應了通用模型當前對網安能力的增益有限,難以實現合理的投入產出比;但另一方面從本質上依然是對互聯網平臺廠商和大型IT廠商在過去跨界打劫的帶來的不安全感。場景和資產安全運營的深刻理解。?我們承認高水平大模型能包絡許多細分,但所謂的萬卡門檻",或者你有多少塊卡"的投資人提問,這是英偉達的話術視角,而不是真正的創(chuàng)新價值視角。?我們是唯物主義者,但不是物質決定論者,我們的先輩曾在手搖和算盤上支撐兩彈一星,中國IT和軟件的線性者們就是在最早的紙帶、磁帶、低密磁盤上開創(chuàng)了中國最早的計算機事業(yè)。我們依然要用場景的經驗任務的垂直和收斂以及自我能動性與犧牲來彌補我們算力資源的不足。防御者防御者安全產品/引擎大模型在網絡安全中通過提升檢測精準度、加快響應速度和實現復雜任務自動化,將顯著增強了整體防護能力和效率。盡管我們聚焦于大模型的機器能力提升,促進生產自動化與智能化;同時大模型會逐步增加對“人”的賦能,提升“人”的能力與效率。參謀輔助參謀輔助“人”主要提供輔助支持,利用模型對安全數據的理解為提供輔助決策的候選方案,并對結果進行合“人”主要提供輔助支持,利用模型對安全數據的理解為提供輔助決策的候選方案,并

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論