版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
#電商知識圖譜建設(shè)及大模型應(yīng)用探索01電商知識圖譜概覽02電商知識圖譜構(gòu)建03電商知識圖譜應(yīng)用04知識圖譜與大模型探索目錄
CONTENT#01電商知識圖譜概覽電商平臺為什么需要知識圖譜Product商品Buyer買家Seller賣家EcommercePlatform電商平臺賣家與買家的語言表達(dá)習(xí)慣不同,如何將意圖與商品匹配起來?不同賣家之間的語言表達(dá)習(xí)慣不同,如何將平臺上的商品統(tǒng)一管理?不同市場的語言不同,跨境電商平臺如何對齊不同市場商品,高效管理?電商平臺為什么需要知識圖譜深度學(xué)習(xí)或大模型優(yōu)點(diǎn):在很多任務(wù)上效果可觀泛化能力強(qiáng)缺點(diǎn):隱式模型,缺乏可解釋性需要海量數(shù)據(jù)和強(qiáng)大算力存在模型幻覺問題知識圖譜優(yōu)點(diǎn)將異構(gòu)數(shù)據(jù)源轉(zhuǎn)換為結(jié)構(gòu)化知識:實(shí)體,關(guān)系,屬性可解釋性好缺點(diǎn):構(gòu)建難度大泛化能力有限V.S.電商平臺為什么需要知識圖譜知識圖譜優(yōu)點(diǎn)將異構(gòu)數(shù)據(jù)源轉(zhuǎn)換為結(jié)構(gòu)化知識可解釋性好缺點(diǎn):構(gòu)建難度大泛化能力有限賣家買家電商平臺用戶體驗(yàn)管理邏輯運(yùn)營成本同款商品橫向比較不同商品相同維度對比不同維度補(bǔ)足多種維度挖掘商品商品多元表達(dá)各異數(shù)據(jù)異構(gòu)層級不同店鋪內(nèi)商品管理同市場內(nèi)同款商品對比同市場內(nèi)不同商品補(bǔ)足跨市場商品輸出同類商品聚合管理跨市場商品對比和輸出同類和跨類別商品效率分析品類上新、招商統(tǒng)一的商品知識圖譜電商平臺知識圖譜多維度:商品賣家買家多層級:類目標(biāo)品跨信息源:市場場景商品+評論#02電商知識圖譜構(gòu)建電商知識圖譜構(gòu)建難點(diǎn)來源多:賣家商品信息買家搜索、評論表達(dá)方式多樣:不同賣家表述習(xí)慣不同不同語言表達(dá)方式不同商品展現(xiàn)方式不同:文本、圖片東南亞常用表達(dá)
錯(cuò)誤拼寫信息缺失信息錯(cuò)誤信息冗余特定類別需領(lǐng)域知識鑒定信息準(zhǔn)確性信息多元Shopee
為例:數(shù)十億商品8個(gè)市場6種語言質(zhì)量參差不齊依賴領(lǐng)域知識數(shù)據(jù)量大保質(zhì)信息領(lǐng)域知識電商知識圖譜構(gòu)建基本框架電商知識圖譜構(gòu)建方法-數(shù)據(jù)源TitleVariationSpecificationImageDescriptionComment電商知識圖譜構(gòu)建方法-信息抽取電商知識圖譜的基石:Ontology定義和結(jié)構(gòu)構(gòu)建方法:專家領(lǐng)域知識數(shù)據(jù)主動(dòng)挖掘Ontology結(jié)構(gòu):基礎(chǔ)定義層類別:L1-L5屬性:關(guān)鍵屬性,銷售屬性組合定義層:場景:多類目組合標(biāo)簽:類目+屬性,或多屬性,寬松定義標(biāo)品:類目+屬性,嚴(yán)格定義電商知識圖譜構(gòu)建方法-信息抽取信息抽取-類目信息質(zhì)量參差不齊:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗(yàn)證多語言適配:不同語言實(shí)體拉齊E.g.1
首圖圖片嘈雜,很難分辨商品主體,選擇商品明確的圖片作為模型輸入E.g.1
單從圖片看可能屬于樂器類目,但從標(biāo)題中可以明確知道是兒童玩具Replace電商知識圖譜構(gòu)建方法-信息抽取信息抽取-類目信息質(zhì)量參差不齊:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗(yàn)證多語言適配:不同語言實(shí)體拉齊Image
Quality
ScoreImage
resolutionObject
NumberTextBackground…Text
Quality
ScoreRule-engine:
token
number
intitleMulti-task
cross
check:
classification
andkeywords
detection…Item
TitleSentence
Embedding......TrmTrmTrmTrmClassifierAttention
weightsInput
categoryInput
Keyphrase(s)電商知識圖譜構(gòu)建方法-信息抽取Li,
Junnan,
et
al.
"Align
before
fuse:
Vision
and
language
representation
learning
with
momentum
distillation."
Advances
inneural
informationprocessing
systems
34
(2021):9694-9705.Oquab,Maxime,et
al.
"Dinov2:Learningrobust
visual
featureswithoutsupervision."arXiv
preprintarXiv:2304.07193(2023).信息抽取-類目信息質(zhì)量參差不齊:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗(yàn)證多語言適配:不同語言實(shí)體拉齊Labse-DinoV2-Vit
improves
~5.9%accuracy
than
Albef
on
hard
categories,e.g.
Health,
Gaming,
Stationary,
etc.電商知識圖譜構(gòu)建方法-信息抽取信息抽取-類目信息質(zhì)量校驗(yàn):文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗(yàn)證多語言適配:不同語言實(shí)體拉齊LabseLlamaFlan-T5MiniLMEncoderDecoderEncoderDecoderRaffel,
Colin,
et
al."Exploringthe
limits
of
transferlearningwith
aunifiedtext-to-texttransformer."Journalof
machinelearningresearch
21.140
(2020):
1-67.Touvron,
Hugo,
et
al.
"Llama
2:
Open
foundation
and
fine-tuned
chat
models."
arXiv
preprint
arXiv:2307.09288
(2023).Feng,Fangxiaoyu,
et
al.
"Language-agnostic
BERT
sentenceembedding."
arXivpreprint
arXiv:2007.01852(2020).Wang,
Wenhui,etal."Minilmv2:
Multi-headself-attention
relation
distillation
forcompressing
pretrained
transformers."arXivpreprint
arXiv:2012.15828
(2020).電商知識圖譜構(gòu)建方法-知識融合1.
Li,
Junnan,
et
al.
"Blip-2:
Bootstrapping
language-image
pre-training
with
frozen
image
encoders
and
largelanguage
models."
International
conference
onmachine
learning.
PMLR,2023.Text
Image
Alignment知識融合-實(shí)體消歧:類目:文本和圖片商品沖突屬性:一個(gè)屬性抽取了多個(gè)屬性值,例如e.g.,['red',Color,title],['black',Color,description]多個(gè)屬性值抽取了相同屬性值:e.g.,['gold',Color,title],['gold',Material,title]屬性值邊界跨不同屬性:e.g.,['red',Color,title],['red
mi',Brand,title]tshirt
orshort?top
->
tshirt電商知識圖譜構(gòu)建方法-知識融合/thunlp/OpenPromptRaffel,
Colin,
et
al."Exploringthe
limits
of
transfer
learningwith
a
unifiedtext-to-texttransformer."
Journalof
machine
learning
research
21.140
(2020):
1-67.Gen-T5
improve
~12%
accuracy
thanBERT-based
NER
onambiguousattribute
value
extraction.知識融合-實(shí)體消歧:類目:文本和圖片商品沖突屬性:一個(gè)屬性抽取了多個(gè)屬性值,例如e.g.,['red',Color,title],['black',Color,description]多個(gè)屬性抽取了相同屬性值:e.g.,['gold',Color,title],['gold',Material,title]屬性值邊界跨不同屬性:e.g.,['red',Color,title],['red
mi',Brand,title]電商知識圖譜構(gòu)建方法-知識融合知識融合-實(shí)體對齊:屬性:拼寫錯(cuò)誤:edit
distance,semantic
similarity,common
wrong
case不同語言:multi-lingual
embedding
similarity,MTcross
validation同近義詞:e.g.color,clear
v.s.transparent不同表達(dá):不同單位計(jì)算,e.g.50cm
v.s.0.5m標(biāo)準(zhǔn)值選擇:popularity
(item
occurrence,
query
occurrence)perplexity
(n-gram,
pretrained
multilingual
GPT)standard
score
(standard
value
model)return
the
top
one
as
the
standard
value
using
combinedstandard
score.同義詞判斷電商知識圖譜構(gòu)建方法-知識加工Model:iphone
14Model:iphone
15Model:ipad
miniBrand:
AppleModel:Galaxy
note
4Brand:
XiaomiModel:iwatch
series
3知識加工-信息推理:屬性商品信息不全:通過已有類目屬性信息做推理補(bǔ)全知識加工-不一致檢測:屬性商品信息錯(cuò)誤:屬性值組合沖突方法:AMIEKGE
ReasoningShi,
Baoxu,
and
Tim
Weninger.
"Open-world
knowledge
graph
completion."
AAAI
2018.Yao,Zhen,
et
al.
"Analogical
inference
enhanced
knowledge
graph
embedding."
Proceedings
of
the
AAAIConference
on
Artificial
Intelligence.
Vol.
37.
No.
4.
2023.AnalogicalReasoningInductiveReasoning#03電商知識圖譜應(yīng)用電商知識圖譜應(yīng)用ToC:知識圖譜與流量應(yīng)用結(jié)合RecommendationSearchHomepageLanding
PageVLP
Search:Query
屬性、標(biāo)簽識別Item
屬性、標(biāo)簽識別Query-Item
屬性、標(biāo)簽對齊應(yīng)用方式:補(bǔ)充召回提升相關(guān)性效果:轉(zhuǎn)化效率明顯提升HomepageDaily
Discovery:細(xì)粒度品類召回
細(xì)粒度品類排序打散,增加商品豐富度應(yīng)用方式:補(bǔ)充召回提升多樣性效果:用戶興趣度明顯提升電商知識圖譜應(yīng)用ToB:知識圖譜與商家、運(yùn)營結(jié)合Seller
Center,CMT,Pricing
Center等商家系統(tǒng)選品系統(tǒng)知識推理做不一致檢測并推薦給賣家修改將不同類目、屬性、標(biāo)簽等跟商品關(guān)聯(lián),并為大促活動(dòng)等做商品篩選#04知識圖譜與大模型探索知識圖譜與大模型Pan,
Shirui,
et
al.
"Unifying
large
language
models
andknowledge
graphs:
A
roadmap."IEEE
Transactions
on
Knowledge
and
Data
Engineering
(2024).現(xiàn)狀:知識圖譜做大模型輸入大模型做知識圖譜輸入大模型和知識圖譜協(xié)同訓(xùn)練問題:知識圖譜通常很難覆蓋十分全面,借助大模型根據(jù)不斷更新的知識自動(dòng)補(bǔ)全知識圖譜仍然是個(gè)難點(diǎn)借助大模型自動(dòng)補(bǔ)全的信息準(zhǔn)確性校驗(yàn)也有待研究電商知識圖譜與大模型電商知識圖譜構(gòu)建與大模型結(jié)合大模型和知識圖譜協(xié)同訓(xùn)練基于RAG
及時(shí)更新LLM
以及KG推理速度優(yōu)化多模態(tài)知識圖譜Fan,
Siqi,
et
al.
"Not
all
Layers
of
LLMs
are
Necessary
during
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年安全員A證考試預(yù)測試題附完整答案詳解【易錯(cuò)題】
- 企業(yè)文檔管理與歸檔制度
- 2025年二級建造師施工管理真題答案解析
- 2026年普洱市墨江縣中醫(yī)醫(yī)院招聘編外人員(11人)備考考試試題及答案解析
- 2026江西銅業(yè)鑫瑞科技有限公司第二批次校園招聘3人參考考試題庫及答案解析
- 2026麗水職業(yè)技術(shù)學(xué)院招聘專業(yè)技術(shù)人員19人(一)筆試備考試題及答案解析
- 2026年漢中市中醫(yī)醫(yī)院招聘(9人)考試備考題庫及答案解析
- 2026年河北廊坊霸州城市投資集團(tuán)有限公司第一次公開招聘工作人員8名備考考試題庫及答案解析
- 2026年度煙臺市芝罘區(qū)事業(yè)單位公開招聘工作人員(73人)參考考試題庫及答案解析
- 2026廣東韶關(guān)市消防救援支隊(duì)招聘政府專職消防文員(財(cái)務(wù)崗位)1人考試備考試題及答案解析
- GJB3243A-2021電子元器件表面安裝要求
- 學(xué)堂在線 雨課堂 學(xué)堂云 工程倫理 章節(jié)測試答案
- 足球課教學(xué)設(shè)計(jì)骨干培訓(xùn)
- 生物-四川省巴中市普通高中2022級(2025屆)高三下學(xué)期“一診”考試(巴中一診)試題和答案
- 馬口鐵印鐵制罐項(xiàng)目可行性研究報(bào)告
- 22G101三維彩色立體圖集
- GB/T 5578-2024固定式發(fā)電用汽輪機(jī)規(guī)范
- 《空氣源熱泵供暖工程技術(shù)規(guī)程》
- 河北省唐山市2023-2024學(xué)年高一上學(xué)期1月期末考試化學(xué)試題(含答案解析)
- 附件5:安全爬梯連墻件計(jì)算書
- 提高人行道透水磚鋪裝平整度穩(wěn)固性試驗(yàn)合格率
評論
0/150
提交評論