版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類一、問題描述
在實(shí)習(xí)的時(shí)候,需要將兩個(gè)表格的內(nèi)容進(jìn)行匹配分類,比如兩個(gè)不同的工程項(xiàng)目針對的對象都是A,那么就需要將這兩個(gè)工程項(xiàng)目歸類到A當(dāng)中,而這當(dāng)中的工程項(xiàng)目和施工對象數(shù)量都還挺多的,因此想著寫個(gè)程序來自動(dòng)將它們歸類起來,這樣可以減少很大一部分的工作量。
二、運(yùn)用方法
由于兩個(gè)表格中擁有相似的關(guān)鍵詞,即一個(gè)表格的內(nèi)容形式為為A工程項(xiàng)目,另一個(gè)表格的內(nèi)容形式為A單位,那么我就需要將其中的A這個(gè)關(guān)鍵詞相匹配就能夠篩選出來了。在此問題中,我采用了模糊匹配算法來實(shí)現(xiàn)目標(biāo),而這個(gè)算法并非唯一的可行方案。
三、代碼編寫
注:這里我們導(dǎo)入了difflib庫,用于使用模糊匹配算法;xlwt庫,用于導(dǎo)出excel表格
首先我們導(dǎo)入兩個(gè)需要處理的excel表格。
df1=pd.read_excel(rD:\雜貨\項(xiàng)目.xlsx,sheet_name=Sheet1)
df2=pd.read_excel(rD:\雜貨\項(xiàng)目2.xlsx,sheet_name=Sheet1)#導(dǎo)入兩個(gè)需要處理的excel表格
兩個(gè)表格的內(nèi)容形式大致如上。而我的需求是將這兩個(gè)表格相關(guān)的工程項(xiàng)目匹配歸類。
再將我們所要處理的兩列數(shù)據(jù)放入一個(gè)列表當(dāng)中。
foriindf1[XXXXXX改造]:#將這兩列的數(shù)據(jù)存入list1和list2兩個(gè)列表中
list1.append(i)
forjindf2[XXXXXX新改]:
list2.append(j)
通過模糊匹配算法,將list2中的數(shù)據(jù)內(nèi)容與list1中的數(shù)據(jù)內(nèi)容一一匹配。
forninrange(len(list2)):#通過模糊匹配算法,將list2與list1中的數(shù)據(jù)一一匹配,設(shè)置近似度為42%,得到匹配結(jié)果res
query_word=str(list2[n])
res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)
res=.join(res)
listx.append(res)
需要注意的是,該處調(diào)用了difflib庫中的get_close_matches(query_word,list1,n,cutoff)方法,其中的query_word為被匹配的字符串;list1為要匹配的字符串列表;n為前topn個(gè)最佳匹配反回,我將其設(shè)置為1;cutoff為匹配度大小,為[0,1]的浮點(diǎn)數(shù),也可以稱為兩者的相似程度,這個(gè)就看個(gè)人需求和具體問題來設(shè)置,我將其相似程度設(shè)置為0.42則恰好能夠?qū)⑽宜枰ヅ涞膬蓚€(gè)表格的內(nèi)容都匹配成功。
由于res匹配出來的每一個(gè)結(jié)果都是是列表的形式,而我們想要將結(jié)果寫入新的表格當(dāng)中需要字符串形式的結(jié)果,因此使用res=.join(res)方法將列表轉(zhuǎn)換為字符串的形式,然后將字符串形式的結(jié)果放入listx列表當(dāng)中,以便于寫入新的excel表格。
由于擔(dān)心會(huì)存在匹配結(jié)果遺漏的情況出現(xiàn),因此我又將list1中的數(shù)據(jù)內(nèi)容與list2中的數(shù)據(jù)內(nèi)容一一匹配。
forminrange(len(list1)):#同上,將list1與list2的數(shù)據(jù)一一匹配
query_word=str(list1[m])
res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)
res=.join(res)
listy.append(res)
這時(shí)我將被匹配的字符串設(shè)置為list1中的字符串,要匹配的字符串列表設(shè)置為list2,其他參數(shù)一樣,相當(dāng)于說我先用表格1去匹配表格2,再用表格2去匹配表格1,這樣就能夠較好地解決遺漏的問題。
最后設(shè)置好新的excel表格的參數(shù)
workbook=xlwt.Workbook(encoding=utf-8)#設(shè)定好新的excel表格的參數(shù)
worksheet=workbook.add_sheet(test_sheet)
worksheet.write(0,0,label=XXX改造)#從第0行第0列開始輸入標(biāo)簽為XXX改造的數(shù)據(jù)
worksheet.write(0,1,label=XX金額)#從第0行第1列開始輸入標(biāo)簽為XX金額的數(shù)據(jù)
worksheet.write(0,2,label=XXX新改)
worksheet.write(0,3,label=XX金額)
worksheet.write(0,4,label=已XXX金額)
foriinrange(len(listx)):#寫入運(yùn)算出來的數(shù)據(jù)
worksheet.write(i+1,0,label=listx[i])
forjinrange(len(listy)):
worksheet.write(j+1,2,label=listy[j])
forkinrange(len(list1)):
worksheet.write(k+1,1,label=list3[k])
forlinrange(len(list2)):
worksheet.write(l+1,3,label=list4[l])
worksheet.write(l+1,4,label=list5[l])
workbook.save(rD:\雜貨\新項(xiàng)目6.xls)#導(dǎo)出excel表格
這里使用的向excel表格中寫入數(shù)據(jù)內(nèi)容的方法就不過多介紹,對于有一定處理excel經(jīng)驗(yàn)的人能夠很容易理解代碼的含義。
最后輸出的表格形式如下:
通過兩遍匹配,兩者相互匹配度都高的則會(huì)出對應(yīng)地出現(xiàn)在表格中,而只有單一匹配度高的,則出現(xiàn)了左邊有數(shù)據(jù)右邊沒有數(shù)據(jù),或者右邊有數(shù)據(jù)左邊沒有數(shù)據(jù)的情況。
四、代碼集合
importpandasaspd
importdifflib
importxlwt#導(dǎo)入庫
df1=pd.read_excel(rD:\雜貨\項(xiàng)目.xlsx,sheet_name=Sheet1)
df2=pd.read_excel(rD:\雜貨\項(xiàng)目2.xlsx,sheet_name=Sheet1)#導(dǎo)入兩個(gè)需要處理的excel表格
list1=[]#設(shè)置空列表,用于存儲2017年一列的數(shù)據(jù)
list2=[]#用于存儲2025年一列的數(shù)據(jù)
list3=list(df1[XX金額])#將excel表格中的列數(shù)據(jù)列表化
list4=list(df2[XX金額])
list5=list(df2[XXX金額])
listx=[]#用于存儲匹配結(jié)果的數(shù)據(jù)
listy=[]#同上
foriindf1[XXXXXXXXX改造]:#將這兩列的數(shù)據(jù)存入list1和list2兩個(gè)列表中
list1.append(i)
forjindf2[XXXXXXXXXXXXX新改]:
list2.append(j)
forninrange(len(list2)):#通過模糊匹配算法,將list2與list1中的數(shù)據(jù)一一匹配,設(shè)置近似度為42%,得到匹配結(jié)果res
query_word=str(list2[n])
res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)
res=.join(res)
listx.append(res)
forminrange(len(list1)):#同上,將list1與list2的數(shù)據(jù)一一匹配
query_word=str(list1[m])
res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)
res=.join(res)
listy.append(res)
workbook=xlwt.Workbook(encoding=utf-8)#設(shè)定好新的excel表格的參數(shù)
worksheet=workbook.add_sheet(test_sheet)
worksheet.write(0,0,label=XXXXXXXXX改造)
worksheet.write(0,1,label=XX金額)
worksheet.write(0,2,label=XXXXXXXXXXX新改)
worksheet.write(0,3,label=XX金額)
worksheet.write(0,4,label=XXX金額)
foriinrange(len(listx)):#寫入運(yùn)算出來的數(shù)據(jù)
worksheet.write(i+1,0,label=listx[i])
forjinrange(len(listy)):
worksheet.write(j+1,2,label=listy[j])
forkinrange(len(list1)):
worksheet.write(k+1,1,label=l
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大秦醫(yī)院面試題及答案
- C語言基礎(chǔ)選擇測試題含多知識點(diǎn)考察及答案
- 感控護(hù)士院感防控知識試題及答案
- 新疆成人考試真題及答案
- 成都三基試題題庫附答案
- 市事業(yè)單位招聘考試公共基礎(chǔ)知識試題題庫附答案詳解
- 輸血三基考試試題及答案
- 三級醫(yī)院護(hù)士招聘面試題含答案
- 嵌入式開發(fā)面試題及答案
- 河南專升本試題及答案
- 起重設(shè)備安全使用指導(dǎo)方案
- 江蘇省揚(yáng)州市區(qū)2025-2026學(xué)年五年級上學(xué)期數(shù)學(xué)期末試題一(有答案)
- 干部履歷表(中共中央組織部2015年制)
- GB/T 5657-2013離心泵技術(shù)條件(Ⅲ類)
- GB/T 3518-2008鱗片石墨
- GB/T 17622-2008帶電作業(yè)用絕緣手套
- GB/T 1041-2008塑料壓縮性能的測定
- 400份食物頻率調(diào)查問卷F表
- 滑坡地質(zhì)災(zāi)害治理施工
- 實(shí)驗(yàn)動(dòng)物從業(yè)人員上崗證考試題庫(含近年真題、典型題)
- 可口可樂-供應(yīng)鏈管理
評論
0/150
提交評論