怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類

上傳人：搞*** IP屬地：四川上傳時(shí)間：2025-05-11 格式：DOCX 頁數(shù)：6 大?。?7.56KB 積分：15 舉報(bào) 版權(quán)申訴

怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類_第2頁

怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類_第3頁

怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類_第4頁

怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類_第5頁

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類一、問題描述

在實(shí)習(xí)的時(shí)候，需要將兩個(gè)表格的內(nèi)容進(jìn)行匹配分類，比如兩個(gè)不同的工程項(xiàng)目針對的對象都是A，那么就需要將這兩個(gè)工程項(xiàng)目歸類到A當(dāng)中，而這當(dāng)中的工程項(xiàng)目和施工對象數(shù)量都還挺多的，因此想著寫個(gè)程序來自動(dòng)將它們歸類起來，這樣可以減少很大一部分的工作量。

二、運(yùn)用方法

由于兩個(gè)表格中擁有相似的關(guān)鍵詞，即一個(gè)表格的內(nèi)容形式為為A工程項(xiàng)目，另一個(gè)表格的內(nèi)容形式為A單位，那么我就需要將其中的A這個(gè)關(guān)鍵詞相匹配就能夠篩選出來了。在此問題中，我采用了模糊匹配算法來實(shí)現(xiàn)目標(biāo)，而這個(gè)算法并非唯一的可行方案。

三、代碼編寫

注：這里我們導(dǎo)入了difflib庫，用于使用模糊匹配算法；xlwt庫，用于導(dǎo)出excel表格

首先我們導(dǎo)入兩個(gè)需要處理的excel表格。

df1=pd.read_excel(rD:\雜貨\項(xiàng)目.xlsx,sheet_name=Sheet1)

df2=pd.read_excel(rD:\雜貨\項(xiàng)目2.xlsx,sheet_name=Sheet1)#導(dǎo)入兩個(gè)需要處理的excel表格

兩個(gè)表格的內(nèi)容形式大致如上。而我的需求是將這兩個(gè)表格相關(guān)的工程項(xiàng)目匹配歸類。

再將我們所要處理的兩列數(shù)據(jù)放入一個(gè)列表當(dāng)中。

foriindf1[XXXXXX改造]:#將這兩列的數(shù)據(jù)存入list1和list2兩個(gè)列表中

list1.append(i)

forjindf2[XXXXXX新改]:

list2.append(j)

通過模糊匹配算法，將list2中的數(shù)據(jù)內(nèi)容與list1中的數(shù)據(jù)內(nèi)容一一匹配。

forninrange(len(list2)):#通過模糊匹配算法，將list2與list1中的數(shù)據(jù)一一匹配，設(shè)置近似度為42%，得到匹配結(jié)果res

query_word=str(list2[n])

res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)

res=.join(res)

listx.append(res)

需要注意的是，該處調(diào)用了difflib庫中的get_close_matches(query_word,list1,n,cutoff)方法，其中的query_word為被匹配的字符串；list1為要匹配的字符串列表；n為前topn個(gè)最佳匹配反回，我將其設(shè)置為1；cutoff為匹配度大小，為[0,1]的浮點(diǎn)數(shù)，也可以稱為兩者的相似程度，這個(gè)就看個(gè)人需求和具體問題來設(shè)置，我將其相似程度設(shè)置為0.42則恰好能夠?qū)⑽宜枰ヅ涞膬蓚€(gè)表格的內(nèi)容都匹配成功。

由于res匹配出來的每一個(gè)結(jié)果都是是列表的形式，而我們想要將結(jié)果寫入新的表格當(dāng)中需要字符串形式的結(jié)果，因此使用res=.join(res)方法將列表轉(zhuǎn)換為字符串的形式，然后將字符串形式的結(jié)果放入listx列表當(dāng)中，以便于寫入新的excel表格。

由于擔(dān)心會(huì)存在匹配結(jié)果遺漏的情況出現(xiàn)，因此我又將list1中的數(shù)據(jù)內(nèi)容與list2中的數(shù)據(jù)內(nèi)容一一匹配。

forminrange(len(list1)):#同上，將list1與list2的數(shù)據(jù)一一匹配

query_word=str(list1[m])

res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)

res=.join(res)

listy.append(res)

這時(shí)我將被匹配的字符串設(shè)置為list1中的字符串，要匹配的字符串列表設(shè)置為list2，其他參數(shù)一樣，相當(dāng)于說我先用表格1去匹配表格2，再用表格2去匹配表格1，這樣就能夠較好地解決遺漏的問題。

最后設(shè)置好新的excel表格的參數(shù)

workbook=xlwt.Workbook(encoding=utf-8)#設(shè)定好新的excel表格的參數(shù)

worksheet=workbook.add_sheet(test_sheet)

worksheet.write(0,0,label=XXX改造)#從第0行第0列開始輸入標(biāo)簽為XXX改造的數(shù)據(jù)

worksheet.write(0,1,label=XX金額)#從第0行第1列開始輸入標(biāo)簽為XX金額的數(shù)據(jù)

worksheet.write(0,2,label=XXX新改)

worksheet.write(0,3,label=XX金額)

worksheet.write(0,4,label=已XXX金額)

foriinrange(len(listx)):#寫入運(yùn)算出來的數(shù)據(jù)

worksheet.write(i+1,0,label=listx[i])

forjinrange(len(listy)):

worksheet.write(j+1,2,label=listy[j])

forkinrange(len(list1)):

worksheet.write(k+1,1,label=list3[k])

forlinrange(len(list2)):

worksheet.write(l+1,3,label=list4[l])

worksheet.write(l+1,4,label=list5[l])

workbook.save(rD:\雜貨\新項(xiàng)目6.xls)#導(dǎo)出excel表格

這里使用的向excel表格中寫入數(shù)據(jù)內(nèi)容的方法就不過多介紹，對于有一定處理excel經(jīng)驗(yàn)的人能夠很容易理解代碼的含義。

最后輸出的表格形式如下：

通過兩遍匹配，兩者相互匹配度都高的則會(huì)出對應(yīng)地出現(xiàn)在表格中，而只有單一匹配度高的，則出現(xiàn)了左邊有數(shù)據(jù)右邊沒有數(shù)據(jù)，或者右邊有數(shù)據(jù)左邊沒有數(shù)據(jù)的情況。

四、代碼集合

importpandasaspd

importdifflib

importxlwt#導(dǎo)入庫

df1=pd.read_excel(rD:\雜貨\項(xiàng)目.xlsx,sheet_name=Sheet1)

df2=pd.read_excel(rD:\雜貨\項(xiàng)目2.xlsx,sheet_name=Sheet1)#導(dǎo)入兩個(gè)需要處理的excel表格

list1=[]#設(shè)置空列表，用于存儲2017年一列的數(shù)據(jù)

list2=[]#用于存儲2025年一列的數(shù)據(jù)

list3=list(df1[XX金額])#將excel表格中的列數(shù)據(jù)列表化

list4=list(df2[XX金額])

list5=list(df2[XXX金額])

listx=[]#用于存儲匹配結(jié)果的數(shù)據(jù)

listy=[]#同上

foriindf1[XXXXXXXXX改造]:#將這兩列的數(shù)據(jù)存入list1和list2兩個(gè)列表中

list1.append(i)

forjindf2[XXXXXXXXXXXXX新改]:

list2.append(j)

forninrange(len(list2)):#通過模糊匹配算法，將list2與list1中的數(shù)據(jù)一一匹配，設(shè)置近似度為42%，得到匹配結(jié)果res

query_word=str(list2[n])

res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)

res=.join(res)

listx.append(res)

forminrange(len(list1)):#同上，將list1與list2的數(shù)據(jù)一一匹配

query_word=str(list1[m])

res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)

res=.join(res)

listy.append(res)

workbook=xlwt.Workbook(encoding=utf-8)#設(shè)定好新的excel表格的參數(shù)

worksheet=workbook.add_sheet(test_sheet)

worksheet.write(0,0,label=XXXXXXXXX改造)

worksheet.write(0,1,label=XX金額)

worksheet.write(0,2,label=XXXXXXXXXXX新改)

worksheet.write(0,3,label=XX金額)

worksheet.write(0,4,label=XXX金額)

foriinrange(len(listx)):#寫入運(yùn)算出來的數(shù)據(jù)

worksheet.write(i+1,0,label=listx[i])

forjinrange(len(listy)):

worksheet.write(j+1,2,label=listy[j])

forkinrange(len(list1)):

worksheet.write(k+1,1,label=l

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類

文檔簡介

溫馨提示

最新文檔

評論

怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔