怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類_第1頁
怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類_第2頁
怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類_第3頁
怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類_第4頁
怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第怎么通過python模糊匹配算法對兩個(gè)excel表格內(nèi)容歸類一、問題描述

在實(shí)習(xí)的時(shí)候,需要將兩個(gè)表格的內(nèi)容進(jìn)行匹配分類,比如兩個(gè)不同的工程項(xiàng)目針對的對象都是A,那么就需要將這兩個(gè)工程項(xiàng)目歸類到A當(dāng)中,而這當(dāng)中的工程項(xiàng)目和施工對象數(shù)量都還挺多的,因此想著寫個(gè)程序來自動(dòng)將它們歸類起來,這樣可以減少很大一部分的工作量。

二、運(yùn)用方法

由于兩個(gè)表格中擁有相似的關(guān)鍵詞,即一個(gè)表格的內(nèi)容形式為為A工程項(xiàng)目,另一個(gè)表格的內(nèi)容形式為A單位,那么我就需要將其中的A這個(gè)關(guān)鍵詞相匹配就能夠篩選出來了。在此問題中,我采用了模糊匹配算法來實(shí)現(xiàn)目標(biāo),而這個(gè)算法并非唯一的可行方案。

三、代碼編寫

注:這里我們導(dǎo)入了difflib庫,用于使用模糊匹配算法;xlwt庫,用于導(dǎo)出excel表格

首先我們導(dǎo)入兩個(gè)需要處理的excel表格。

df1=pd.read_excel(rD:\雜貨\項(xiàng)目.xlsx,sheet_name=Sheet1)

df2=pd.read_excel(rD:\雜貨\項(xiàng)目2.xlsx,sheet_name=Sheet1)#導(dǎo)入兩個(gè)需要處理的excel表格

兩個(gè)表格的內(nèi)容形式大致如上。而我的需求是將這兩個(gè)表格相關(guān)的工程項(xiàng)目匹配歸類。

再將我們所要處理的兩列數(shù)據(jù)放入一個(gè)列表當(dāng)中。

foriindf1[XXXXXX改造]:#將這兩列的數(shù)據(jù)存入list1和list2兩個(gè)列表中

list1.append(i)

forjindf2[XXXXXX新改]:

list2.append(j)

通過模糊匹配算法,將list2中的數(shù)據(jù)內(nèi)容與list1中的數(shù)據(jù)內(nèi)容一一匹配。

forninrange(len(list2)):#通過模糊匹配算法,將list2與list1中的數(shù)據(jù)一一匹配,設(shè)置近似度為42%,得到匹配結(jié)果res

query_word=str(list2[n])

res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)

res=.join(res)

listx.append(res)

需要注意的是,該處調(diào)用了difflib庫中的get_close_matches(query_word,list1,n,cutoff)方法,其中的query_word為被匹配的字符串;list1為要匹配的字符串列表;n為前topn個(gè)最佳匹配反回,我將其設(shè)置為1;cutoff為匹配度大小,為[0,1]的浮點(diǎn)數(shù),也可以稱為兩者的相似程度,這個(gè)就看個(gè)人需求和具體問題來設(shè)置,我將其相似程度設(shè)置為0.42則恰好能夠?qū)⑽宜枰ヅ涞膬蓚€(gè)表格的內(nèi)容都匹配成功。

由于res匹配出來的每一個(gè)結(jié)果都是是列表的形式,而我們想要將結(jié)果寫入新的表格當(dāng)中需要字符串形式的結(jié)果,因此使用res=.join(res)方法將列表轉(zhuǎn)換為字符串的形式,然后將字符串形式的結(jié)果放入listx列表當(dāng)中,以便于寫入新的excel表格。

由于擔(dān)心會(huì)存在匹配結(jié)果遺漏的情況出現(xiàn),因此我又將list1中的數(shù)據(jù)內(nèi)容與list2中的數(shù)據(jù)內(nèi)容一一匹配。

forminrange(len(list1)):#同上,將list1與list2的數(shù)據(jù)一一匹配

query_word=str(list1[m])

res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)

res=.join(res)

listy.append(res)

這時(shí)我將被匹配的字符串設(shè)置為list1中的字符串,要匹配的字符串列表設(shè)置為list2,其他參數(shù)一樣,相當(dāng)于說我先用表格1去匹配表格2,再用表格2去匹配表格1,這樣就能夠較好地解決遺漏的問題。

最后設(shè)置好新的excel表格的參數(shù)

workbook=xlwt.Workbook(encoding=utf-8)#設(shè)定好新的excel表格的參數(shù)

worksheet=workbook.add_sheet(test_sheet)

worksheet.write(0,0,label=XXX改造)#從第0行第0列開始輸入標(biāo)簽為XXX改造的數(shù)據(jù)

worksheet.write(0,1,label=XX金額)#從第0行第1列開始輸入標(biāo)簽為XX金額的數(shù)據(jù)

worksheet.write(0,2,label=XXX新改)

worksheet.write(0,3,label=XX金額)

worksheet.write(0,4,label=已XXX金額)

foriinrange(len(listx)):#寫入運(yùn)算出來的數(shù)據(jù)

worksheet.write(i+1,0,label=listx[i])

forjinrange(len(listy)):

worksheet.write(j+1,2,label=listy[j])

forkinrange(len(list1)):

worksheet.write(k+1,1,label=list3[k])

forlinrange(len(list2)):

worksheet.write(l+1,3,label=list4[l])

worksheet.write(l+1,4,label=list5[l])

workbook.save(rD:\雜貨\新項(xiàng)目6.xls)#導(dǎo)出excel表格

這里使用的向excel表格中寫入數(shù)據(jù)內(nèi)容的方法就不過多介紹,對于有一定處理excel經(jīng)驗(yàn)的人能夠很容易理解代碼的含義。

最后輸出的表格形式如下:

通過兩遍匹配,兩者相互匹配度都高的則會(huì)出對應(yīng)地出現(xiàn)在表格中,而只有單一匹配度高的,則出現(xiàn)了左邊有數(shù)據(jù)右邊沒有數(shù)據(jù),或者右邊有數(shù)據(jù)左邊沒有數(shù)據(jù)的情況。

四、代碼集合

importpandasaspd

importdifflib

importxlwt#導(dǎo)入庫

df1=pd.read_excel(rD:\雜貨\項(xiàng)目.xlsx,sheet_name=Sheet1)

df2=pd.read_excel(rD:\雜貨\項(xiàng)目2.xlsx,sheet_name=Sheet1)#導(dǎo)入兩個(gè)需要處理的excel表格

list1=[]#設(shè)置空列表,用于存儲2017年一列的數(shù)據(jù)

list2=[]#用于存儲2025年一列的數(shù)據(jù)

list3=list(df1[XX金額])#將excel表格中的列數(shù)據(jù)列表化

list4=list(df2[XX金額])

list5=list(df2[XXX金額])

listx=[]#用于存儲匹配結(jié)果的數(shù)據(jù)

listy=[]#同上

foriindf1[XXXXXXXXX改造]:#將這兩列的數(shù)據(jù)存入list1和list2兩個(gè)列表中

list1.append(i)

forjindf2[XXXXXXXXXXXXX新改]:

list2.append(j)

forninrange(len(list2)):#通過模糊匹配算法,將list2與list1中的數(shù)據(jù)一一匹配,設(shè)置近似度為42%,得到匹配結(jié)果res

query_word=str(list2[n])

res=difflib.get_close_matches(query_word,list1,1,cutoff=0.42)

res=.join(res)

listx.append(res)

forminrange(len(list1)):#同上,將list1與list2的數(shù)據(jù)一一匹配

query_word=str(list1[m])

res=difflib.get_close_matches(query_word,list2,1,cutoff=0.42)

res=.join(res)

listy.append(res)

workbook=xlwt.Workbook(encoding=utf-8)#設(shè)定好新的excel表格的參數(shù)

worksheet=workbook.add_sheet(test_sheet)

worksheet.write(0,0,label=XXXXXXXXX改造)

worksheet.write(0,1,label=XX金額)

worksheet.write(0,2,label=XXXXXXXXXXX新改)

worksheet.write(0,3,label=XX金額)

worksheet.write(0,4,label=XXX金額)

foriinrange(len(listx)):#寫入運(yùn)算出來的數(shù)據(jù)

worksheet.write(i+1,0,label=listx[i])

forjinrange(len(listy)):

worksheet.write(j+1,2,label=listy[j])

forkinrange(len(list1)):

worksheet.write(k+1,1,label=l

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論