本發(fā)明涉及海洋科學(xué)與地質(zhì)學(xué),具體涉及一種融合多維度測試數(shù)據(jù)的海砂溯源大數(shù)據(jù)建模方法。
背景技術(shù):
1、隨著沿海地區(qū)經(jīng)濟建設(shè)的快速發(fā)展,海砂作為重要的建筑材料和填海造地材料,其需求量急劇增加,然而,非法盜采海砂現(xiàn)象頻發(fā),嚴(yán)重破壞了海洋生態(tài)環(huán)境和海岸帶地質(zhì)安全,因此,建立有效的海砂溯源體系,對海砂資源進行科學(xué)管理和保護,成為迫切需求,但是海砂溯源研究涉及的數(shù)據(jù)來源廣泛,包括海洋地質(zhì)調(diào)查、海砂資源調(diào)查等多個項目,這些數(shù)據(jù)在時間、空間、測試要素等方面存在顯著差異,而隨著大數(shù)據(jù)、人工智能等技術(shù)的快速發(fā)展,為海砂溯源研究提供了新的思路和方法。
2、現(xiàn)有海砂溯源技術(shù)往往依賴于單一或少數(shù)幾個測試指標(biāo),這種單一維度的分析方法難以全面反映海砂的復(fù)雜來源特征,尤其是在面對來自不同海域但某些指標(biāo)相似的海砂時,溯源準(zhǔn)確性會大幅下降,而且現(xiàn)有溯源模型可能過于簡單,無法捕捉海砂來源的復(fù)雜模式,或者在處理新數(shù)據(jù)時泛化能力不足,因此,如何融合海砂溯源的多維度測試數(shù)據(jù),全面反映海砂的物理、化學(xué)性質(zhì),并構(gòu)建更精確的模型結(jié)構(gòu),有效提取數(shù)據(jù)中的深層次特征,確保構(gòu)建的溯源模型具備較高的準(zhǔn)確性和泛化性,是本發(fā)明要解決的問題,為此,現(xiàn)提出一種融合多維度測試數(shù)據(jù)的海砂溯源大數(shù)據(jù)建模方法。
技術(shù)實現(xiàn)思路
1、本發(fā)明目的在于提供一種融合多維度測試數(shù)據(jù)的海砂溯源大數(shù)據(jù)建模方法,以解決上述背景技術(shù)中提出的問題。
2、為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:
3、一種融合多維度測試數(shù)據(jù)的海砂溯源大數(shù)據(jù)建模方法,包括以下步驟:
4、步驟1,收集歷年海洋地質(zhì)調(diào)查和海砂資源調(diào)查等的多源數(shù)據(jù),整合粒度、地球化學(xué)、礦物等218種原始測試數(shù)據(jù),統(tǒng)一入庫;
5、步驟2,針對不同來源數(shù)據(jù)差異,清洗并篩選各區(qū)域共有的測試要素,處理缺失值與異常值,生成標(biāo)準(zhǔn)化數(shù)據(jù)集,確保數(shù)據(jù)質(zhì)量;
6、步驟3,基于標(biāo)準(zhǔn)化數(shù)據(jù)集,按11個海域標(biāo)簽匹配樣本坐標(biāo),生成帶地理標(biāo)簽的多維數(shù)據(jù)集;
7、步驟4,采用z-score標(biāo)準(zhǔn)化方法處理數(shù)值差異,篩除缺失指標(biāo)樣本,并利用smote技術(shù)平衡11個地理區(qū)域樣本,合成少數(shù)海域數(shù)據(jù),平衡類別分布,形成類別分布均衡的綜合數(shù)據(jù)集;
8、步驟5,z-score歸一化后按8:2分層抽樣,建立訓(xùn)練集與測試集,并行構(gòu)建隨機森林、支持向量機和深度神經(jīng)網(wǎng)絡(luò)模型,提取互補特征;
9、步驟6,以加權(quán)f1、混淆矩陣、特征重要性綜合遴選最優(yōu)模型,并持續(xù)迭代提升泛化性,形成最終溯源模型。
10、本發(fā)明技術(shù)方案的進一步改進在于:所述步驟1包括:
11、收集歷年海洋地質(zhì)調(diào)查和海砂資源調(diào)查的多源數(shù)據(jù),涵蓋不同調(diào)查項目、區(qū)域和時期,并對收集到的數(shù)據(jù)進行初步篩選,同時,記錄數(shù)據(jù)來源和采集時間,以便追溯數(shù)據(jù)的原始背景;
12、對處理后的多源數(shù)據(jù)進行分析,針對其中的粒度、地球化學(xué)、礦物等218種原始測試數(shù)據(jù),依據(jù)數(shù)據(jù)類型和特征進行分類整合,并建立標(biāo)準(zhǔn)化的數(shù)據(jù)庫框架,將整合后的數(shù)據(jù)按照預(yù)設(shè)的數(shù)據(jù)庫結(jié)構(gòu)和規(guī)則統(tǒng)一入庫,同時,為每個數(shù)據(jù)項設(shè)置唯一標(biāo)識符,同時,建立數(shù)據(jù)備份機制,保障數(shù)據(jù)安全。
13、本發(fā)明技術(shù)方案的進一步改進在于:所述步驟2包括:
14、針對多源數(shù)據(jù)在測試要素、參數(shù)定義及測量方法上的差異,進行數(shù)據(jù)結(jié)構(gòu)解析與標(biāo)準(zhǔn)化對照,通過比對不同數(shù)據(jù)集的元數(shù)據(jù)文檔、變量命名規(guī)則及分析方法說明,識別各區(qū)域數(shù)據(jù)中重復(fù)出現(xiàn)的核心測試要素,進而篩選出所有區(qū)域共有的關(guān)鍵要素,建立統(tǒng)一的數(shù)據(jù)子集框架,同時剔除冗余或非通用變量;
15、對篩選后的共有要素數(shù)據(jù),檢測缺失值與異常值,其中,缺失值處理采用分層策略:若變量在全局?jǐn)?shù)據(jù)中缺失率超過預(yù)設(shè)的閾值,則標(biāo)記為高缺失變量,并評估是否剔除;若局部缺失,優(yōu)先采用空間或時間鄰近樣本的均值/中位數(shù)插補,異常值檢測結(jié)合統(tǒng)計方法與領(lǐng)域知識閾值,對超出預(yù)設(shè)合理范圍的數(shù)值進行復(fù)核,確認(rèn)錯誤后用鄰近有效值替換或按缺失處理,確保數(shù)據(jù)分布符合地質(zhì)規(guī)律;
16、通過多維度質(zhì)量檢查驗證處理效果,包括完整性、準(zhǔn)確性和一致性,并對通過驗證的數(shù)據(jù),統(tǒng)一單位、坐標(biāo)系及命名規(guī)范,生成標(biāo)準(zhǔn)化數(shù)據(jù)集,記錄處理日志,最終形成高質(zhì)量、可互操作的區(qū)域海洋地質(zhì)數(shù)據(jù)資源。
17、本發(fā)明技術(shù)方案的進一步改進在于:所述步驟3包括:
18、加載標(biāo)準(zhǔn)化數(shù)據(jù)集,從中提取每個樣本的地理坐標(biāo)信息,對坐標(biāo)進行標(biāo)準(zhǔn)化處理,去除異常值,并補充缺失的坐標(biāo)信息,生成包含樣本id、經(jīng)緯度的坐標(biāo)表;
19、基于國際海洋劃界協(xié)議,明確11個海域的地理范圍,通過多邊形矢量文件描述各海域邊界,定義每個海域的邊界坐標(biāo)范圍,將樣本坐標(biāo)與海域邊界進行匹配,根據(jù)坐標(biāo)位置將樣本分配到對應(yīng)的海域標(biāo)簽,其中,對于位于邊界附近的樣本,采用最近鄰算法確定其所屬海域,確保每個樣本都能準(zhǔn)確匹配到唯一的海域標(biāo)簽,進而建立海域標(biāo)簽與邊界的映射關(guān)系表;
20、將匹配好海域標(biāo)簽的樣本與標(biāo)準(zhǔn)化數(shù)據(jù)集中的測試數(shù)據(jù)進行整合,形成帶地理標(biāo)簽的多維數(shù)據(jù)集,并檢查數(shù)據(jù)集的完整性和一致性,使每個樣本的測試數(shù)據(jù)與海域標(biāo)簽準(zhǔn)確對應(yīng)。
21、本發(fā)明技術(shù)方案的進一步改進在于:所述對于位于邊界附近的樣本,采用最近鄰算法確定其所屬海域的具體過程為:
22、加載包含11個海域邊界的多邊形矢量文件,確保每個海域的邊界多邊形坐標(biāo)清晰明確,提取每個海域邊界的多邊形頂點坐標(biāo),形成邊界坐標(biāo)集合,并加載包含樣本id、經(jīng)緯度的坐標(biāo)表,篩選出位于海域邊界附近的樣本,即距離邊界小于預(yù)設(shè)的臨近閾值的樣本;
23、定義哈弗辛公式計算樣本點到海域邊界的距離,遍歷每個海域的邊界多邊形,對于每個邊界多邊形,遍歷其所有頂點,計算樣本點到每個頂點的距離,保留最小距離及其對應(yīng)的海域;
24、對于每個樣本點,比較其到所有海域邊界的最小距離,確定最近的海域,將樣本點分配到最近的海域,并記錄其海域標(biāo)簽;
25、若多個海域距離相同,即樣本點到多個海域的距離相同,采用面積權(quán)重的策略進行分配,其中,面積權(quán)重即選擇面積較大的海域,進而將確定的海域標(biāo)簽添加到樣本數(shù)據(jù)中,生成完整的帶地理標(biāo)簽的樣本數(shù)據(jù)。
26、本發(fā)明技術(shù)方案的進一步改進在于:所述樣本點到海域邊界的距離的計算公式,如下:
27、;
28、;
29、;
30、式中,d為兩點之間的距離,表示樣本點到海域邊界的距離,r為地球半徑,取值約為6371km,和是兩點的緯度,和是兩點的經(jīng)度,為緯度差,為經(jīng)度差;
31、所述樣本點到每個頂點的距離的計算公式,如下:
32、;
33、式中,為樣本點到每個頂點的距離,表示每個樣本點和每個海域i的邊界多邊形頂點之間的距離,和是樣本點的經(jīng)度和緯度,和是第i個海域第j個頂點的經(jīng)度和緯度。
34、本發(fā)明技術(shù)方案的進一步改進在于:所述步驟4包括:
35、對多維數(shù)據(jù)集中的所有數(shù)值型指標(biāo)進行z-score標(biāo)準(zhǔn)化處理,計算每個指標(biāo)的均值和標(biāo)準(zhǔn)差,并檢查每個樣本的指標(biāo)完整性,若任一關(guān)鍵指標(biāo)缺失,則篩除該樣本;
36、根據(jù)預(yù)分配的海域標(biāo)簽,統(tǒng)計11個地理區(qū)域的樣本數(shù)量,計算各類別占比,識別樣本分布不均衡問題,并通過可視化(堆疊柱狀圖)直觀展示類別差異,明確需合成的少數(shù)類海域,同時,保留多數(shù)類樣本的原始數(shù)據(jù),僅對少數(shù)類樣本進行過采樣處理,避免信息冗余;
37、針對少數(shù)類海域樣本,應(yīng)用smote算法生成合成數(shù)據(jù),對每個少數(shù)類樣本,計算其k近鄰(k=5),隨機選擇一個鄰近樣本,按線性插值生成新樣本,直至各類別樣本量達(dá)到預(yù)設(shè)平衡閾值,最終整合原始多數(shù)類樣本與合成少數(shù)類樣本,形成類別分布均衡的綜合數(shù)據(jù)集。
38、本發(fā)明技術(shù)方案的進一步改進在于:所述步驟5包括:
39、對z-score歸一化后的多維數(shù)據(jù)集進行分層抽樣,按照8:2的比例劃分訓(xùn)練集和測試集,劃分完成后,分別保存訓(xùn)練集和測試集,確保后續(xù)建模過程的數(shù)據(jù)獨立性,防止信息泄露;
40、基于劃分的訓(xùn)練集,并行構(gòu)建隨機森林、支持向量機和深度神經(jīng)網(wǎng)絡(luò)三種分類模型,其中,隨機森林通過集成多棵決策樹捕捉非線性特征交互,實現(xiàn)高準(zhǔn)確性和泛化能力;支持向量機利用核函數(shù)處理非線性問題,優(yōu)化分類邊界;深度神經(jīng)網(wǎng)絡(luò)通過多層神經(jīng)元提取復(fù)雜特征,學(xué)習(xí)數(shù)據(jù)深層結(jié)構(gòu);各模型獨立訓(xùn)練,提取互補特征,其中,隨機森林輸出特征重要性排序,支持向量機提供關(guān)鍵支持向量,深度神經(jīng)網(wǎng)絡(luò)提取隱藏層特征,整合提取的互補特征,形成綜合特征集,用于后續(xù)模型優(yōu)化和性能提升,增強模型對海砂溯源數(shù)據(jù)的理解和分類精度。
41、本發(fā)明技術(shù)方案的進一步改進在于:所述步驟6包括:
42、在測試集上獨立評估隨機森林、支持向量機、深度神經(jīng)網(wǎng)絡(luò)的性能,計算各模型的加權(quán)f1分?jǐn)?shù)(平衡多類別分類的精度與召回率),通過混淆矩陣分析模型對不同海域標(biāo)簽的誤分類模式,識別模型優(yōu)勢與短板,優(yōu)先淘汰加權(quán)f1顯著低于其他模型的基線方案,保留綜合性能最優(yōu)的2-3個候選模型;
43、提取候選模型的互補特征,包括隨機森林的特征重要性排序、支持向量機的關(guān)鍵支持向量、深度神經(jīng)網(wǎng)絡(luò)的隱藏層特征,基于特征重要性得分構(gòu)建加權(quán)綜合特征集,通過特征選擇算法降維并去除冗余信息,獲得優(yōu)化后的加權(quán)綜合特征集,進而利用優(yōu)化后的加權(quán)綜合特征集重新訓(xùn)練模型,對比融合前后模型的加權(quán)f1分?jǐn)?shù)和混淆矩陣變化,驗證特征整合對分類邊界和泛化能力的提升效果;
44、再次在測試集上評估優(yōu)化后模型的性能,結(jié)合加權(quán)f1、混淆矩陣的類別級表現(xiàn)及特征重要性穩(wěn)定性,遴選泛化性最強的模型作為最終溯源模型,若模型仍存在特定海域分類偏差,通過調(diào)整類別權(quán)重或增加對應(yīng)樣本進一步優(yōu)化。
45、由于采用了上述技術(shù)方案,本發(fā)明相對現(xiàn)有技術(shù)來說,取得的技術(shù)進步是:
46、本發(fā)明提供一種融合多維度測試數(shù)據(jù)的海砂溯源大數(shù)據(jù)建模方法,通過融合多維度測試數(shù)據(jù),包括粒度、地球化學(xué)、礦物等218種原始測試數(shù)據(jù),全面反映海砂的物理和化學(xué)特征,避免了單一指標(biāo)分析的局限性,能夠更準(zhǔn)確地識別海砂的來源,且多維度數(shù)據(jù)的整合使得模型能夠捕捉到海砂來源的復(fù)雜模式,從而在面對來自不同海域但某些指標(biāo)相似的海砂時,能夠?qū)崿F(xiàn)高精度的溯源。顯著提高溯源模型的準(zhǔn)確性和可靠性。
47、本發(fā)明提供一種融合多維度測試數(shù)據(jù)的海砂溯源大數(shù)據(jù)建模方法,通過z-score標(biāo)準(zhǔn)化處理和smote技術(shù)平衡樣本分布,有效解決數(shù)據(jù)中的量綱差異和類別不平衡問題,其中,標(biāo)準(zhǔn)化處理消除不同指標(biāo)之間的量綱差異,使得模型訓(xùn)練更加穩(wěn)定,smote技術(shù)則通過合成少數(shù)類樣本,平衡不同海域樣本的數(shù)量,避免了模型對多數(shù)類的過度擬合,顯著增強了模型的泛化能力,使其在處理新數(shù)據(jù)時能夠保持較高的準(zhǔn)確性和穩(wěn)定性,從而更好地適應(yīng)不同場景下的海砂溯源需求。
48、本發(fā)明提供一種融合多維度測試數(shù)據(jù)的海砂溯源大數(shù)據(jù)建模方法,通過隨機森林、支持向量機和深度神經(jīng)網(wǎng)絡(luò)三種模型的并行構(gòu)建,提取互補特征,整合形成綜合特征集,通過特征選擇算法進一步降維和去除冗余信息,優(yōu)化特征集,不僅提高模型的訓(xùn)練效率,還增強了模型對海砂溯源數(shù)據(jù)的理解能力,進一步提升了分類精度。