【数据竞赛】十组不同类型的组合特征!
作者:塵沙杰少、櫻落、新峰、DOTA、謝嘉嘉
特征工程--數(shù)值&時(shí)間的二階組合特征!
前 言
本篇文章是關(guān)于數(shù)值特征與其它類(lèi)型特征的二階組合特征以及時(shí)間特征與其它特征的組合特征,這一塊的東西相對(duì)較少,也較為細(xì)節(jié),之前介紹的我們此處就省略了,重點(diǎn)介紹之前沒(méi)有涉及和包含的內(nèi)容。
至此,前后一共十組不同類(lèi)型的二階組合特征也就介紹完成了,
無(wú)序類(lèi)別特征+無(wú)序類(lèi)別特征;
無(wú)序類(lèi)別特征+有序類(lèi)別特征;
無(wú)序類(lèi)別特征+數(shù)值特征;
無(wú)序類(lèi)別特征+時(shí)間特征;
有序類(lèi)別特征+有序類(lèi)別特征;
有序類(lèi)別特征+數(shù)值特征;
有序類(lèi)別特征+時(shí)間特征;
數(shù)值特征+數(shù)值特征;
數(shù)值特征+時(shí)間特征;
時(shí)間特征+時(shí)間特征;
后續(xù)的內(nèi)容我們會(huì)介紹三階組合特征的構(gòu)建技巧。
數(shù)值特征+數(shù)值特征
我們將A作為數(shù)值特征,B作為數(shù)值特征。
1. 相同物理意義下的加減乘除
如果兩個(gè)數(shù)值特征是具有相同物理意義的,例如,第一個(gè)數(shù)值特征是用戶(hù)的收入,第二個(gè)數(shù)值特征是用戶(hù)的支出,那么這邊的減乘除就比較有意義:
減:表示用戶(hù)的這個(gè)月的剩余的錢(qián);
乘:表示一種現(xiàn)象,如果用戶(hù)收入高支出高,那么該值就大;收入高支出少,那么該值就一般;收入低,支出也低,那么該值就小;
除:表示用戶(hù)的支出占收入的比例;
加:一般意義就不大了;
至于用加減乘除中的哪個(gè),需要依據(jù)實(shí)際情況考慮。
2. 不同物理意義下的乘除
如果兩個(gè)數(shù)值特征是不具有相同物理意義的,例如,第一個(gè)數(shù)值特征表示用戶(hù)購(gòu)買(mǎi)的商品數(shù)量,第二個(gè)數(shù)值特征表示商品的單價(jià),那么這邊的加和減除的意義就不是非常大,加入模型大概率只會(huì)引入噪音信息;但是乘法卻非常有意義:
乘:表示用戶(hù)需要支付的總金額;
至于用乘除中的哪個(gè),也需要需要依據(jù)實(shí)際情況考慮,如果此處第一個(gè)數(shù)值特征表示用戶(hù)購(gòu)買(mǎi)某商品的數(shù)量,第二個(gè)表示支付金額,那么除就更為有價(jià)值,乘法反而意義不大,所以也需要依據(jù)實(shí)際情況考慮。
數(shù)值特征+時(shí)間特征
我們將A作為數(shù)值特征,B作為時(shí)間特征。
數(shù)值特征和時(shí)間特征同時(shí)出現(xiàn)的時(shí)候,我們可以認(rèn)為這就是一條時(shí)間序列。
1. A關(guān)于B的實(shí)時(shí)變化特征
A的下一時(shí)刻與上一時(shí)刻的差值,表示上下時(shí)刻的變化情況以及比例。
#?先按時(shí)間排序 df?=?df.sort_valeus('B')? df['A_diff']??=?df['A']?-?df['A'].shift(N)?#?N可以為1,2,... df['A_ratio']?=?df['A']?/?df['A'].shift(N)2. 將B轉(zhuǎn)化為類(lèi)別特征
將時(shí)間特征B轉(zhuǎn)化為類(lèi)別特征,我們可以將原先天+小時(shí)+分鐘+秒的時(shí)間特征變化為:
月份特征;
天級(jí)別的特征;
小時(shí)特征;
星期特征;
...
此時(shí)我們可以將無(wú)序類(lèi)別特征和數(shù)值特征的組合特征策略直接使用過(guò)來(lái)。
3. 變換后的B/A統(tǒng)計(jì)特征的比較特征
此處變換之后的B指的是,我們對(duì)B進(jìn)行某種形式的轉(zhuǎn)化,例如轉(zhuǎn)化為以小時(shí)為單位的新的B,然后我們基于轉(zhuǎn)化后得到的B(可以認(rèn)為是有序的類(lèi)別特征)構(gòu)建與A相關(guān)的特征,即我們將此轉(zhuǎn)化為了: 有序類(lèi)別特征+數(shù)值特征的組合特征。
有序類(lèi)別特征當(dāng)做無(wú)序類(lèi)別特征;
相鄰有序類(lèi)別統(tǒng)計(jì)特征的變化;
基于A分組之后B的統(tǒng)計(jì)特征;
A組內(nèi)B特征的占比特征。
4. 小結(jié)
在本小結(jié),我們重點(diǎn)介紹了數(shù)值特征和時(shí)間特征相關(guān)的組合特征,這塊的特征需要重點(diǎn)關(guān)注的還是時(shí)間特征以及將其轉(zhuǎn)換之后與數(shù)值特征的交叉特征。
時(shí)間特征+時(shí)間特征
時(shí)間特征和時(shí)間特征同時(shí)出現(xiàn)的情況相對(duì)較少,一般出現(xiàn)的情形就是開(kāi)始日期和結(jié)束日期這類(lèi)相關(guān)的,例如貸款日期、還款日期,上網(wǎng)時(shí)間、下網(wǎng)時(shí)間等等。而這個(gè)時(shí)候我們經(jīng)常做的特征就是:
基于兩個(gè)時(shí)間特征計(jì)算時(shí)間差值;
轉(zhuǎn)化為某種類(lèi)別特征之后判斷是否相等,比如兩個(gè)時(shí)間特征全部轉(zhuǎn)化為天,如果兩個(gè)時(shí)間特征轉(zhuǎn)化之后都是同一天表示是同一天的;
小 結(jié)
在本章節(jié),我們枚舉了幾乎所有常見(jiàn)的二元特征的組合方式,包括:
無(wú)序類(lèi)別特征+無(wú)序類(lèi)別特征;
無(wú)序類(lèi)別特征+有序類(lèi)別特征;
無(wú)序類(lèi)別特征+數(shù)值特征;
無(wú)序類(lèi)別特征+時(shí)間特征;
有序類(lèi)別特征+有序類(lèi)別特征;
有序類(lèi)別特征+數(shù)值特征;
有序類(lèi)別特征+時(shí)間特征;
數(shù)值特征+數(shù)值特征;
數(shù)值特征+時(shí)間特征;
時(shí)間特征+時(shí)間特征;
當(dāng)然還有一些文本和圖像類(lèi)的向量特征,因?yàn)檫@些特征較為特征,一般都是向量型的,所以我們會(huì)在后面的部分進(jìn)一步進(jìn)行介紹。
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專(zhuān)輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專(zhuān)輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【数据竞赛】十组不同类型的组合特征!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: foxmail怎么加入黑名单 foxma
- 下一篇: 搜狗浏览器中如何删除自带工具 搜狗浏览器