Python数据处理实例

使用python进行数据处理的实例（数据为某公司HR部门关于员工信息的部分摘录，kaggle上面的一次赛题）

https://www.kaggle.com/c/kfru-dbm-hr-analytics

该实例是根据其他所给属性预测员工是否会离职，代码实现如下所示


import pandas as pd
from sklearn.preprocessing import MinMaxScaler,StandardScaler
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.decomposition import PCA

def hr_preprocessing(sl=False,le=False,npr=False,amh=False,tsc=False,wa=False,pl5=False,dp=False,slr=False,lower_id=False,ld_n=1):
    df=pd.read_csv(‘C:\\Users\\Administrator\Desktop\\network\\HR.csv‘)
    #1 清洗数据，根据探索性数据分析出的结果来去掉空值
    df=df.dropna(subset=[‘satisfaction_level‘,‘last_evaluation‘])
    df=df[df[‘satisfaction_level‘]&lt;=1][df[‘salary‘]!=‘nme‘]

    #2 得到标注
    label=df[‘left‘]
    df=df.drop(‘left‘,axis=1)

    #3 特征选择（因为本文的特征本来就不多，暂时不做）

    # 4 特征处理（归一化，标准化，降维）
    scaler_lst=[sl,le,npr,amh,tsc,wa,pl5]
    column_lst = ["satisfaction_level", "last_evaluation", "number_project",
                  "average_monthly_hours", "time_spend_company", "Work_accident",
                  "promotion_last_5years"]
    for i in range(len(scaler_lst)):
        if not scaler_lst[i]:
            df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]
        else:
            df[column_lst[i]]=StandardScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]

    #针对离散值的处理
    scaler_lst=[slr,dp]
    column_lst=[‘salary‘,‘department‘]
    for i in range(len(scaler_lst)):
        if not scaler_lst[i]:
            if column_lst[i]==‘salary‘:
                df[column_lst[i]]=[map_salary(s)for s in df[‘salary‘].values]
            else:
                df[column_lst[i]]=LabelEncoder().fit_transform(df[column_lst[i]])
            df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]
        else:
            df=pd.get_dummies(df,columns=[column_lst[i]])
    if lower_id:
        return PCA(n_components=ld_n).fit_transform(df.values),label
    return df,label

d=dict([(‘low‘,0),(‘medium‘,1),(‘high‘,2)])
def map_salary(s):
    return d.get(s,0)

#建模
def hr_modeling_nn(features,label):
    from sklearn.model_selection import train_test_split
    #sklearn中没有可以一次性将数据划分成验证集、训练集、测试集的包，所以需要进行两步划分
    f_v=features.values
    l_v=label.values
    X_tt,X_validation,Y_tt,Y_validation=train_test_split(f_v,l_v,test_size=0.2)
    X_train,X_test,Y_train,Y_test=train_test_split(X_tt,Y_tt,test_size=0.25)
    #print(len(X_train),len(X_test),len(X_validation))

    #分类
    from sklearn.metrics import accuracy_score,recall_score,f1_score
    from sklearn.neighbors import NearestNeighbors,KNeighborsClassifier
    from sklearn.naive_bayes import GaussianNB,BernoulliNB
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.svm import SVC
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.ensemble import AdaBoostClassifier
    from sklearn.linear_model import LogisticRegression
    from sklearn.ensemble import GradientBoostingClassifier

    models=[]
    models.append((‘KNN‘,KNeighborsClassifier(n_neighbors=3)))
    models.append((‘GaussianNB‘,GaussianNB()))
    models.append((‘BernoulliNB‘,BernoulliNB()))
    models.append((‘DecisionTreeGini‘,DecisionTreeClassifier()))
    models.append((‘DecisionTreeEntropy‘,DecisionTreeClassifier(criterion=‘entropy‘)))
    models.append((‘SVM:‘,SVC(C=1000)))
    models.append((‘OriginalRandomForest‘,RandomForestClassifier()))
    models.append((‘RandomForest‘,RandomForestClassifier(n_estimators=11,max_features=None)))
    models.append((‘Adaboost‘,AdaBoostClassifier(n_estimators=100)))
    models.append((‘LogisticRegression‘,LogisticRegression(C=1000,tol=1e-10,solver=‘sag‘,max_iter=10000)))
    models.append((‘GBDT‘,GradientBoostingClassifier(max_depth=6,n_estimators=100)))

    for clf_name ,clf in models:
        clf.fit(X_train,Y_train)
        xy_list=[(X_train,Y_train),(X_validation,Y_validation),(X_test,Y_test)]
        for i in range(len(xy_list)):
            X_part=xy_list[i][0]
            Y_part=xy_list[i][1]
            Y_pred=clf.predict(X_part)
            print(i)
            print(clf_name,‘-ACC‘,accuracy_score(Y_part,Y_pred))
            print(clf_name,‘-REC:‘,recall_score(Y_part,Y_pred))
            print(clf_name,‘-F1:‘,f1_score(Y_pred,Y_part))

#回归
def regr_t(features,label):
    print(‘X‘,features)
    print(‘Y‘,label)
    from sklearn.linear_model import LinearRegression,Ridge,Lasso
    regr=Ridge(alpha=1)
    regr.fit(features.values,label.values)
    Y_pred=regr.predict(features.values)
    print(‘Coef:‘,regr.coef_)
    from sklearn.metrics import mean_squared_error,mean_absolute_error,r2_score
    print(‘MSE:‘,mean_squared_error(label.values,Y_pred))
    print(‘MAE:‘,mean_absolute_error(label.values,Y_pred))
    print(‘R2:‘,r2_score(label.values,Y_pred))

def main():
    features,label=hr_preprocessing()
    hr_modeling_nn(features,label)
    regr_t(features[[‘number_project‘,‘average_monthly_hours‘]],features[‘last_evaluation‘])
if __name__==‘__main__‘:
    main()

来源：https://blog.csdn.net/weixin_39667003/article/details/85632885

原文地址：https://www.cnblogs.com/qixidi/p/10229246.html

时间： 2024-10-14 04:15:23

Python数据处理实例的相关文章

Jquery调用从ashx文件返回的jsonp格式的数据处理实例

开发环境:vs2010+jquery-1.4.min.js 解决问题:网上代码比较少,好多调试不通,返回数据不用json而用jsonp主要考虑解决跨域问题开发步骤:打开VS2010,新建一web站点,保存位置选择D:\Website1;添加新项,选择一般处理程序,命名cmdHandler.ashx;添加新项,选择HTML页,命名为testAshx.htm;网上下载jquery-1.4.min.js拷贝到web站点中项目相关网站源码和运行截图如下: 1.testAshx.htm代码如下: <!

python 编程实例 1

#python 100 例 1.py #题目:有 1.2.3.4 个数字,能组成多少个互不相同且无重复数字的三位数?都是多 #少? a = {} c = 1 for i in range(1,5): for j in range(1,5): for k in range(1,5): if (i != j,i !=k ,j!= k): # print (i,j,k) a[c]=(i,j,k) c = c + 1 print (a) #把结果输入到字典 a中,并用c记数

python 编程实例 2

#python 100 2.py #题目:企业发放的奖金根据利润提成.利润 (I)低于或等于 10 万元时,奖金可提 10%:利 #润高于 10 万元,低于 20 万元时,低于 10 万元的部分按 10%提成,高于 10 万元的部分, #可可提成 7.5%:20 万到 40 万之间时,高于 20 万元的部分,可提成 5%:40 万到 60 万之间 #时高于 40 万元的部分,可提成 3%:60 万到 100 万之间时,高于 60 万元的部分,可提成 #1.5%,高于 100 万元时,超过

python 编程实例 3

#python 100 例 3.py #题目:一个整数,它加上100后是一个完全平方数,再加上168又是一个完全平方数.求这个数. import math for x in range(1,100000): y = int(math.sqrt(x + 100)) z = int(math.sqrt(x + 268)) if ( x + 100 == y*y ) and ( x + 268 == z*z): print (x) python 编程实例 3,布布扣,bubuko.com

python 编程实例 4

#python 100例 4.py #输入一个日期,判断这一天是一年中的第几天. import time #print (time.strftime("%Y%m%d%H%M%S")) #当前时间 #print (time.time()) #当前时间的秒数,从1970年1月1日开始计算 b = input("输入一个日期如(20121012): ") #输入要计算的日期 a = b[0:4]+'0101' #获取输入日期的年份并加上1月1日,从当年的1月1日开始计算

python 编程实例 5

#题目:输入三个整数 x,y,z,请把这三个数由小到大输出. #1.程序分析:我们想办法把最小的数放到 x 上,先将 x 与 y 进行比较,如果 x>y 则将 x 与 y #的值交换,再比较X 和Z比较. x = int(input("输入一个正整数X:")) y = int(input("输入一个正整数Y:")) z = int(input("输入一个正整数Z:")) if x >y: if x > z: if y >z

python 编程实例 6

#python 100 例 6.py #输出9*9口决 for i in range(1,10): for j in range(1,10): a = i * j print (i ,"*",j ,"=",a ) python 编程实例 6,布布扣,bubuko.com

python 编程实例 7

#python 100 例 9.py #用*打印出一个棱形 a = int(input("biangchang: ")) #获取由几个* 边长的棱形 i = 1 j = 1 while i<a+1: print (" "*(a-i)," * "*(2*i-1)) i = i+1 while j<a+1: print (" "*j," * "*(2*(a-j)-1)) j = j+1 py

python正则表达式实例

1.将"(332.21)luck李."中(332.21)抽取出来同时能够将”(23)luck李.“中的(23)抽取出来 pp = re.compile('(\(\d*(.\d*)?\))') mm = pp.match(line) print mm.groups()[0] 2. python正则表达式实例,布布扣,bubuko.com