在处理缺失数据集时,前几步和一般数据集一样:下载数据集用.txt保存或直接是.t使用替换功能 把":"替换成空格,选择全部替换,把文件保存,打开matlab,File->Import Data,删除属性标号的列,选择自己所需要的实例集。因为缺失数据集中属性值在Matlab中会以NAN的形式存在,一般我们可以剔除含有NAN的实例,如果一行行的找,数据集大的时候就特别费时间,还一般都有残余,今早就弄了一大早,后来去百度了下有isnan这个函数,在Matlab中 help isnan 查了下它的用法就很容易了。 m=isnan(sample),m中1表示该位置为NAN,其它的为0,只要查找出m中为1的行号就可以了 再把这行删掉。无论实例是哪个属性缺失 ,都是它对应的行的最后列为NAN,故 find(m(:,col)==1),其中col为m的列数。
时间: 2024-10-17 01:53:51