gensim与numpy array 互转


  将gensim输出的格式转化为numpy array格式,支持作为scikit-learn,tensorflow的输入




Gensim包的工具函数进行转换, 转换后变为:

[ 0. 0. 0. ..., 0. 0. 0.]


custom_train_matrix = gensim.matutils.corpus2dense(custom_train_corpus, num_terms=len_custom_dict).T # 关键方法为corpus2dense

custom_test_matrix = gensim.matutils.corpus2dense(custom_test_corpus, num_terms=len_custom_dict).T


上述输出的格式已经是numpy arrary格式了,可以作为scikit-learn,tensorflow的输入了。我们使用tf-idf技术,提高重要单词的比重,降低常见单词的比重,使用sckit-learn包转换上述输出如下:

(0, 11608) 0.179650698812

(0, 9972) 0.235827148023

(0, 8534) 0.208306524508


(0, 381) 0.119518580927

(0, 32) 0.034904390394

(0, 23) 0.0374215245774

(0, 17) 0.0349485731726

上述输入已经可以作为scikit-learn的输入数据了,如果要作为tensorflow的输入数据,还需要将其转化为numpy array格式


custom_train_matrix = custom_train_matrix.toarray() # 将稀疏矩阵转化为numpy array

custom_test_matrix = custom_test_matrix.toarray() # 将稀疏矩阵转化为numpy array



时间: 2024-08-04 14:58:44

