【转载】Python 和 R 数据分析/挖掘工具互查
发布日期:2022-02-14 23:02:42 浏览次数:35 分类:技术文章

本文共 4282 字,大约阅读时间需要 14 分钟。

  • 数据读取
    • db connector
类别 Python R
MySQL pymysql RMySQL
Oracle cx_Oracle ROracle
Redis redis rredis
MongoDB pymongo RMongo
rmongodb
Neo4j py2neo RNeo4j
Cassandra cassandra-driver RJDBC
hive impala.dbapi.connect 未知
pg/gp psycopg2.connect
pg.DB
pgdb.connect
未知
es elasticsearch 未知
  • io
类别 Python R
excel pd.(from/to)_excel openxlsx::read.xlsx(2)
xlsx::read.xlsx(2)
csv pd.(from/to)_csv read.csv(2)
read.table
json json jsonlite
图片 PIL jpeg
png
tiff
bmp
  • 统计类
    • 描述性统计
类别 Python R
描述性统计汇总 sp.stats.descirbe summary
均值 sp.stats.gmean(几何平均数)
sp.stats.hmean(调和平均数)
np.mean
np.nanmean
pd.Series.mean
mean
中位数 np.median
np.nanmediam
pd.Series.median
median
众数 sp.stats.mode
pd.Series.mode
未知
分位数 np.percentile
np.nanpercentile
pd.Series.quantile
quantile
经验累积函数(ECDF) statsmodels.tools.ECDF ecdf
标准差 sp.stats.std
sp.stats.nanstd
np.std
pd.Series.std
sd
方差 np.var
pd.Series.var
var
变异系数 sp.stats.variation 未知
协方差 np.cov
pd.Series.cov
cov
pearson相关系数 sp.stats.pearsonr
np.corrcoef
pd.Series.corr
cor
峰度 sp.stats.kurtosis
pd.Series.kurt
e1071::kurtosis
偏度 sp.stats.skew
pd.Series.skew
e1071::skewness
  • 假设检验
类别 Python R
t检验 statsmodels.stats.ttest_ind
statsmodels.stats.ttost_ind
statsmodels.stats.ttost.paired
sp.stats.ttest_1samp
sp.stats.ttest_ind
sp.stats.ttest_ind_from_stats
sp.stats.ttest_rel
t.test
ks检验(检验分布) sp.stats.kstest
sp.stats.kstest_2samp
ks.test
wilcoxon(非参检验,差异检验) sp.stats.wilcoxon
sp.stats.mannwhitneyu
wilcox.test
Shapiro-Wilk正态性检验 sp.stats.shapiro shapiro.test
Pearson相关系数检验 sp.stats.pearsonr cor.test
  • 时间序列
类别 Python: R
AR statsmodels.ar_model.AR ar
ARIMA statsmodels.arima_model.arima arima
VAR statsmodels.var_model.var 未知
  • 生存序列
类别 Python R
PH回归 statsmodels.formula.api.phreg 未知
Lifelines
  • 机器学习类
    • 回归
类别 Python R
OLS statsmodels.ols
sklearn.linear_model.LinearRegression
lm
广义线性回归(gls) statsmodels.gls
sklearn
nlme::gls
MASS::gls
分位数回归(Quantile Regress) statsmodels.QuantReg quantreg::rq
岭回归 sklearn.linear_model.Ridge MASS::lm.ridge, ridge::linearRidge
LASSO sklearn.linear_model.Lasso lars::lars
最小角回归 sklearn.linear_modle.LassoLars lars::lars
稳健回归 statsmodels.RLM MASS::rlm
  • 分类器
类别 Python R
LDA sklearn.discriminant_analysis.LinearDiscriminantAnalysis MASS::lda
QDA sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis MASS::qda
  • SVM
类别 Python R
支持向量分类器(SVC) sklearn.svm.SVC e1071::svm
非支持向量分类器(nonSVC) sklearn.svm.NuSVC 未知
线性支持向量分类器(Lenear SVC) sklearn.svm.LinearSVC 未知
  • 基于临近
类别 Python R
k-临近分类器 sklearn.neighbors.KNeighborsClassifier
半径临近分类器 sklearn.neighbors.RadiusNeighborsClassifier
临近重心分类器(Nearest Centroid Classifier) sklearn.neighbors.NearestCentroid
  • Bayes
类别 Python R
朴素贝叶斯 sklearn.naive_bayes.GaussianNB e1071::naiveBayes
多维贝叶斯(Multinomial Naive Bayes) sklearn.naive_bayes.MultinomialNB
伯努利贝叶斯(Bernoulli Naive Bayes) sklearn.naive_bayes.BernoulliNB
  • 决策树
类别 Python R
决策树分类器 sklearn.tree.DecisionTreeClassifier tree::tree
party::ctree
决策树回归器 sklearn.tree.DecisionTreeRegressor tree::tree
party::tree
  • Assemble方法
类别 子类别 Python R
Bagging 随机森林分类器 sklearn.ensemble.RandomForestClassifier randomForest::randomForest
party::cforest
Bagging 随机森林回归器 sklearn.ensemble.RandomForestRegressor randomForest::randomForest
party::cforest
Boosting Gradient Boosting xgboost模块 xgboost包
Boosting AdaBoost sklearn.ensemble.AdaBoostClassifier adabag
fastAdaboost
ada
Stacking - - -
  • 聚类
类别 Python R
kmeans sp.cluster.kmeans.kmeans
sklearn
kmeans::kmeans
分层聚类 scipy.cluster.hierarchy.fcluster
sklearn
(stats::)hclust
包聚类(Bagged Cluster) - e1071::bclust
DBSCAN sklearn.cluster.DBSCAN dbscan::dbsan
Birch sklearn.cluster.Birch -
K-Medoids聚类 pyclust.KMedoids cluster.pam
  • 关联规则
类别 Python R
apriori算法 apriori(不支持py3)
PyFIM(不可用pip安装)
arules::apriori
FP-Growth算法 fp-growth(不支持py3)
PyFIM(不可用pip安装)
-
  • 神经网络
类别 Python R
神经网络 neurolab.net
keras.*
tensorflow
pytorch
nnet::nnet
nueralnet::nueralnet
深度学习 keras.*
tensorflow
pytorch
-
  • 文本,NLP
    • 基本操作
类别 Python R
tokenize nltk.tokenize(英)
jieba.tokenize(中)
tau::tokenize
stem nltk.stem RTextTools::wordStem
SnowballC::wordStem
stopwords stop_words.get_stop_words tm::stopwords
qdap::stopwords
中文分词 jieba.cut
smallseg
Yaha
finalseg
genius
jiebaR
TFIDF gensim.models.TfidfModel -
  • 主题模型
类别 Python R
LDA lda.LDA
gensim.models.ldamodel.LdaModel
topicmodels::LDA
LSI gensim.models.lsiModel.LsiModel -
RP gensim.models.rpmodel.RpModel -
HDP gensim.models.hdpmodel.HdpModel -

转载地址:https://blog.csdn.net/fish2009122/article/details/103457838 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:【转载】Python假设检验
下一篇:eclipse工程导入Android studio 有些包无效的解决

发表评论

最新留言

感谢大佬
[***.8.128.20]2024年04月12日 00时32分21秒