【转载】Python 和 R 数据分析/挖掘工具互查
发布日期:2022-02-14 23:02:42
浏览次数:35
分类:技术文章
本文共 4282 字,大约阅读时间需要 14 分钟。
- 数据读取
- db connector
类别 | Python | R |
---|---|---|
MySQL | pymysql | RMySQL |
Oracle | cx_Oracle | ROracle |
Redis | redis | rredis |
MongoDB | pymongo | RMongormongodb |
Neo4j | py2neo | RNeo4j |
Cassandra | cassandra-driver | RJDBC |
hive | impala.dbapi.connect | 未知 |
pg/gp | psycopg2.connectpg.DBpgdb.connect | 未知 |
es | elasticsearch | 未知 |
- io
类别 | Python | R |
---|---|---|
excel | pd.(from/to)_excel | openxlsx::read.xlsx(2)xlsx::read.xlsx(2) |
csv | pd.(from/to)_csv | read.csv(2)read.table |
json | json | jsonlite |
图片 | PIL | jpegpngtiffbmp |
- 统计类
- 描述性统计
类别 | Python | R |
---|---|---|
描述性统计汇总 | sp.stats.descirbe | summary |
均值 | sp.stats.gmean(几何平均数)sp.stats.hmean(调和平均数)np.meannp.nanmeanpd.Series.mean | mean |
中位数 | np.mediannp.nanmediampd.Series.median | median |
众数 | sp.stats.modepd.Series.mode | 未知 |
分位数 | np.percentilenp.nanpercentilepd.Series.quantile | quantile |
经验累积函数(ECDF) | statsmodels.tools.ECDF | ecdf |
标准差 | sp.stats.stdsp.stats.nanstdnp.stdpd.Series.std | sd |
方差 | np.varpd.Series.var | var |
变异系数 | sp.stats.variation | 未知 |
协方差 | np.covpd.Series.cov | cov |
pearson相关系数 | sp.stats.pearsonrnp.corrcoefpd.Series.corr | cor |
峰度 | sp.stats.kurtosispd.Series.kurt | e1071::kurtosis |
偏度 | sp.stats.skewpd.Series.skew | e1071::skewness |
- 假设检验
类别 | Python | R |
---|---|---|
t检验 | statsmodels.stats.ttest_indstatsmodels.stats.ttost_indstatsmodels.stats.ttost.pairedsp.stats.ttest_1sampsp.stats.ttest_indsp.stats.ttest_ind_from_statssp.stats.ttest_rel | t.test |
ks检验(检验分布) | sp.stats.kstestsp.stats.kstest_2samp | ks.test |
wilcoxon(非参检验,差异检验) | sp.stats.wilcoxonsp.stats.mannwhitneyu | wilcox.test |
Shapiro-Wilk正态性检验 | sp.stats.shapiro | shapiro.test |
Pearson相关系数检验 | sp.stats.pearsonr | cor.test |
- 时间序列
类别 | Python: | R |
---|---|---|
AR | statsmodels.ar_model.AR | ar |
ARIMA | statsmodels.arima_model.arima | arima |
VAR | statsmodels.var_model.var | 未知 |
- 生存序列
类别 | Python | R |
---|---|---|
PH回归 | statsmodels.formula.api.phreg | 未知 |
Lifelines |
- 机器学习类
- 回归
类别 | Python | R |
---|---|---|
OLS | statsmodels.olssklearn.linear_model.LinearRegression | lm |
广义线性回归(gls) | statsmodels.glssklearn | nlme::glsMASS::gls |
分位数回归(Quantile Regress) | statsmodels.QuantReg | quantreg::rq |
岭回归 | sklearn.linear_model.Ridge | MASS::lm.ridge, ridge::linearRidge |
LASSO | sklearn.linear_model.Lasso | lars::lars |
最小角回归 | sklearn.linear_modle.LassoLars | lars::lars |
稳健回归 | statsmodels.RLM | MASS::rlm |
- 分类器
类别 | Python | R |
---|---|---|
LDA | sklearn.discriminant_analysis.LinearDiscriminantAnalysis | MASS::lda |
QDA | sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis | MASS::qda |
- SVM
类别 | Python | R |
---|---|---|
支持向量分类器(SVC) | sklearn.svm.SVC | e1071::svm |
非支持向量分类器(nonSVC) | sklearn.svm.NuSVC | 未知 |
线性支持向量分类器(Lenear SVC) | sklearn.svm.LinearSVC | 未知 |
- 基于临近
类别 | Python | R |
---|---|---|
k-临近分类器 | sklearn.neighbors.KNeighborsClassifier | |
半径临近分类器 | sklearn.neighbors.RadiusNeighborsClassifier | |
临近重心分类器(Nearest Centroid Classifier) | sklearn.neighbors.NearestCentroid |
- Bayes
类别 | Python | R |
---|---|---|
朴素贝叶斯 | sklearn.naive_bayes.GaussianNB | e1071::naiveBayes |
多维贝叶斯(Multinomial Naive Bayes) | sklearn.naive_bayes.MultinomialNB | |
伯努利贝叶斯(Bernoulli Naive Bayes) | sklearn.naive_bayes.BernoulliNB |
- 决策树
类别 | Python | R |
---|---|---|
决策树分类器 | sklearn.tree.DecisionTreeClassifier | tree::treeparty::ctree |
决策树回归器 | sklearn.tree.DecisionTreeRegressor | tree::treeparty::tree |
- Assemble方法
类别 | 子类别 | Python | R |
---|---|---|---|
Bagging | 随机森林分类器 | sklearn.ensemble.RandomForestClassifier | randomForest::randomForestparty::cforest |
Bagging | 随机森林回归器 | sklearn.ensemble.RandomForestRegressor | randomForest::randomForestparty::cforest |
Boosting | Gradient Boosting | xgboost模块 | xgboost包 |
Boosting | AdaBoost | sklearn.ensemble.AdaBoostClassifier | adabagfastAdaboostada |
Stacking | - | - | - |
- 聚类
类别 | Python | R |
---|---|---|
kmeans | sp.cluster.kmeans.kmeanssklearn | kmeans::kmeans |
分层聚类 | scipy.cluster.hierarchy.fclustersklearn | (stats::)hclust |
包聚类(Bagged Cluster) | - | e1071::bclust |
DBSCAN | sklearn.cluster.DBSCAN | dbscan::dbsan |
Birch | sklearn.cluster.Birch | - |
K-Medoids聚类 | pyclust.KMedoids | cluster.pam |
- 关联规则
类别 | Python | R |
---|---|---|
apriori算法 | apriori(不支持py3)PyFIM(不可用pip安装) | arules::apriori |
FP-Growth算法 | fp-growth(不支持py3)PyFIM(不可用pip安装) | - |
- 神经网络
类别 | Python | R |
---|---|---|
神经网络 | neurolab.netkeras.*tensorflowpytorch | nnet::nnetnueralnet::nueralnet |
深度学习 | keras.*tensorflowpytorch | - |
- 文本,NLP
- 基本操作
类别 | Python | R |
---|---|---|
tokenize | nltk.tokenize(英)jieba.tokenize(中) | tau::tokenize |
stem | nltk.stem | RTextTools::wordStemSnowballC::wordStem |
stopwords | stop_words.get_stop_words | tm::stopwordsqdap::stopwords |
中文分词 | jieba.cutsmallsegYahafinalseggenius | jiebaR |
TFIDF | gensim.models.TfidfModel | - |
- 主题模型
类别 | Python | R |
---|---|---|
LDA | lda.LDAgensim.models.ldamodel.LdaModel | topicmodels::LDA |
LSI | gensim.models.lsiModel.LsiModel | - |
RP | gensim.models.rpmodel.RpModel | - |
HDP | gensim.models.hdpmodel.HdpModel | - |
转载地址:https://blog.csdn.net/fish2009122/article/details/103457838 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
感谢大佬
[***.8.128.20]2024年04月12日 00时32分21秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
为 PHP 应用提速、提速、再提速
2019-04-27
Linux下gedit显示行号
2019-04-27
《Advanced PHP Programming》读书笔记
2019-04-27
让我们谈谈RAID
2019-04-27
jQuery日期选择器插件date-input
2019-04-27
PHP使用curl_multi_add_handle并行处理
2019-04-27
NP问题
2019-04-27
AT&T与Intel汇编语言的比较
2019-04-27
javascript解析json
2019-04-27
WinDbg安装与使用
2019-04-27
推荐阅读的多核编程技术书籍
2019-04-27
维基百科上的算法和数据结构链接很强大
2019-04-27
选择排序
2019-04-27
PHP session回收机制
2019-04-27
最新的全球编程语言,操作系统,web服务器等使用率分析报告
2019-04-27
用C语言写PHP扩展
2019-04-27
PHP Extension programming
2019-04-27
海量数据处理
2019-04-27
PHP防止注入攻击
2019-04-27
多路IO复用模型 select epoll 等
2019-04-27