数据挖掘工具---Spark的使用方法（二）-白红宇的个人博客

发布日期：2021-07-24 12:00:48 浏览次数：2 分类：技术文章

本文共 659 字，大约阅读时间需要 2 分钟。

Spark使用过程中报错汇总

报错1： “ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) ”

原因：出现这个错误是因为之前已经启动了SparkContext

解决方法：查看代码，看是否有多次运行SparkContext实例；也可以先关闭spark（sc.stop() // 关闭spark ），然后再启动。

报错2： “AttributeError: ‘PipelinedRDD’ object has no attribute ‘toDF’”

原因：toDF()是运行在Sparksession（1.X版本的Spark中为SQLContext）内部的一个补丁，如果有其他函数用到toDF()，那么需要先创建SparkSession（）。

解决方法：以IndexedRow()为例，当利用IndexedRow（）产生RDD时，需要

sc=SparkContext()SparkSession(sc)#利用SparkSession来使sc具有处理PipelinedRDD的能力indexedRows = sc.parallelize([IndexedRow(0, [1, 2, 3]),IndexedRow(1, [4, 5, 6]),IndexedRow(2, [7, 8, 9]),IndexedRow(3, [10, 11, 12])])

转载地址：https://blog.csdn.net/qingqing7/article/details/78719595 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：算法模型---算法调优---数据挖掘模型效果评估方法汇总

下一篇：基础操作---各种应用常用快捷键汇总

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

Spark使用过程中报错汇总

发表评论

最新留言

关于作者

推荐文章