标签: mllib

1 篇文章

如何使用PySpark对多组数据执行K-Means聚类分析
本文旨在解决PySpark中对不同类别数据独立执行K-Means聚类时遇到的`SparkSession`序列化错误。我们将深入探讨Spark的驱动器-执行器架构,解释为何不能在执行器中调用`createDataFrame`等`SparkSession`操作。文章将提供一个基于Spark ML库的解决方案,通过迭代方式在驱动器上为每个类别独立运行K-…
text=ZqhQzanResources