【干货】Pandas 实战：如何高效统计 DataFrame 各列的唯一值并转换为字典？-猿码集

本篇文章围绕《Pandas 实战：如何高效统计 DataFrame 各列的唯一值并转换为字典？》展开，聚焦在实战场景中的高效实现与注意事项。通过多种方法，您可以在不牺牲可读性的前提下，快速统计 DataFrame 各列的唯一值，并把结果转换为字典，方便后续分析与流程集成。

1. 快速统计单列唯一值并转换为字典

1.1 使用 nunique 统计唯一值个数

在需要快速了解每列不同取值数量时，Series.nunique() 是最直接的工具，能够以最小开销返回单列的唯一值数量。

借助 DataFrame.nunique()，您可以得到整张表中各列唯一值数量的向量，结果类型通常是以列名为索引的 Series。这种向量化的统计方式对大数据集尤为友好。

# 仅统计每列的唯一值个数
counts_per_column = df.nunique()# 获取每列唯一值个数的字典表示（列名 -> 个数）
counts_dict = df.nunique().to_dict()

需要的关键点在于：nunique() 的实现通常经过优化，能够降低内存峰值并避免逐行遍历，从而提升性能。

1.2 逐列提取唯一值列表

如果目标是获得每列的实际唯一值集合，而不是仅仅数量，那么可以直接从 Series.unique() 获取值序列，通常会保留首次出现的顺序。

通过一个简单的字典推导，您就能把整张表的唯一值集合打包成一个字典，方便后续分析或可视化使用。

【干货】Pandas 实战：如何高效统计 DataFrame 各列的唯一值并转换为字典？

# 每列的唯一值列表（包含 NaN，按照首次出现顺序）
uniques_dict = {col: df[col].unique().tolist() for col in df.columns}

这种做法的优点是：避免多轮循环，直接在一个表达式中完成，便于集成到数据处理管道里。

2. 批量统计并转换为字典

2.1 使用字典推导实现高效转换

当需要一次性获取整张 DataFrame 各列的唯一值集合并转换为字典时，字典推导是最简洁且高效的路径。可根据需求选择是否包含缺失值。

示例中，直接在同一表达式内完成统计与转换，便于将结果快速传递给后续分析模块或存入缓存。

# 包含 NaN 的唯一值列表
uniques_dict = {col: df[col].dropna().unique().tolist() for col in df.columns}

若希望保留 NaN，请移除 dropna()，直接使用 unique() 即可。

2.2 使用 category 提升内存与计算效率

对于内存敏感的场景，将列转换为 category 数据类型往往能显著降低内存占用，同时类别集合本身就是唯一值的集合。

利用 cat.categories 可以快速获得每列的唯一值集合，但请注意 categories 的顺序可能与原数据的首次出现顺序不同，在需要严格顺序时可能需要额外处理。

# 使用 category 提取类别作为唯一值集合
uniques_by_cat = {col: df[col].astype('category').cat.categories.tolist() for col in df.columns}

这类方法的一个好处是显著降低大字符型字段的内存占用，且在后续分析中对类别型数据的处理更高效。

3. 性能优化与注意事项

3.1 避免不必要的 Python 循环，优先向量化

在数据量较大的场景，尽量避免逐行循环或 heavy 的 lambda，应优先使用 DataFrame 提供的向量化操作与内建方法，以提速并降低 CPU 使用。

常用策略是：先用 nunique() 获取计数；如后续需要字典式结构，再统一构造唯一值列表，避免在每列上都执行昂贵的 Python 逻辑。

# 先快速获取计数，性能友好
counts = df.nunique()# 再在需要时，用简短表达式构造 uniques 字典
uniques_dict = {col: df[col].unique().tolist() for col in df.columns}

通过这样的组合，复杂度可控、扩展性更强，特别适合将分析步骤接入自动化流水线。

3.2 处理缺失值的策略

对缺失值的处理直接决定最终唯一值集合的组成。您可以选择包含或排除 NaN，取决于分析目标。

包含 NaN 的处理方式示例：df[col].unique()，随后转换为列表；排除 NaN 时使用 dropna()。

# 包含 NaN 的处理
uniques_with_nan = {col: df[col].unique().tolist() for col in df.columns}# 排除 NaN 的处理
uniques_no_nan = {col: df[col].dropna().unique().tolist() for col in df.columns}

在实际应用中，结合字段类型与缺失模式，选择最合适的策略尤为重要，确保结果的准确性与后续分析的稳定性。

总结回顾：本文围绕“Pandas 实战：如何高效统计 DataFrame 各列的唯一值并转换为字典？”的核心问题，给出从单列到批量、从简单统计到高效转换、再到内存优化的多种实用做法。通过 nunique、unique、dropna、以及 category 等工具，您可以在保持代码简洁的同时实现高效的字典化输出，满足生产环境中对速度与内存的双重要求。