C++ set去重技巧与元素查找实例：全面掌握STL set的用法-猿码集

基础概念与去重原理

1.1 std::set 的去重核心

在C++中，std::set 是一个有序且元素唯一的数据结构，核心特性就是去重。插入相同键值时不会重复添加，这为快速去重提供了天然的基础。理解这一点对于后续的去重技巧与查找操作至关重要。

通过把一个可遍历的序列转化为 std::set，可以直接实现去重，并得到一个自动排序的结果集。复杂度通常为 O(n log n)，其中 n 是输入元素数量，这对于大规模数据去重尤为重要。

如果目标是从一个向量或数组中去重并得到一个新的有序集合，使用构造函数将迭代器传入即可。这是一种简单、可靠的去重方法，适合快速实现需求。

#include <iostream>
#include <vector>
#include <set>int main() {std::vector<int> v = {5, 1, 3, 5, 2, 1, 4};// 去重并获得有序结果std::set<int> s(v.begin(), v.end());for (int x : s) std::cout << x << ' ';std::cout << '\\n' ;// 将去重结果拷贝回向量，便于后续处理std::vector<int> uniq(s.begin(), s.end());std::cout << uniq.size() << '\\n';return 0;
}

总结要点：set 的去重特性直接转化为数据处理的简洁性，避免了手动判断重复性所带来的额外开销。本文所述技巧围绕“去重与排序”的组合场景展开，帮助你快速把握 C++ set 的核心能力。

1.2 元素查找的核心操作

元素查找是 STL set 的另一大优势，提供了高效的查找与区间查询能力。通过函数如 find、count、lower_bound、upper_bound 与 equal_range，你可以在对数时间内定位元素及其区间。

使用场景包括：判断元素是否存在、统计元素是否唯一、以及在一个区间内快速获取边界元素。

C++ set去重技巧与元素查找实例：全面掌握STL set的用法

#include <set>
#include <iostream>int main() {std::set<int> s = {1, 2, 3, 4, 5};// 查找auto it = s.find(3);if (it != s.end()) {std::cout << "Found: " << *it << '\\n';}// 计数（集合中某元素是否存在，返回 0/1）bool exists = s.count(4);// 下边界与上边界auto lb = s.lower_bound(3); // >= 3auto ub = s.upper_bound(3); // > 3// 等价区间auto er = s.equal_range(3);std::cout << "LB: " << (lb != s.end() ? std::to_string(*lb) : "end") << '\\n';std::cout << "UB: " << (ub != s.end() ? std::to_string(*ub) : "end") << '\\n';
}

要点回顾：find 提供成员是否存在的直接判断，lower_bound 与 upper_bound 让区间查询变得高效，equal_range 则一次返回边界迭代器对，适用于区间统计和遍历。

高级用法与性能分析

2.1 自定义比较器下的唯一性与去重行为

默认的 std::set 使用 std::less 作为排序准则，因此键值的唯一性与比较规则直接相关。对于复杂键或自定义类型，需要实现自定义比较器以确保正确的去重行为。

自定义比较器可以让你以自定义的规则来判断“相同”或“较小”的关系，从而影响去重顺序与区间操作。正确实现比较器，是实现非原生类型去重场景的关键。

#include <set>
#include <string>struct Key {int id;std::string name;
};// 按 id 作为主键，name 作为次要字段
struct Comp {bool operator()(const Key& a, const Key& b) const {if (a.id != b.id) return a.id < b.id;return a.name < b.name;}
};int main() {std::set<Key, Comp> s;s.insert(Key{1, "alpha"});s.insert(Key{1, "beta"});// 注意：如果 id 相同，name 决定了两者是否唯一
}

设计要点：通过实现严格弱序关系，不同的键集合会映射到唯一的集合元素，从而避免重复的同时确保任意自定义键都能进入集合进行去重与排序。

2.2 与其他容器的对比与混合使用场景

相比于 std::vector，std::set 在去重方面更高效，因为它天然维持唯一性与排序，而对比 std::unordered_set，它提供了更快的平均 O(1) 查找但无序。实际设计中，常见的做法是先在向量中保留输入顺序，再通过 set 去重或通过混合容器达到目标。

混合使用策略包括：先用向量收集数据，利用 set 去重并排序，再把结果拷贝回向量以保持后续处理的兼容性。这种方式在需要去重结果进行排序和快速查找的场景中尤为有用。

#include <vector>
#include <set>
#include <iostream>int main() {std::vector<int> v = {3, 1, 4, 3, 1, 5, 9, 2};// 先去重再排序std::set<int> s(v.begin(), v.end());// 结果回填到向量以保留有序性和便捷的随机访问std::vector<int> uniq(s.begin(), s.end());for (int x : uniq) std::cout << x << ' ';std::cout << '\\n';
}

实用要点：混合使用时要注意容器之间的转换成本，尤其是在大数据量场景下，全局去重成本往往来自于排序。合理选择是否需要排序、是否要保留原始输入顺序，是实现高效方案的关键。

实战技巧与常见问题

3.1 从向量到集合再回填的去重流程

在真实项目中，你常常需要先对输入数据进行去重，再把结果用于后续的查找或分组。从向量到集合再回填，是快速实现去重并获得有序结果的稳定方案，适用于日志聚合、去重中间数据等场景。

注意：直接对原始数据进行就地去重可能影响原始顺序，如果顺序很重要，可以结合 std::unordered_set 记录已出现的元素，再通过向量保存第一轮出现的顺序。

#include <vector>
#include <set>
#include <iostream>int main() {std::vector<int> v = {7, 7, 3, 2, 3, 2, 9};std::set<int> s(v.begin(), v.end()); // 去重并排序std::vector<int> dedup(s.begin(), s.end());for (int x : dedup) std::cout << x << ' ';std::cout << '\\n';
}

要点强调：通过标准容器的组合使用，可以在保证去重效果的同时，取得易于使用的结果集，便于后续的聚合、筛选或输出。

3.2 区间查找与范围操作的高效用法

在需要统计某一范围内的元素或进行区间遍历时，lower_bound、upper_bound 与 equal_range 的组合提供了强大能力。例如，查找在区间 [L, R] 内的所有元素可以通过 lower_bound(L) 和 upper_bound(R) 快速定位边界，从而实现高效的遍历。

另外，等价区间（equal_range）返回的是一个对，包含左边界的迭代器和右边界的迭代器，适合在一次调用中获取区间信息，减少重复查找开销。

#include <set>
#include <vector>
#include <iostream>int main() {std::set<int> s = {1, 2, 3, 4, 5, 6, 7, 8, 9};// 查找区间 [3, 7] 的所有元素auto itL = s.lower_bound(3);auto itR = s.upper_bound(7);for (auto it = itL; it != itR; ++it) {std::cout << *it << ' ';}std::cout << '\\n';
}

实践要点：区间操作在需要统计、分组以及筛选特定范围内数据时尤为有用，能够避免不必要的遍历与比较，从而提升性能。