Python正则表达式re模块详解：从入门到实战的完整教程，快速掌握文本匹配与数据清洗-猿码集

1. 入门与概念

1.1 Python中的re模块定位

Python正则表达式是文本处理的强大工具，而re模块则提供了在Python中使用正则表达式的接口。通过<re模块，你可以进行匹配、提取、替换和分割等操作，极大地提升文本清洗的效率。

本节内容帮助你理解从入门到实战的完整教程的起点，即掌握正则的基本思想、常用接口及其在Python中的应用方式。掌握这些后，你将能快速实现对文本的精准定位与处理，进而提升数据清洗的质量。

import retext = "用户ID: u12345, 邮箱: test@example.com"
# 简单示例：抓取字母+数字的用户ID
pattern = r"u\\w+"
match = re.findall(pattern, text)
print(match)  # ['u12345']

1.2 正则表达式的基本语法概览

在学习re模块之前，理解一些基础概念极为重要：元字符、字符集、量词、分组和锚点。基本语法是后续所有技巧的根基，掌握它能够让你快速构建可复用的匹配规则。

通过熟练地运用这些元素，你可以实现对文本的灵活筛选，例如仅提取特定格式的日期、电话号码或URL。该阶段的目标是建立一个稳固的正则表达式思维模式，以便在后续章节中快速扩展到更复杂的场景。

# 匹配简单日期格式：YYYY-MM-DD
pattern = r"\\b\\d{4}-\\d{2}-\\d{2}\\b"
dates = re.findall(pattern, "今天是 2024-07-15 ，明天是 2024-07-16。")
print(dates)  # ['2024-07-15', '2024-07-16']

2. re模块核心功能与API

2.1 基本匹配方法：search、match、fullmatch、findall、finditer

匹配模式与方法的选择直接决定了解析流程的效率与结果的形态。re.match从字符串起始位置匹配，re.search在全文中扫描，re.fullmatch需要整串匹配，re.findall返回所有符合项的列表，re.finditer返回一个迭代器，便于逐条处理。

通过对不同方法的组合，你可以实现从简单抽取到复杂提取的全流程。为了可维护性，通常先用re.compile将模式编译为正则对象，再多次使用该对象执行匹配。

import retext = "订单号: 2024-xyz-001, 订单号: 2024-abc-002"
pattern = r"\\d{4}-[a-zA-Z]+-\\d{3}"regex = re.compile(pattern)print(regex.findall(text))  # ['2024-xyz-001', '2024-abc-002']# 逐条处理
for m in regex.finditer(text):print(m.group())  # 同样输出匹配项

2.2 替换与分割：sub、split、compile

替换与分割是数据清洗中的常见任务。re.sub实现就地替换，re.split则按照正则分隔文本，re.compile提升多次匹配的效率与可读性。

在实际清洗流程中，通常先编译模式，再对大文本或多文档进行多轮处理，避免重复解析开销。

import relog = "ERROR: 2025-01-01 12:00:00 - code 404"
# 将时间戳替换为占位符
pattern = r"\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}"
log_clean = re.sub(pattern, "", log)
print(log_clean)  # "ERROR:  - code 404"# 以空格分割并提取关键词
tokens = re.split(r"\\s+", log_clean)
print(tokens)  # ['ERROR:', '', '-', 'code', '404']

2.3 捕获组与命名组、分组引用

分组机制让你从复杂文本中提取结构化信息。()用于分组，?>用于非捕获分组，?P<name>用于命名分组，\\1、\\g<name>用于引用。

命名组在后续数据提取和结果组装时尤为方便，尤其在需要将不同字段聚合成字典或对象时，能显著提升代码可读性与可维护性。

import retext = "Product: Widget, Price: 19.99 USD"
pattern = r"Product:\\s*(?P\\w+),\\s*Price:\\s*(?P\\d+\\.\\d{2})"m = re.search(pattern, text)
if m:data = m.groupdict()print(data)  # {'name': 'Widget', 'price': '19.99'}

3. 实战场景：文本匹配与数据清洗

3.1 提取邮箱、手机号、URL

在实际数据处理中，快速提取邮箱、手机号和URL是基石。你可以通过组合简单的模式，获得稳定的提取效果，并对结果进行后续清洗或整合。

Python正则表达式re模块详解：从入门到实战的完整教程，快速掌握文本匹配与数据清洗

先用基本模式定位，再通过组合或命名组实现结构化提取，最后将结果转换为字典或对象，方便后续分析。

import retext = "联系邮箱：alice@example.com，网站：https://example.org；电话：+86 13800138000"
email_pat = r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\\.[a-zA-Z0-9-.]+"
phone_pat = r"(?:\\+?\\d{1,3})?\\s*(?:\\d{3,4}-?\\d{4}-?\\d{4}|\\d{11})"
url_pat = r"https?://[^\\s]+"emails = re.findall(email_pat, text)
phones = re.findall(phone_pat, text)
urls = re.findall(url_pat, text)print(emails)  # ['alice@example.com']
print(phones)  # ['+86 13800138000']
print(urls)   # ['https://example.org']

3.2 数据清洗：去除噪声与规范化文本

数据清洗阶段强调统一格式、去除无关字符、纠正常见错误。通过正则，可以批量替换非法字符、规范日期时间，以及统一分隔符，确保后续分析的一致性。

在处理多源数据时，正则是实现快速文本清洗的有效工具，能够降低人工干预成本并提高可重复性。

import reraw = "Date: 2025/01/02 | Price: $1,234.56 | Name:  John Doe  "
# 统一日期格式为 YYYY-MM-DD
date_pat = r"\\b(\\d{4})[\\-/](\\d{2})[\\-/](\\d{2})\\b"
clean = re.sub(date_pat, r"\\3-\\2-\\1", raw)# 去除多余空格
clean = re.sub(r"\\s{2,}", " ", clean).strip()
print(clean)  # Date: 02-01-2025 | Price: $1,234.56 | Name: John Doe

3.3 日志分析与字段提取

日志分析常需要从文本行中提取时间、等级、信息等字段。通过准备好正则模式，可以实现逐行解析、聚合统计及趋势分析。

将日志字段以结构化方式呈现，便于后续的聚合、过滤和可视化，从而实现这一领域的快速迭代。

import relog_lines = ["INFO 2025-08-01 10:10:10 User login: user123","ERROR 2025-08-01 10:12:03 Failed payment: code 500",
]pattern = r"^(?PINFO|WARN|ERROR)\\s+(?P\\d{4}-\\d{2}-\\d{2})\\s+(?P\\d{2}:\\d{2}:\\d{2})\\s+(?P.*)$"for line in log_lines:m = re.match(pattern, line)if m:print(m.groupdict())
# {'level': 'INFO', 'date': '2025-08-01', 'time': '10:10:10', 'msg': 'User login: user123'}
# {'level': 'ERROR', 'date': '2025-08-01', 'time': '10:12:03', 'msg': 'Failed payment: code 500'}