Python文本相似度计算：TF-IDF与余弦相似度的详解与实战-猿码集

一、基础概念与目标定位

1.1 文本相似度在实际场景中的应用

在文本处理领域，文本相似度计算是衡量两段文本语义接近程度的关键指标。对于 Python 开发者而言，典型场景包括去重、相似文档检索、问答系统的检索阶段等。通过引入 TF-IDF 与 余弦相似度，可以把文本转化为数值向量，并基于向量间的角度关系来评估相似性。

本文将以 TF-IDF 与 余弦相似度 为主线，给出从原理到可运行代码的完整实战路径，让读者可以在本地环境中复现具体的文本相似度计算流程。

1.2 数据预处理与特征工程要点

在进入向量化之前，文本需要经过 清洗、分词、统一小写、去停用词 等预处理步骤。这些步骤对文本向量化的质量影响很大，因为它决定了哪些词汇进入 TF-IDF 权重计算。

一个稳定的实现通常包含：分词器选择、停用词表、词干提取（或 词形还原）和统一编码。下面的代码片段展示了一个简化的文本预处理流程。

import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwordsdef normalize(text):text = text.lower()text = re.sub(r'[^a-z0-9\s]', ' ', text)tokens = word_tokenize(text)stopset = set(stopwords.words('english'))tokens = [t for t in tokens if t not in stopset]return ' '.join(tokens)text = "Python is great for text processing. TF-IDF with cosine similarity!"
print(normalize(text))

二、TF-IDF 的原理与实现

2.1 TF-IDF 的公式与直观含义

TF-IDF 代表词频与逆文档频率的乘积，用来衡量一个词在文档集合中的代表性。TF 越高，说明该词在当前文档中的出现情况越突出；IDF 越小，表示该词在多个文档中普遍出现，区分度下降。最终的权重使得常见但信息量低的词被抑制，稀有且区分度高的词得到增强。

理解这一点对实现准确的文本相似度计算至关重要，因为 向量化后的特征空间直接决定了后续的向量距离或相似度结果。若将停用词、标点或高频词错误纳入，则会显著降低相似度的判别能力。

2.2 使用 scikit-learn 实现 TF-IDF

在实际工程中，采用现成的实现可以极大提升效率与稳定性。scikit-learn 的 TfidfVectorizer 将文本直接转换为稀疏矩阵，支持多种参数来定制 n-gram、停用词、以及 max_features 等。下面给出一个最小可运行的示例，展示从原始文本到向量表示的完整流程。

from sklearn.feature_extraction.text import TfidfVectorizerdocs = ["The quick brown fox jumps over the lazy dog","A fast brown fox leaps over a sleepy dog","Lorem ipsum dolor sit amet"
]vectorizer = TfidfVectorizer(stop_words='english', max_features=5000)
tfidf = vectorizer.fit_transform(docs)
print(tfidf.shape)
print(vectorizer.get_feature_names_out()[:10])

三、余弦相似度的计算与应用

3.1 余弦相似度的公式与直观理解

余弦相似度测量两向量夹角的余弦值，范围在 [-1, 1] 之间，但文本向量通常取非负值，因此实际范围在 [0, 1]。当两段文本的向量方向越接近，夹角越小，相似度越高。这一特性使得余弦相似度适合衡量语言中的语义重叠，而不是简单的词汇重合数量。

在高维稀疏向量空间中，长度归一化也是必要步骤，因为向量的长度会影响内积。通过对 TF-IDF 向量进行 L2 归一化，可以让余弦相似度仅体现方向信息。

3.2 基于向量的相似度评估实例

下面给出一个常见的实战场景：给定两段文本，计算它们的 余弦相似度。我们可以复用上面的 TfidfVectorizer，并结合 scikit-learn 的 cosine_similarity 工具直接得到结果。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similaritytexts = ["Natural language processing enables machines to understand human language.","Machines can comprehend language using natural language processing techniques."
]vectorizer = TfidfVectorizer(stop_words='english')
tfidf = vectorizer.fit_transform(texts)cos = cosine_similarity(tfidf[0:1], tfidf[1:2])
print("Cosine similarity:", cos[0][0])

四、实战案例：在实际项目中的落地

4.1 去重与近似检索场景

在内容管理系统中，文本去重和 近似检索是提升用户体验的关键。通过将文档集合映射到 TF-IDF 向量，再以 余弦相似度进行排序，可以快速找到与查询文本高度相近的文档。

Python文本相似度计算：TF-IDF与余弦相似度的详解与实战

需要注意的是，实际系统通常会对文本集合进行分批处理并缓存向量表示，以降低 计算代价。此外，结合 索引结构（如 Annoy、FAISS）可以在大规模数据下实现低延迟的相似性检索。

4.2 实战中的扩展与优化点

除了基础的 TF-IDF 与 余弦相似度，还可以引入 BM25、Word2Vec/FastText 等额外的文本表征，以提升在长文本或专业领域文档中的表现。

为提高鲁棒性，可将多语言文本、同义词、拼写变体等整合到特征工程中，结合 n-gram 以捕捉短语信息。下列代码展示了将 2-gram 纳入 TF-IDF 的做法。

tfidf = TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_features=10000)
X = tfidf.fit_transform(docs)
cos = cosine_similarity(X[0:1], X[1:2])
print("Bigram TF-IDF Cosine:", cos[0][0])