在自然语言处理中使用预训练词嵌入

诚信评分:100
水平:普通
处理文本数据的过程与其他问题略有不同。这是因为数据通常以文本形式存在。因此,您必须找出如何将数据表示为机器学习模型可以理解的数字形式。在本文中,我们将看看如何做到这一点。最后,您将使用 TensorFlow 构建深度学习模型来对给定的文本进行分类。

加载数据
第一步是下载和加载数据。我们将使用的数据是情感分析数据集。它有两列;一列是情感,另一列是标签。让我们下载并加载它。

In [1]:
import pandas as pd
df = pd.read_csv('./sentiment.csv')


数据预处理
由于这是文本数据,因此有几件事情需要清理。这包括:

将所有句子转换为小写
删除所有引号
以某种数字形式表示所有单词
删除特殊字符,如 @ 和 %
在 TensorFlow 中,可以使用 Tokenizer 实现上述所有操作。该类需要几个参数:

num_words:您希望包含在单词索引中的最大单词数
oov_token:用于表示单词字典中找不到的单词的标记。这通常发生在处理训练数据时。数字 1 通常用于表示「词汇外」标记(「oov」标记)
一旦使用首选参数实例化了 Tokenizer,就可以使用 fit_on_texts 函数将其拟合到训练集上