【图】在自然语言处理中使用预训练词嵌入-杭州市自然语言处理-承影网络-承影（安吉）科技有限公司

处理文本数据的过程与其他问题略有不同。这是因为数据通常以文本形式存在。因此，您必须找出如何将数据表示为机器学习模型可以理解的数字形式。在本文中，我们将看看如何做到这一点。最后，您将使用 TensorFlow 构建深度学习模型来对给定的文本进行分类。

加载数据
第一步是下载和加载数据。我们将使用的数据是情感分析数据集。它有两列；一列是情感，另一列是标签。让我们下载并加载它。

In [1]:
import pandas as pd
df = pd.read_csv('./sentiment.csv')

数据预处理
由于这是文本数据，因此有几件事情需要清理。这包括：

将所有句子转换为小写
删除所有引号
以某种数字形式表示所有单词
删除特殊字符，如 @ 和 %
在 TensorFlow 中，可以使用 Tokenizer 实现上述所有操作。该类需要几个参数：

num_words：您希望包含在单词索引中的最大单词数
oov_token：用于表示单词字典中找不到的单词的标记。这通常发生在处理训练数据时。数字 1 通常用于表示「词汇外」标记（「oov」标记）
一旦使用首选参数实例化了 Tokenizer，就可以使用 fit_on_texts 函数将其拟合到训练集上

在自然语言处理中使用预训练词嵌入

dukaisheng

机构好评：96

2023涨薪必备技能

如何快速创作火爆全网的手绘作品？

私单涨薪必备技能

UI动效设计师为什么拿高薪？

名师高徒挑战高薪

为什么阿里和OPPO超爱这类插画风格？

高效实战百万人气

都是图标设计，总监和你有什么区别？

高效实战职场技能

承影网络-承影（安吉）科技有限公司