使用 GloVe 进行自然语言处理
为什么要处理假新闻?
假新闻是指通过口口相传和传统媒体以及最近通过数字通信形式(如编辑过的视频、未经验证的广告和社交媒体传播的谣言)传播的错误信息、误导信息或恶意信息。社交媒体传播的假新闻已经成为一个严重的问题,因为社交媒体上流传的错误信息,可能导致暴力事件、自杀等。image.png
数据集简介
该数据集包含约 40,000 篇文章,包括虚假和真实新闻。我们的目标是训练我们的模型,以便它可以正确地预测给定新闻是否真实或虚假。虚假和真实新闻数据分别在两个不同的数据集中,每个数据集包含约 20,000 篇文章。
In [1]:
# 这个 Python 3 环境安装了许多有用的分析库
# 来自 kaggle/python 的 docker 镜像: https://github.com/kaggle/docker-python
# 例如,这里有几个有用的包要加载
import numpy as np # 线性代数
import pandas as pd # 数据处理, CSV file I/O (e.g. pd.read_csv)
# 输入数据文件在 './Input/' 目录中可用。
# 例如,运行它(通过单击运行或按 Shift+Enter)将列出输入目录下的所有文件
加载必要的库
In [2]:
!pip install --user -q nltk wordcloud
[33mWARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv[0m[33m
为什么要处理假新闻?
假新闻是指通过口口相传和传统媒体以及最近通过数字通信形式(如编辑过的视频、未经验证的广告和社交媒体传播的谣言)传播的错误信息、误导信息或恶意信息。社交媒体传播的假新闻已经成为一个严重的问题,因为社交媒体上流传的错误信息,可能导致暴力事件、自杀等。image.png
数据集简介
该数据集包含约 40,000 篇文章,包括虚假和真实新闻。我们的目标是训练我们的模型,以便它可以正确地预测给定新闻是否真实或虚假。虚假和真实新闻数据分别在两个不同的数据集中,每个数据集包含约 20,000 篇文章。
In [1]:
# 这个 Python 3 环境安装了许多有用的分析库
# 来自 kaggle/python 的 docker 镜像: https://github.com/kaggle/docker-python
# 例如,这里有几个有用的包要加载
import numpy as np # 线性代数
import pandas as pd # 数据处理, CSV file I/O (e.g. pd.read_csv)
# 输入数据文件在 './Input/' 目录中可用。
# 例如,运行它(通过单击运行或按 Shift+Enter)将列出输入目录下的所有文件
加载必要的库
In [2]:
!pip install --user -q nltk wordcloud
[33mWARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv[0m[33m
