使用Python创建词云

作者:神秘网友 发布时间:2020-10-31 23:34:03

使用Python创建词云

使用Python创建词云

介绍

从开始从事数据可视化工作的那一天起,我就爱上它了,我总是喜欢从数据中获得有用的见解。

在此之前,我只了解基本图表,例如条形图,散点图,直方图等,这些基本图表内置在tableau中,而Power BI则用于数据可视化。通过每天完成此任务,我遇到了许多新图表,例如径向仪表盘,华夫图等。

因此,出于好奇,最近我正在搜索数据可视化中使用的所有图表类型,这些词云引起了我的注意,我发现它非常有趣。之后,我尝试使用Tableau和Power BI中的少量数据来制作词云,在成功尝试之后,我想通过使用条形图,饼图和其他图表的代码来尝试使用它。

词云是什么?

定义:词云是一个简单但功能强大的可视化表示对象,用于文本处理,它以更大,更粗的字母和不同的颜色显示最常用的词,单词的大小越小,重要性就越小。

使用Python创建词云

词云的用途

1.社交媒体上的热门标签(Instagram,Twitter):全世界的社交媒体都在寻找最新的趋势,因此,我们可以获取人们在其帖子中使用最多的标签来探索最新的趋势。

2.媒体中的热门话题:分析新闻报道,我们可以在头条新闻中找到关键字,并提取出前n个需求较高的主题,来获得所需的结果,即前n个热门媒体主题。

3.电子商务中的搜索词:在电子商务购物网站中,网站所有者可以制作被搜索次数最多的购物商品的词云,这样,他就可以了解在特定时期内哪些商品需求量最大。

让我们开始使用Python来实现词云

首先,我们需要在jupyter notebook中安装所有库。

在python中,我们将安装一个内置库wordcloud。在Anaconda命令提示符下,输入以下代码:

pip install wordcloud

如果你的anaconda环境支持conda,请输入:

conda install wordcloud

这可以直接在notebook中实现,只需在代码的开头添加“!”即可。

像这样:

!pip install wordcloud

但现在我想生成拥有任何主题的维基百科文本的词云,因此,我将需要一个Wikipedia库来访问Wikipedia API,可以通过在anaconda命令提示符下安装Wikipedia来完成,如下所示:

pip install wikipedia

现在我们还需要其他一些库,它们是numpy,matplotlib和pandas。

截至目前,我们需要的库就安装好了

import wikipedia

result= wikipedia.page("MachineLearning")
final_result = result.content
print(final_result)

机器学习维基百科页面的输出:

使用Python创建词云

上图是我们通过检索Wikipedia的机器学习页面获得的输出图像,我们还可以看到它可以向下滚动,这表示将检索整个页面。

在这里,我们还可以通过摘要方法得到页面的摘要,如:

result= wikipedia.summary("MachineLearning", sentences=5)
print(result)

这里我们有句子的参数,因此我们可以用它来检索特定的行数。

使用Python创建词云

输出5个句子

让我们一起创建wordcloud

from wordcloud import WordCloud, StopWords
import matplotlib.pyplot as plt 
def plot_cloud(wordcloud):
    plt.figure(figsize=(10, 10))
    plt.imshow(wordcloud) 
    plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='pink', random_state=10).generate(final_result)
plot_cloud(wordcloud)

停用词是没有任何含义的单词,例如‘is’, ‘are’, ‘an’, ‘I’ 等。

Wordcloud带有内置停用词库,该库将自动从文本中删除停用词。

同时我们也可以通过stopwords.add()函数在python中添加停用词的选择。

Wordcloud方法可以设置词云的宽度和高度,我将它们都设置为500,背景色设置为粉红色。如果不添加随机状态,则每次运行代码时,词云都会看起来不同,我们可以将其设置为任何int值。

从上面的代码中,我们将获得这样的词云:

使用Python创建词云

通过查看上图,我们可以看到机器学习是最常用的词,还有一些其他经常使用的词是模型,任务,训练和数据,因此,我们可以得出结论,机器学习是训练数据模型的任务。

我们还可以在这里通过背景颜色方法更改背景颜色,并通过colormap方法更改字体颜色,还可以在背景颜色中添加颜色的哈希码,但是mapcolor带有内置的特定颜色。

让我们通过使用哈希码将背景色更改为蓝绿色,将字体颜色更改为蓝色:

from wordcloud import WordCloud, StopWords
import matplotlib.pyplot as plt
def plot_cloud(wordcloud):
    plt.figure(figsize=(10, 10))
    plt.imshow(wordcloud)
    plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='#40E0D0', colormap="ocean",  random_state=10).generate(final_result)
plot_cloud(wordcloud)


使用Python创建词云

在这里,我指定了ocean,如果我添加了一些错误的颜色图,jupyter将抛出一个值错误,并向我显示颜色图的可用选项,如下所示:

使用Python创建词云

我们还可以使用PIL库在任何图像中实现词云。

尾注

在本文中,我们讨论了词云,词云的定义,应用领域以及使用python实现词云。

参考链接:https://www.analyticsvidhya.com/blog/2020/10/word-cloud-or-tag-cloud-in-python/

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

使用Python创建词云

使用Python创建词云相关教程

  1. 使用PolyGen和PyTorch生成3D模型

    使用PolyGen和PyTorch生成3D模型 深度学习研究的一个新兴领域是致力于将DL技术应用于3D几何和计算机图形应用程序, 对于希望自己尝试3D深度学习的PyTorch用户而言,一个叫Kaolin 库值得研究。 对于TensorFlow用户,还有TensorFlow Graphics库。 3D技术中一个

  2. C#的数组和集合

    C#的数组和集合 数组的概念 一维数组和二维数组的使用 动态数组 数组的操作运算 ArrayList集合类的使用与操作 数组定义需要包含以下要素: 元素类型 数组维数 每个维度的上下限 声明,初始化语法: int [] arr=new int[8];//一维(8个数)int [,]arr=new int[3,

  3. Opencv python 漫水填充(魔棒处理)

    Opencv python 漫水填充(魔棒处理) 处理代码 import cv2 as cvimport numpy as npdef main(): # 1.导入图片 img_org = cv.imread(./img.png, cv.IMREAD_COLOR) # 2.设置参数 seed_point = (290, 290) # 坐标 new_val = (255, 255, 255) # 赋新值 lower_diff =

  4. JS_js操作文件,js对文件增删查,复制,移动,创建,读取

    JS_js操作文件,js对文件增删查,复制,移动,创建,读取 特别注意: 只在IE浏览器中运行有效 !DOCTYPE htmlhtmlheadmeta charset=utf-8 /meta name=viewport content=width=device-width, initial-scale=1title/title/headbodytable width=341 border=1trtd

  5. OpenCV+python识别并打印HSV颜色

    OpenCV+python识别并打印HSV颜色 import cv2import imutilscap = cv2.VideoCapture(0)## Readimg = cv2.imread(D:/deng/ppp/3.png)def Detector_color(): while(True): # Capture frame-by-frame ret, frame = cap.read() frame = imutils.resize(frame, widt

  6. 科研楼底服务器使用方法 For Lab1005

    科研楼底服务器使用方法 For Lab1005 注意: (该方式 只支持一个人使用 ,为了保证机器的运行稳定,也只推荐一个时间只有一个用户使用。大家可以在自己的机器上 先把代码调试好,然后上传到服务器跑 , 使用之前在群里问一嘴有没有人在用 ) 咱们实验室的309

  7. 使用tftpd32.exe将编译好的文件传入MTK7561开发板、以太网配置多

    使用tftpd32.exe将编译好的文件传入MTK7561开发板、以太网配置多个静态地址 使用tftpd32.exe将编译好的文件传入MTK7561开发板 链接:https://pan.baidu.com/s/1gU5Mf8vuYTfdUGSQVUv20Q 提取码:xxxx 将需要传入的文件放到该tftpd32.exe文件所在目录,运行tftp

  8. 使用 Nginx 服务器配置 flv、mp4,可以直接浏览器播放

    使用 Nginx 服务器配置 flv、mp4,可以直接浏览器播放 由于需求,需要提供浏览器播放 mp4 和 flv 视频功能。首先浏览器直接支持 flv 和 mp4 格式。只需要在对应的 WEB 服务上完成配置即可。 注意,我的需求是通过浏览器直接播放 MP4,而不是服务器提供 RTMP