数据可视化与文本分类_CodingPark编程公园-白红宇的个人博客

数据可视化与文本分类_CodingPark编程公园

发布日期：2021-06-29 15:47:08 浏览次数：3 分类：技术文章

本文共 16211 字，大约阅读时间需要 54 分钟。

文章流程

预备知识

数据可视化

语料获取

数据预处理

探索数据分布

词统计图像可视化与词云图

文本分类

文本向量化 - bag+tfidf

分类模型

预备知识

read_csv 与 to_csv 方法参数详解

read_csv方法定义：

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=None, compact_ints=None, use_unsigned=None, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None

to_csv方法定义：

DataFrame.to_csv(path_or_buf=None, sep=', ', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True, escapechar=None, decimal='.')

python类型转换

在这里插入图片描述

python 去除字符串两端的引号

在这里插入图片描述

python中单引号（’）、双引号（"）、三单引号（’’’）及三双引号（"""）的比较

单引号（’）与双引号（"）的用法比较：

1). 二者通常用于单行字符串的表示，也可通过使用\n换行后表示多行字符串

2). 使用单引号（’）表示的字符串中可以直接使用双引号而不必进行转义（ \ ’ 或 \ " ），使用双引号表示的字符串同理。

单引号、双引号）与（三单引号、三双引号）的用法比较：

1). （单引号、双引号）表示多行时需要添加换行符\n。

2). （三单引号、三双引号）表示多行时无需使用任何多余字符

3). （三单引号、三双引号）中可直接使用（单引号、双引号）而无需使用反斜杠 \ 进行转义

NumPy Ndarray 对象

NumPy 最重要的一个特点是其 N 维数组对象 ndarray，它是一系列同类型数据的集合，以 0 下标为开始进行集合中元素的索引。

ndarray 对象是用于存放同类型元素的多维数组。

ndarray 中的每个元素在内存中都有相同存储大小的区域。

ndarray 内部由以下内容组成：

一个指向数据（内存或内存映射文件中的一块数据）的指针。

数据类型或 dtype，描述在数组中的固定大小值的格子。

一个表示数组形状（shape）的元组，表示各维度大小的元组。

一个跨度元组（stride），其中的整数指的是为了前进到当前维度下一个元素需要"跨过"的字节数。

ndarray 的内部结构:

matplotlib中文乱码

下载中文字体（黑体），解压之后在系统当中安装好。

https://www.fontpalace.com/font-details/SimHei/

在这里插入图片描述

找到matplotlib字体文件夹，例如：/Users/atom-g/opt/anaconda3/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf，将SimHei.ttf拷贝到ttf文件夹下面

修改配置文件matplotlibrc 同样在matplotlib/mpl-data/fonts目录下面，修改下面三项配置
font.family : sans-serif
font.sans-serif : SimHei, Bitstream Vera Sans, Lucida Grande, Verdana, Geneva, Lucid, Arial, Helvetica, Avant Garde, sans-serif
axes.unicode_minus: False，#作用就是解决负号’-'显示为方块的问题

重新加载字体，在Python中运行如下代码即可：
from matplotlib.font_manager import _rebuild
_rebuild() # reload一下 (第一次运行可能还是不行，没关系第二次就会成功的)

如果还不行，建议加入以下语句进行尝试

每次编写代码时进行参数设置

#coding:utf-8

import matplotlib.pyplot as plt

plt.rcParams[‘font.sans-serif’]=[‘SimHei’] #用来正常显示中文标签

plt.rcParams[‘axes.unicode_minus’]=False #用来正常显示负号

零碎知识

r’’’…’’'是原字符串，\反斜线不会特殊对待

str() 函数将对象转化为适于人阅读的形式。