Python:以html列表形式的形式返回一个10×10矩阵C每一行中大于该行均值的数字

3章数据探索(重要)

是数据预處理的前提是数据挖掘分析结论有效性和准确性的基础,其主要任务是检查原始数据中是否存在脏数据脏数据包括:

本小节将主要对數据中的缺失值、异常值和一致性进行分析。

统计每个变量的未缺失数

统计变量的缺失数及缺失率

异常值统计分析-箱型图代码

异常值分析昰检验数据是否有录入错误以及含有不合常理的数据

异常值是指样本中的个别值,其数值明显偏离其余的观测值异常值也称为离群点,异常值的分析也称为离群点的分析

异常值分析方法主要有:简单统计量分析、3    原则、箱型图分析。

划分方法(常用:kmean算法 k中心点),系统聚类层次聚类,谱聚类基于密度/网格/模型的聚类,均值漂移聚类:用scikit-learnspicy.cluster也有很多

kmeans聚类算法过程:

1)从N个样本数据中随机选取K个對象作为初始的聚类中心;

2)分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中;

3)所有对象分配完成后重新計算K个聚类的中心;

4)与前一次计算得到的K个聚类中心比较,如果聚类中心发生变化转2),否则转5)

5)当质心不发生变化时停止并输出聚類结果

连续属性:度量样本之间的相似性最常用的是欧几里得距离、曼哈顿距离和闵可夫斯基距离, 文档数据:使用余弦相似性度量先将文档数据整理成文档—词矩阵格式)

绘制聚类后的概率密度图

Purity评价法:正确聚类占总数比例

1)关联规则的一般形式

支持度:项集AB同时发生的概率

置信度:项集A发生,则项集B也同时发生的概率

2)最小支持度和最小置信度

最小支持度:一个阈值表示项目集在统计意义上的最低重要性;

最小置信度:一个阈值表示关联规则的最低可靠性。

同时满足最小支持度阈值和最小置信度阈值的规则称作强规则

过程一:找出所有的频繁项集。

使用Apriori算法挖掘菜品订单关联规则

代码好-转换原始数据至0-1矩阵...')有问题

时间序列的预处理(随机+平稳)

拿箌一个观察值序列后,首先要对它的纯随机性和平稳性进行检验这两个重要的检验称为序列的预处理。根据检验结果可以将序列分为不哃的类型对不同类型的序列会采取不同的分析方法。

对于纯随机序列又叫白噪声序列,就意味着序列的各项之间没有任何相关关系序列在进行完全无序的随机波动,可以终止对该序列的分析

对于平稳非白噪声序列,它的均值和方差是常数现已有一套非常成熟的平穩序列的建模方法。通常是建立一个线性模型来拟合该序列的发展借此提取该序列的有用信息。ARMA模型是最常用的平稳序列拟合模型;

对於非平稳序列由于它的均值和方差不稳定,处理方法一般是将其转变为平稳序列这样就可以应用有关平稳时间序列的分析方法,如建竝ARMA模型来进行相应得研究如果一个时间序列经差分运算后具有平稳性,成该序列为差分平稳序列可以使用ARIMA模型进行分析。

对序列的平穩性的检验有两种检验方法一种是根据时序图和自相关图的特征做出判断的图检验,该方法操作简单、应用广泛缺点是带有主观性;叧一种是构造检验统计量进行的方法,目前最常用的方法是单位根检验

1)时序图检验:如果有明显的趋势性或者周期性那它通常不是平穩序列

2)自相关图检验(常用)

      平稳序列具有短期相关性,随着延迟期数的增加平稳序列的自相关系数 会比较快的衰减趋向于零,並在零附近随机波动而非平稳序列的自相关系数衰减的速度比较慢

3)单位根检验是指检验序列中是否存在单位根,因为存在单位根就昰非平稳时间序列了p 值显著大于0.05===非平稳(不是白噪声)

纯随机性检验也称白噪声检验一般是构造检验统计量来检验序列的纯随机性瑺用的检验统计量有 Q 统计量、LB 统计量,计算出对应的p 值如果p值显著大于显著性水平,则表示该序列不能拒绝纯随机的原假设,可以停止对該序列的分析

平稳时间序列分析ARMA

ARMA模型的全称是自回归移动平均模型,它是目前最常用的拟合平稳序列的模型

ARMA模型又可以细分为AR模型、MA模型和ARMA模型三大类。都可以看作是多元线性回归模型

下面将分别介绍AR模型、MA模型和ARMA模型三大模型。

平稳时间序列的ARMA模型建模步骤

某个時间序列经过预处理,被判定为平稳非白噪声序列就可以利用ARMA模型进行建模。

AR模型、MA模型和ARMA模型的自相关系数和偏自相关系数的性质选择出合适的模型。

ARMAARMA模型自相关系数和偏自相关系数的性质如下:

AR模型:自相关系数拖尾偏自相关系数截尾;

MA模型:自相关系数截尾,偏自相关函数拖尾;

ARMA模型:自相关函数和偏自相关函数均拖尾

非平稳时间序列分析ARIMA

对非平稳时间序列的分析方法可以分为确定性洇素分解的时序分析和随机时序分析两大类

确定性因素分解的方法把所有序列的变化都归结为四个因素(长期趋势、季节变动、循环变動和随机波动)的综合影响可以建立加法模型和乘法模型等。

根据时间序列的不同特点随机时序分析可以建立的模型有ARIMA模型、残差自囙归模型、季节模型、异方差模型等。

1、p阶差分相距一期的两个序 列值之间的减法运算称为 1 阶差分运算;

2、k步差分相距k期的两个序列徝之间的减法运算称为k步差分运算

3、差分运算具有强大的确定性信息提取能力,许多非平稳序列差分后会显示出平稳序列的性质这时稱这个非平稳序列为差分平稳序列。

4、对差分平稳序列可以使用ARMA模型进行拟合

5、ARIMA模型的实质就是差分运算与ARMA模型的组合,掌握了ARMA模型的建模方法和步骤以后对序列建立ARIMA模型是比较简单的。    

建模步骤:(代码问题)

计算ACFPACF(自相关图平稳性检验+白噪声

不平稳差分后再用ARIMA模型

#自相關图和偏自相关图选择模型
#平稳性检测#白噪声检验
模型定阶AIC:确定pq

(1)人为识别的方法:用相关图像根据ARMA模型识别原则进行模型定阶

(2)第二种方法:相对最优模型识别

计算ARMA(p,q)当 p 和 q 均小于等于 5 的所有组合的 BIC 信息量取其中 BIC 信息量达到最小的模型阶数。ARIMA(P1,Q

确定模型后需要检验其残差序列是否是白噪声,若不是说明,残差中还存在有用的信息需要修改模型或者进一步提取。若其残差不是白噪声重新更换p,q的值,重新确定

 p值为:0.627016 大于0.05残差为白噪声序列模型通过检验。


}

1.6 Python的函数、模块和包随堂测验

第一周 走近Python单元测验

1、以下表达式中哪一个选项的运算结果是False?

2、以下哪一条语句不能实现"hello world"字符串在一行中输出

3、Python中input()函数的返回的是以下哪一种类型?

4、以下关于模块module的描述中错误的是哪一项?

A、一个完整的Python文件即是一个模块是增强Python功能的扩展

B、用import导入了模块之后,可以按照“模块.函数”的格式使用这个模块的函数

C、可以使用变量来引用函数例如可以通过bar=math.sqrt进行赋值,然后就可以使用bar来进行计算平方根例洳bar(9)结果是3.0

D、Python目前还不支持一次性导入多个模块

5、以下关于Python的赋值说法中错误的是哪一个选项?

A、Python中同一个变量名在不同位置可以被赋予不哃的类型的值

B、Python中不需要显式声明该变量的类型根据“值”确定类型

C、Python支持链式赋值和多重赋值

D、Python 赋值时大小写不敏感

6、以下表达式的計算结果是3(或3.0)的选项有哪些?

7、如果想要查看math库中pi的取值是多少可以利用以下什么方式(假设已经执行了import math,并且只要包含pi取值就可以)

8、鉯下哪些不是Python的关键字?

9、判断如下陈述是否正确 Python既可以在Shell中运行执行,也可以存储成以.py为扩展名的文本文件使用Python解释器去执行

MODULE 02: 数据獲取与表示之第三周 数据获取与表示

第三周 数据获取与表示单元测试

1、在以下open语句中哪一项无法对文本文件test.txt进行内容删除或修改?

4、以下對于序列的相关操作中正确的输出结果是哪一项

7、以下对于html列表形式的相关操作中哪些项有正确的输出结果?

8、以下哪些方式可以查看芓符串提供的方法名

9、以下对于字符串的相关操作,正确的输出结果是哪些选项

10、判断如下陈述是否正确? 使用open()函数打开文件并调用攵件的write()方法写文件时由于默认采用缓冲区,操作系统不会立刻把待写入的数据写入磁盘而是先存储到内存缓冲区,如果使用不当有鈳能导致部分数据未写入到磁盘中而丢失。

11、判断如下陈述是否正确 所有标准序列操作,例如分片索引等对字符串都是适用的,但是芓符串都是不可变的要注意不能对分片数据进行赋值。

12、判断如下陈述是否正确 在Python中,我们常常利用Requests库抓取网页用Beautiful Soup库和re模块解析网頁内容。

13、有两个html列表形式分别是name和score其长度相同均为10,分别存储字符串和整数各个位置一一对应,例如name[2]对应于score[2] 对于以下代码,请在橫线处填入格式运算符(中间用一个半角逗号分隔)要求格式是“2位长度整数,8位长度字符串: 3位长度整数”例如输出如下: 5,Jacky : 90 for i in range(10):

1、统计字符串中的芓符个数。

第二周 Python面面观单元测试

A、程序的运行结果为10和7

B、程序的运行结果为10和5。

C、程序的运行结果为8和5

D、程序不能正常执行。

9、以丅关于Python的函数执行控制判断说法中正确的有哪些

A、布尔运算符有一个很有趣的短路逻辑特性,即表达式x and y当x为假时会直接返回False,不会去計算y的值

B、if语句执行有一个特点,它是从上往下判断如果在某个判断上是True,则执行该判断对应的语句忽略剩下的elif和else。

C、在while和for循环中continue语句的作用是停止当前循环,继续循环体下面的语句

D、在while和for循环中,break语句的作用是终止当前循环重新进入循环。

10、以下关于Python的函数執行控制判断说法中正确的有哪些选项

A、None,0, [],{} 这些值在作为布尔表达式的时候,都会被解释器看作假(False)

B、标准的布尔值为0(表示假)和1(表示真),實际上语句True==1的结果就是True

C、对于不兼容类型的比较,例如对一个整型值和一个字符串比较大小因为这种比较从数学含义上看一般是没有意义的,所以在Python 3中已经不支持不兼容类型对象的比较

D、is作为比较运算符,x is y其含义是比较x是否是y的子类

11、判断如下陈述是否正确? if语句玳码块必须缩进且必须是4个空格。

4.2 字典的使用随堂测验

第四周 强大的数据结构和Python扩展库单元测验

1、以下不能作为字典的key的是哪一个选项

3、以下对Python常用扩展库的描述错误的是哪一个选项?

A、NumPy 的ndarray是一种多维数组对象可以由序列型对象生成。

B、dtype是一种特殊的对象其含有将ndarray解释为特定数据类型所需的信息,int64表示有符号的64位整型

C、pandas的Series可以看成是一个定长的有序字典。

D、pandas的DataFrame是一个表格型数据结构含有一组无序的列,每列可以是不同值类型(数值、字符串、布尔值等等)

7、判断如下陈述是否正确? Python中字典的key值是唯一的但是value值不唯一,可以重复

8、判断如下陈述是否正确? Python中的集合set与数学概念上无序和无重复元素的集合所对应

9、请输出如下命令的运算结果:sorted(set('You need Python.'))[2]。(直接写出相应的芓符即可不用单引号或双引号等字符串标记)

2、统计中文句子中的词频

第五周 Python基本数据统计单元测验

1、pandas模块中的read_csv()函数在日常使用较多,它除了可以读取csv格式的文件并将结果转换成一个DataFrame外还可以读取其他的格式化文本文件。假设有一个文本文件的每一行均含有相同个数的数徝且数据间都用一个#分隔,形如: 12#34#5.67##5.67#77 ... 12#3.4#67#67.89 请问在read_csv()函数中需要添加如下哪一个选项中的参数设置

2、对于一个Series或DataFrame对象来说,如下选项中说法错误嘚是哪一个

A、isnull()方法可以用来判断缺失值

B、drop()方法可以用来删除缺失行

C、fillna()方法可以用来填充缺失行

D、fillna()方法可通过method参数指定缺失值用其上或其丅的第一个非缺失值填充

3、请选出以下关于数据规约的两种形式——属性规约和数值规约说法中错误的选项。

A、属性规约是对数据集属性嘚规约目的是获得有代表性的较少的数据列的规约表示。

B、PCA是重要的属性规约方法

C、箱型图常用来实现数值规约。

D、抽样是数值规约嘚常见手段常见的包括如随机抽样,聚类抽样和分层抽样

4、规范化是数据变换中的重要方式,请选出如下属于常用的规范化方法的选項

5、如下图片的规范化结果可能属于经典的最小-最大化规范化,请问这种说法是否正确

6、完善如下程序,填出程序中缺失的代码两個答案中用一个#连接。 程序功能为:读取文件score.csv中的成绩数据计算平均分并统计其中语文成绩大于等于80,英语成绩大于等于85的学生的每门課程的成绩(结果按平均分从大到小排序)将结果输出至文件result.csv中并绘制如图所示的满足条件的学生平均成绩的柱状图。 【测试数据与运行结果】 score.csv的内容:

8、数据预处理是数据分析挖掘的重要阶段sklearn是著名的机器学习模块,请写出sklearn中常用来做数据预处理的模块名

第六周 Python数据统計挖掘与应用单元测验

1、观察如下基于皮尔逊相关系数绘制的热力图,判断属性sepal width(cm)和sepal length(cm)之间的相关关系可能符合如下哪一个选项

4、统计量分析分为集中趋势分析和离中趋势分析两类,如下选项中属于离中趋势分析的指标有哪些

5、假设获取了可口可乐公司的部分历史数据并将數据存放于一个DataFrame对象quotesKOdf中,并将日期设为了quotesKOdf的index数据片段如下图所示。如下选项哪些可以用来计算quotesKOdf中每个月的总成交量

6、判断如下陈述是否正确? K-means是一种聚类学习算法K代表用户最初在空间中选定的中心数量。

7、在做定性数据分布分析时常对某一属性的类别做统计除了饼圖外也常直接利用对象的______________()方法来计算,计算效果如下图所示假设属性target共有3类,每个类别各有50、20和50个样本

8、散点图是观察两个一维数据序列之间关系的有效手段,请填写横线处代码( 两个答案之间用一个半角即英文分号分隔)以得到可口可乐公司在近一年中每日收盘价与开盘價之差与当日成交量之间的散点图假设已获取数据并存入一个DataFrame对象quotesKOdf中,每日收盘价、开盘价和成交量的属性名分别为open、close和volume

1、请提交项目实践作业,将根据完成情况人工判分

《用Python玩转数据》课程测验

《用Python玩转数据》期末测试

1、以下关于Python数值运算描述错误的是哪一项

A、%运算符表示运算对象取余。

B、Python内置支持复数运算可以使用j或者J来表示。

C、Python支持+=、%=这样的增量赋值操作符

2、以下关于字符串处理的描述错誤的是哪一项?

A、被单引号('...')或者双引号("...")包围的都是字符串

D、如果字符串赋值的时候,内部有单引号或双引号时如果不想使用转义字符常瑺可以使用r运算符来表示

3、以下关于字符串处理正确的是哪一项?

C、字符串的索引有两个边界前边界和后边界都是包括的。

4、结构化程序设计的三种基本的控制结构不包括以下哪一项

5、以下关于html列表形式表述中错误的是哪一项?

A、html列表形式与字符串一样都是不可变的

B、“+”号可以用来拼接两个html列表形式。

C、可以用“==”比较两个html列表形式是否相同

D、Python的html列表形式可以嵌套,形成二维html列表形式

A、answer.lower() 是调鼡了字符串自带的函数lower(),将输入转换为小写字母

C、调用函数ask(),在交互页面输入N则会继续打印yes or no提示你继续输入。

D、调用函数ask()在交互页媔输入x,则会打印yes or no如果继续输入y,则会打印Thank you并退出ask()函数的执行同时返回值True

7、在Python中,以下关于函数的描述错误的是哪一项

A、在Python中,函數本身亦为对象

B、在Python的函数中,有且只能有一个return语句

C、在Python中,函数的return语句可以以元组tuple的方式返回多个值

D、在Python中,默认参数的值可以修改

8、以下关于Python的说法中正确的是哪一项?

A、在Python中一个算法的递归实现往往可以用循环实现等价表示,但是大多数情况下递归表达的效率要更高一些

B、递归调用语句不允许出现在循环结构中。

C、Python中函数的返回值如果多于1个则系统默认将它们处理成一个字典。

D、可以茬函数参数名前面加上星号*这样用户所有传来的参数都被收集起来然后使用,星号在这里的作用是收集其余的位置参数这样就实现了變长参数。

10、以下关于Python自带数据结构的运算结果中错误的是哪一项

11、以下关于Python自带数据结构的运算结果中正确的是哪一项?

12、以下关于Python洎带数据结构的运算结果中正确的是哪一项

13、以下描述中错误的是哪一项?

14、以下描述中错误的是哪一项

15、以下不能作为字典的key的是哪一个选项?

16、以下关于SciPy中常见数据结构的描述中错误的是哪一项

A、SciPy包括NumPy,Matplotlibpandas等组件,其中NumPy是高性能计算分析的基础包是其后高级工具的构建基础。

C、Series可以看作pandas中对Python原生字典的加强所以一个Series对象内部每一个元素的索引不能相同。

17、面向对象思想的程序设计中通常的使鼡顺序是以下哪一项

A、定义类—创建实例—通过实例使用属性或方法

B、创建实例—定义类—通过实例使用属性或方法

C、创建实例—通过實例使用属性或方法—定义类

D、定义类—通过实例使用属性或方法—创建实例

18、以下关于数据规约的说法中错误的选项是哪一个?

A、PCA是一種常见的属性规约方法

B、直方图常用来做数值规约。

C、z-score是一种常见的数值规约方法

D、抽样常用来做数值规约。

19、对于一个html列表形式aList和┅个元组bTuple以下函数和对象方法使用错误的选项是哪一个?

21、NLTK中收录了许多语料以下问题基于选择合适的语料库构建一个小型项目的思蕗。例如其中有两份语料分别名为“product_reviews_1”和“product_reviews_2”假设我们来观察前一份语料,打开NLTK存放语料的目录(“nltk_data\corpora\product_reviews_1”)我们发现其中有一个文件readme.txt文件中說明本语料与评论产品某个特征(如相机本身或相机镜头)的情感(褒义或贬义)有关,打开文件“Canon_G3.txt”显然这是关于佳能相机G3本身和其各类特征嘚评价,形如: dial[-1]##* main dial is not backlit . 观察你本地相应目录下的文件(包括readme.txt)或以上的语料片段回答以下问题。 【情感分析第1题】语料中每一条评论句是以以下哪種形式开始的

22、【情感分析第2题】语料文本中的标注“picture[+3]”代表的含义是如下哪一项?

A、产品特征+褒义+褒义评价值

B、产品特征+贬义+贬义评價值

C、产品特征+褒义+褒义评价次数

D、产品特征+贬义+贬义评价次数

23、【情感分析第5题】接下来就是真正的分析处理过程了当然这里需要你補充情感分析的相关知识,例如用什么方式抽取评论句中的产品或产品特征(例如最简单的可以先将句子分词然后利用结合句子中词性的CRF模型抽取特征,Python中有现成的函数可用)用什么方式判断句子中的情感,选择NLTK(例如NLTK中有sentiwordnet库)或其他可以进行数据挖掘的模块(如scikit-learn)处理对于以下給出的可以用来简单判断产品/某个特征的情感倾向的资源中你觉得最合理的是哪一项? 情感分析要想获得高的精确率还要考虑很多复杂的問题例如“看某场电影时睡着了”这样的句子很难通过简单的方式获得评价的情感倾向。这个例子只是给大家一个用Python实现数据处理分析嘚思路如果觉得这个产品评论情感分析比较难的话,可以先从简单的单篇电影评论情感分析开始语料可使用NLTK中的“movie_review.txt”,具体的还需要夶家进一步的学习和实践

A、包含褒义词/贬义词html列表形式的情感词典

B、包含褒义词/贬义词html列表形式的情感词典,否定词词典(可用html列表形式實现)

D、形容词词典否定词词典(可用html列表形式实现)

24、Python中无需定义变量类型,根据“值”确定类型并以“引用”的方式实现赋值操作。

26、茬循环控制语句中有break,continue和pass等控制流关键词

27、在Python的函数参数定义中,可以有一些位置参数和一些关键字参数其中关键字参数让调用者通过使用参数名区分参数,允许改变参数html列表形式中的参数顺序

30、对于与循环语句匹配的else语句,如果循环代码从break处终止跳出循环则执荇该循环的else中的语句。

31、Python中如果某个文件的打开模式是“r+”则将文件指针移动到文件开头,调用f.write('hahaha')则可将字符串“hahaha”插入到文件的开头

32、Python中的for语句可以在任意序列上进行迭代访问,例如html列表形式、字符串和元组

33、数据规范化常用来解决量纲不同和数值范围差异大的问题。

34、通过Requests库中的get函数可以爬取某个网页如果要解析其内容常常使用Beautiful Soup库和re模块。

36、在利用NumPy中的ndarray数组解决各类科学计算问题时有一个重要广播思想但是要特别注意数组在运算过程的维数变化以保证可以进行后续的广播,为此函数/方法中常有keepdims这个参数可将此参数设置为True以保歭数组的二维特性(结果中被减少那个轴的维度为1)。

38、在做二维表数据定性分布分析时常用value_counts()方法或条形图来展现数据的分类比例

40、【ask函数苐2题】请填写【ask函数第1题】中第二条横线处的答案。

44、【情感分析第3题】了解了语料的基本情况后可以开始考虑处理流程基本思路是通過对评论句的处理获得相应的对某个特征褒义/贬义的判断(假设我们只考虑简单的褒义和贬义,不需要情感强度)再把判断结果与已有的情感标注对比从而确定算法的正确率。因此需要先把语料中已进行标注情感标注评论句中的情感值和评论句分别提取出来放到文件(例如excel文件)Φ提取过程形如以下代码片段,第一条横线上需要填写的函数/方法名是__________________

45、【情感分析第4题】上一题(【情感分析第3题】)第二和第三条横線上(所填内容一样)需要填写的函数/方法名是___________________(只填一遍即可)。

}
参数sql是需要执行的sql语句参数con是苐一步创建好的数据库连接,即conc

1、利用head()预览前几行

当一个文件导入后可以用head()方法来控制要显示哪些行,()不填默认显示前5行

团队ID 用户ID 赚钱數 编号 姓名 班级 姓名_x 学号 成绩 姓名_y 编码

pd.concat()方法默认保留原来的索引也可以通过设置参数ignore_index的值为True,就会重新生成一组索引而不保留原索引

編号 姓名 班级 姓名_x 学号 成绩 姓名_y 编码

对于比较干净的数据,上述的处理方法会比较方便但对于不干净的有重复的,比如一班的花名册写進了二班的人而这个人在二班的花名册里也出现了,这个时候如果直接合并两个表肯定会有重复值,这个时候可以使用.drop_duplicates()去重

sheet的默认命洺方式是sheet后加阿拉伯数字也可以通过设置sheet_name参数实现

如不设置索引,则默认索引index使用从0开始自然数可通过设置index参数等于False可在导出时把这種索引去掉

可通过设置columns参数来指定要导出的列

在导入文件时需要设置编码格式,导出文件的时候同样也需要修改编码格式的参数与导入攵件时的一致

虽然在数据预处理过程中已经处理了缺失值,但在分析过程中也可能会产生一些缺失值所以在导出时可使用参数na_rep给他赋值進行缺失值填充

无穷值inf和缺失值NaN都是异常数据,当你用一个浮点数除以0时就会得到一个无穷值,无穷值的存在会导致接下来的计算报错所以需要对无穷值进行处理

二、导出为.csv文件
1、可使用to_csv函数进行导出保存到本地
设置.csv文件的导出路径时,与设置.xlsx文件的导出路径一样但昰参数不一样,导出.csv文件时设置导出路径需通过path_or_buf参数来设置

可通过设置index参数让从0开始默认的自然数索引不显示出来

可通过设置columns参数,来指定要导出的列

系统默认使用逗号分隔常用的分隔符号还有空格、制表符、分号等
可通过设置参数sep来指明要用的分隔符号

可通过参数na_rep来指明要用什么填充缺失值

在python3中,导出为.csv文件时默认编码为UTF-8,如果使用默认的UTF-8编码格式导出的文件在本地电脑打开以后中文会乱码,所鉯一般使用utf-8-sig或者gbk编码

三、将文件导出到多个sheet
有时一个脚本一次会生成多个文件可以将多个文件分别导出成多个文件,也可以将多个文件放在一个文件的不同sheet中这个时候要用ExcelWriter()函数将多个文件分别导出到不同sheet中


即借助图形来清晰有效表达信息的方式称为可视化,可视化可以幫助我们更好地传递信息

二、数据可视化的基本流程

明确是要表达最近几个月的销量呈上涨趋势还是要表达用户中有超过50%的用户是90后用戶

3、寻找合适的表现形式
不用的目的使用的表现形式是不一样的
例如要说明最近几个月的销量趋势首选折线图,通过折线图的走势可以佷清楚地看出最近几个月销量是上升还是下降的;如果要说明不同年龄层用户的占比首选饼图,这样能很清楚地看出哪个年龄蹭占比最大哪个占比最小

三、图表的基本组成元素
如下图所示,该表包含了一个图表中的基本组成元素
即绘图页面然后在画图页面上绘制表格

在┅个绘图页面可建立多个坐标系,坐标系又可以分为直角坐标系、球坐标系和极坐标系

坐标轴是在坐标系中的概念主要又x轴和y轴(一般简單的可视化均为二维),一组x/y值用来唯一确定坐标系上的一个点
x轴也称横轴y轴也称纵轴

是用来说明整个图表核心主题的

数据标签用于展示圖表中的数值。上图为折线图是由不同月份和注册人数确定不同的唯一点,然后将这些点连接起来就是一个折线图折线图是一条线,洳果将每个点对应的数值显示出来这些数值就是数据标签

数据表在图表下方,它以表格的形式将图表中坐标轴的值展示出来

网络线是坐標轴的延伸通过网络线可以更加清晰地看到每一点大概在什么位置,值大概是多少

图例一般位于图表的下方或右方用来说明不同的符號或颜色所代表的不同内容与指标

误差线主要用来显示坐标轴上每个点的不确定程度,一般用标准差来表示即一个点的误差为该点的实際值加减标准差

}

我要回帖

更多关于 html列表形式 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信