【pandas小技巧】--DataFrame的显示参数

2023-08-23 10:27 由 wang_yb 发表于 #后端开发

我们在jupyter notebook中使用pandas显示DataFrame的数据时，
由于屏幕大小，或者数据量大小的原因，常常会觉得显示出来的表格不是特别符合预期。

这时，就需要调整pandas显示DataFrame的方式。
pandas为我们提供了很多调整显示方式的参数，具体参见文末附录中的链接。
本篇介绍几个我经常用到的参数来抛砖引玉。

1. 参数的相关函数

对于参数的控制，pandas提供了完整的方法。

describe_option：获取参数的描述信息
get_option：获取参数的值
set_option：设置参数的值
reset_option：重置参数的值，也就是将参数恢复到默认值

以 max_columns（显示最大的列数）为例，演示上面各个函数的使用：

import pandas as pd

pd.describe_option("display.max_columns")

这里显示了 max_columns参数的详细信息，包括默认值和当前的值。

我们先设置此参数的值，然后再获取值看看：

pd.set_option("display.max_columns", 10)
pd.get_option("display.max_columns")

 # 运行结果>>>
 # 10

max_columns参数的值变成了10。

最后重置此参数的值：

pd.reset_option("display.max_columns")
pd.get_option("display.max_columns")

 # 运行结果>>>
 # 20

max_columns参数的值又恢复成了20。

上面这4个函数是我们设置参数的过程进程会用到的，
下面演示几个常用参数的设置后的效果。

2. 行列相关的参数

控制行列相关的参数，多数情况是为了让数据能够更好的显示在屏幕上。
我比较常用的有以下三个：

2.1. max_rows

控制显示的最大行数。
随机生成一个20行的数据，max_rows的默认值是60，所以20行数据会全部显示出来。

df = pd.DataFrame(np.random.rand(20, 4))
df.columns = list("ABCD")
df

如果需要截一个数据概要的图，20行就太多了，可以设置显示的函数少一些。

pd.set_option("display.max_rows", 10)
df

设置之后，显示前后5行，中间的用省略号（...）表示。

2.2. max_columns

这个参数是控制显示的最大列数。

df = pd.DataFrame(np.random.rand(5, 14))
df.columns = list("ABCDEFGHIJKLMN")
df

显示很长，屏幕窄的话会出现滚动条。

设置 max_columns=5

pd.set_option("display.max_columns", 5)
df

2.3. max_colwidth

这个参数是设置单个列的宽度的，如果某个列的内容太长，可以用这个参数来控制。
比如：

df = pd.DataFrame({
    "ID": [1, 2, 3 ],
    "title": ["title01", "title02",
              "long long long long long title"],
})
df

某个特别长的值会将列的宽度撑大，如果列比价多的时候，会浪费显示的空间。

通过 max_colwidth 调整列的最大宽度。

pd.set_option("display.max_colwidth", 10)
df

设置最多显示10个字符，这样，显示起来没有那么突兀了。

3. 数值精度的参数

除了行列的调整，还有一种就是数值精度的调整。
数值精度的调整有个好处是不用修改原始数据，只是控制它显示出来的样子。

3.1. precision

precision是调整数据显示的精度的参数。

调整前：

df = pd.DataFrame(np.random.rand(3, 4))
df.columns = list("ABCD")
df

调整后：

pd.set_option("display.precision", 2)
df

3.2. float_format

float_format也是调整精度的，不过更加灵活，还可以控制格式化显示效果。
调整前：

df = pd.DataFrame(np.random.rand(3, 4))
df.columns = list("ABCD")
df

调整后：

pd.set_option("display.float_format", 
              "{:.2%}".format)
df

直接转换成百分比方式显示，比precision更加直观。

3.3. chop_threshold

chop_threshold 帮助我们在显示时忽略掉不关注的数据。

比如：

df = pd.DataFrame(np.random.rand(3, 4))
df.columns = list("ABCD")
df

对于0.9以下的数据，我们不太关心，那么：

pd.set_option("display.chop_threshold", 0.9)
df

这样，0.9以下的数据都显示成0，便于我们观察有多少有效数据。

注意：这里调整的都是数据显示出来的样子，数据实际并没有改变。
比如上面很多显示为 0.0 的数据，在 df 中并不是0.0，还是原来的值。

4. 补充

pandas中能够调整参数还有很多，具体可以参考：
https://pandas.pydata.org/pandas-docs/version/1.5/reference/api/pandas.describe_option.html

热门相关：洪荒二郎传后福后福异世修真邪君我不想拥抱你一次

【pandas小技巧】--category类型补充

`category`类型在**pandas基础**系列中有一篇介绍数据类型的文章中已经介绍过。`category`类型并不是`python`中的类型，是`pandas`特有的类型。 `category`类型的优势那篇文章已经介绍过，当时只是介绍了如何将某个列的数据转换成`category`类型，以及 ...阅读全文

【pandas小技巧】--数据转置

所谓**数据转置**，就是是将原始数据表格沿着对角线翻折，使原来的行变成新的列，原来的列变成新的行，从而更方便地进行数据分析和处理。 `pandas`中`DataFrame`的转置非常简单，每个`DataFrame`对象都有一个`T`属性，通过这个属性就能得到转置之后的`DataFrame`。下面介 ...阅读全文

【pandas小技巧】--日期相关处理

日期处理相关内容之前`pandas基础`系列中有一篇专门介绍过，本篇补充两个常用的技巧。 # 1. 多列合并为日期当收集来的数据中，年月日等信息分散在多个列时，往往需要先合并成日期类型，然后才能做分析处理。合并多列转换为日期类型，可以直接用 `to_datetime`函数来处理： ```pytho ...阅读全文

【pandas小技巧】--列值的映射

映射列值是指将一个列中的某些特定值映射为另外一些值，常用于数据清洗和转换。使用映射列值的场景有很多，以下是几种常见的场景： 1. 将字符串类型的列中的某些值映射为数字。例如，将“男”和“女”分别映射为 0 和 1，以便进行机器学习算法的训练和预测。 2. 将缩写替换为全称。例如，将“USA”和“U ...阅读全文

【pandas小技巧】--字符串转数值

字符串转数字的用途和场景很多，其中主要包括以下几个方面： 1. 数据清洗：在进行数据处理时，经常会遇到一些数据类型不匹配的问题，比如某些列中的字符串类型被误认为是数字类型，此时需要将这些字符串类型转换为数字类型，才能进行后续的数值计算或统计分析。 2. 数据整理：有时候输入的原始数据可能存在格式问题 ...阅读全文

【pandas小技巧】--缺失值的列

在实际应用中，数据集中经常会存在缺失值，也就是某些数据项的值并未填充或者填充不完整。缺失值的存在可能会对后续的数据分析和建模产生影响，因此需要进行处理。 `pandas`提供了多种方法来处理缺失值，例如删除缺失值、填充缺失值等。删除缺失值可能会导致数据量减少，填充缺失值则能够尽量保留原始数据集的完整 ...阅读全文

【pandas小技巧】--拆分列

拆分列是`pandas`中常用的一种数据操作，它可以将一个包含多个值的列按照指定的规则拆分成多个新列，方便进行后续的分析和处理。拆分列的使用场景比较广泛，以下是一些常见的应用场景： 1. 处理日期数据：在日期数据中，经常会将年、月、日等信息合并成一列，通过拆分列可以将其拆分成多个新列，方便进行时间序 ...阅读全文

【pandas小技巧】--反转行列顺序

反转`pandas` `DataFrame`的行列顺序是一种非常实用的操作。在实际应用中，当我们需要对数据进行排列或者排序时，通常会使用到Pandas的行列反转功能。这个过程可以帮助我们更好地理解数据集，发现其中的规律和趋势。同时，行列反转还可以帮助我们将数据可视化，使得图表更加易于理解。除了常规 ...阅读全文

【pandas小技巧】--修改列的名称

重命名 `pandas` 数据中列的名称是一种常见的数据预处理任务。这通常是因为原始数据中的列名称可能不够清晰或准确。例如，列名可能包含空格、大写字母、特殊字符或拼写错误。使用 `pandas` 的 `rename`函数可以帮助我们更改列名，从而使数据更加清晰和易于理解。此外，重命名列名还可以确保 ...阅读全文

【pandas小技巧】--按类型选择列

本篇介绍的是`pandas`选择列数据的一个小技巧。之前已经介绍了很多选择列数据的方式，比如`loc`，`iloc`函数，按列名称选择，按条件选择等等。这次介绍的是按照列的**数据类型**来选择列，按类型选择列可以帮助你快速选择正确的数据类型，提高数据分析的效率。 # 1. 类型种类 `panda ...阅读全文