Lazy loaded image一维表和二维表的定义及转换

type
status
date
slug
summary
tags
category
icon
password
notion image

(本文3000字,阅读需要8分钟左右)
一维表、二维表的界定,可以说直接触及了数据分析领域一个最核心、最根本的概念,也是Power Query(以及所有其他数据分析工具)存在的重要原因之一。
“二维表转一维表”这种说法,其实是一种非常通俗、但在技术上不够精确的说法。它所指的,其实是数据规整化理论或者说数据清洗过程中的一个经典过程,即:
将“宽表”转换为“高表”。我们之前有篇文章从另一个角度探讨过表格的维度,感兴趣可以查阅:《》。
所谓的“一维表”其实就是指“高表”,而“二维表”则指“宽表”。

什么是“一维表”?
我们称之为“高表”或“规范化表”
“一维表”或“高表”,指的是一种适合机器分析的数据结构。它严格遵循“整洁数据”的原则:
  1. 每一列是一个变量(Variable):比如年份,地区,产品,销售额。
  1. 每一行是一个观测(Observation):比如记录“2023年在北京地区A产品的销售额是100元”。
  1. 每个单元格是一个值 (Value)
“一维表”/“高表”的例子:
这是一个完美的“高表”。每一条信息都清晰地记录在一行中。
年份
地区
产品
销售额
2022
北京
A
100
2022
北京
B
150
2022
上海
A
120
2023
北京
A
110

什么是“二维表”?
我们称之为“宽表”或“交叉表”
“二维表”或“宽表”,指的是一种适合人类阅读的报表格式。它的特点是,数据的值被用作了列标题,将信息在水平方向上展开。
“二维表”/“宽表”的例子:
这是上面那份数据的“宽表”形式,也是我们经常在Excel中看到的报表样式。
地区
产品A-2022
产品B-2022
产品A-2023
北京
100
150
110
上海
120
null
null
问题在哪里?
  • 信息被编码为列标题:产品A,产品B,2022,2023这些本应是数据的值,现在却变成了元数据(列标题)
  • 难以分析:对于计算机来说,这张表非常难以处理。比如,你想计算“2022年的总销售额”,你需要手动把产品A-2022和产品B-2022这两列相加。如果明年有了“2024年”,你就得修改所有公式。如果你想按“产品”进行筛选,你根本做不到,因为没有一个单独的“产品”列。

为什么要转为“一维表”?
为什么要“宽表转高表”
将数据从“宽表”转换为“高表”,是进行任何严肃的数据分析和可视化的绝对前提。其原因在于:
为了让计算机能够理解
  • 数据分析计算机软件(包括Power BI, Python, SQL等)处理数据的基本单位是“列”。它们需要一个明确的[产品]列来进行分组,一个明确的[年份]列来进行筛选,一个明确的[销售额]列来进行聚合计算。在“宽表”中,这些基本元素都混淆在了列标题里。
为了分析的灵活性和可扩展性
  • 灵活性:在“高表”中,你可以轻松地将[地区]拖入图表的坐标轴,[产品]拖入图例,[销售额]拖入值,[年份]作为切片器。你可以任意组合这些维度来进行分析。而在“宽表”中,你什么都做不了。
  • 可扩展性:如果明年来了2024年的数据,或者公司推出了新的C产品,在“高表”中,你只需要增加新的行即可,所有的报表和公式都无需任何修改,刷新即可自动更新。而在“宽表”中,你必须增加新的列,并手动修改所有依赖于它的图表和公式。
为了正确地进行数据建模
  • 在Power BI中,你需要用[产品ID]去连接“产品维度表”,用[日期]去连接“日期维度表”。在“宽表”中,这些“键”都不存在,你根本无法建立关系模型。

二维表转为一维表的方法
这个过程,正是我们之前深入探讨过的、Power Query中最神奇的功能之一:
逆透视(Unpivot Columns),可以看这篇:《》。
“逆透视”这个操作,就是专门用来将“宽表”高效、一键式地转换为“高表”的。它会自动地将那些作为列标题的信息,解放出来,变成新的数据列,从而完成整个数据结构的重塑。
总结来说:
  • “二维表”(宽表):是给人看的“报表”。
  • “一维表”(高表):是给机器分析的“数据集”。
  • 为什么要转:因为所有的数据分析、可视化和建模工具,都只认识“一维表”/“高表”这种规范化的数据集。
  • 怎么转:使用Power Query的“逆透视”功能。
作为财务BP,经常处理数据的人,“宽表转高表”是咱们都必须掌握的、最基础也是最重要的一项数据清洗技能。

 
【点击文末“阅读原文”,获取本文使用到的及历史以来提及、发布的相关精选和原创资料,和我们一起充电,加入后可享受每月6次免费咨询提问,帮助解决您的特定问题!】

如果本篇文章对您有帮助或启发,请帮我们点赞、转发、推荐、关注,让更多想转型财务BP、锻造数据分析和可视化洞察能力的财务同行们看到,关注【老汪洞察】,不迷路!
若想获得更多制造业成本本管控、核算、全面预算、业财融合方面的落地实操干货,加入我们的大本营是你的不二之选,快点击下方卡片看看吧!
 
温馨提示
🙏🏻
如果您不想错过【老汪洞察】的文章,请将我们设为"星标",这样每次最新文章推送才会第一时间出现在您的订阅列表里。 方法:点击文章页面左上角蓝色文字“老汪洞察”进入主页,点击关注后,再点主页右上角"...",然后选择"设为星标",即可完成,感谢您的支持。
 
上一篇
制造业成本核算与经营分析融合:了解“跑成本”的深刻含义
下一篇
不懂成本,别做经营分析!4大业务场景下,成本核算和经营分析该如何深度融合?
Loading...
目录
文章列表
让财税成为经营的力量
电脑与网络
从Power Query到Power BI,入门到精通
知识运用