讲一下自己理解的过程,涉及DataFrame的极小部分。了解DataFrame是因为需要从Excel表格中读取数据,于是找到了pandas.read_excel方法。利用pandas.read_excel方法,将Excel表格读取为pandas的DataFrame对象。比如df=pandas.read_excel('a.xls')
为了与现实的Excel表格对应,基于理性的判断,需要找到访问Excel表格行列的办法。很快DataFrame的index属性和columns属性映入眼帘。index属性的作用是行索引,columns的作用是列索引。如果我们在调用read_excel方法时,除了文件名之外,并未使用其他参数,那么通常而言,index返回的结果为0到df.index.size-1之间的索引列表值;而columns的值通常为第0行(一般为Excel表格内首行)各列元素组成的索引列表值。
逐个访问元素的方法有两种,一种是利用pandas本身的索引列表(比如第2行,第C列,元素坐标即为(2,'C'),对应使用DataFrame的loc属性。另外一种是利用数值索引,即从左上角0,0这个索引坐标开始进行的数值索引,对应使用DataFrame的iloc属性。
图1 a.xlsx示例文件
图2 对Excel表格各单元格的访问