【Python基础】pandas 使用指南(超详细!)
Pandas是一个强大的Python库,主要用于数据分析和数据处理。它提供了高性能、易于使用的数据结构和数据分析工具,让数据处理变得更加高效和便捷。
pip install pandas
import pandas as pd
# 通过字典创建
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
# 通过列表创建
data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx')
df.head()
df.tail()
df.info()
df.describe()
df['column_name']
df.loc[row_index]
或 df.iloc[row_index]
df[df['column_name'] > value]
df['new_column'] = values
df.drop('column_name', axis=1, inplace=True)
df.loc[row_index, 'column_name'] = new_value
df.sort_values(by='column_name')
df.groupby('column_name').mean()
pd.merge(df1, df2, on='key')
pd.pivot_table(df, values='value', index='index', columns='columns')
df.to_csv('output.csv', index=False)
df.to_excel('output.xlsx', index=False)
pd.date_range('2023-01-01', periods=10)
df.resample('M').mean()
import matplotlib.pyplot as plt
df.plot(kind='line')
plt.show()
df.fillna()
, df.dropna()
loc
, iloc
, ix
astype()
apply()
import pandas as pd
# 读取数据
df = pd.read_csv('sales.csv')
# 查看销售额最高的三个产品
top_products = df.groupby('product')['sales'].sum().nlargest(3)
# 绘制销售额折线图
df.plot(x='date', y='sales')
# 将结果保存到Excel
top_products.to_excel('top_products.xlsx')
Pandas是一个功能强大的数据分析工具,掌握了这些基础知识,你就可以进行很多数据分析任务了。
更多深入学习,可以参考官方文档: https://pandas.pydata.org/docs/
想深入学习哪些方面呢?比如时间序列分析、数据清洗、机器学习与Pandas结合等等,都可以提出你的问题。
以下是一些可以进一步探讨的问题:
期待你的提问!