Python数据分析入门

Python是一种功能强大的编程语言,它在数据科学和分析领域中得到了广泛应用。Python的数据分析生态系统包括许多开源库和工具,其中最流行的包括NumPy、Pandas和Matplotlib。

NumPy

NumPy是Python中一个用于科学计算的开源库,它主要用于处理多维数组和矩阵运算。它提供了许多数组操作函数和线性代数函数。NumPy数组可以通过以下代码创建:

import numpy as np
a = np.array([1, 2, 3])
print(a)

输出结果为:

[1 2 3]

Pandas

Pandas是Python中一个用于数据分析的开源库,它提供了高性能、易用的数据结构和数据分析工具。Pandas中最常用的数据结构是Series和DataFrame。Series是一维数组,可以存储不同类型的数据,而DataFrame是二维数组,可以存储多个Series。

以下是一个使用Pandas创建DataFrame的例子:

import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 32, 18, 47], 'country': ['USA', 'Canada', 'USA', 'USA']}
df = pd.DataFrame(data)
print(df)

输出结果为:

      name  age country
0    Alice   25     USA
1      Bob   32  Canada
2  Charlie   18     USA
3    David   47     USA

Matplotlib

Matplotlib是Python中一个用于数据可视化的开源库,它提供了各种绘图函数和样式。使用Matplotlib,可以轻松地创建线图、散点图、直方图等各种类型的图表。

以下是一个使用Matplotlib创建折线图的例子:

import matplotlib.pyplot as plt
x = np.array([1, 2, 3, 4])
y = np.array([5, 7, 6, 8])
plt.plot(x, y)
plt.show()

输出结果为:

折线图