数据分析基础知识

安装

1.更新macport，Numpy,Matploitlib,Scipy 解决安装macports更新失败问题

Mac OS X中MacPorts安装和使用 macport更新失败,后来选择了

sudo pip install numpy

大部分数据集都能被转化为更加适合分析和建模的结构化形式

常用模块的命名惯例：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

4.4 扩展库Scipy

NumPy库介绍：

例子：

import numpy as np
xArray = np.ones((3,4))
print xArray

输出结果：

[[ 1.  1.  1.  1.]
 [ 1.  1.  1.  1.]
 [ 1.  1.  1.  1.]]

例子：

import numpy as np
from scipy import linalg

arr = np.array([[1,2],[3,4]])
print linalg.det(arr)

输出：-2.0

4.5 ndarray

例子：

from numpy import *
aArray = array([1,2,3]) #定义一维数组
print '这是一维数组',aArray

bArray = array([(1,2,3),(4,5,6)]) #定义二维数组
print '这是二维数组'
print bArray

输出：

可使用基本的运算符（加减乘除）
既有标准函数，又有内建函数

丰富的函数：

4.6 变长字典Series

字典：

无序的数据结构
key与value：存在映射关系
key与value之间是不独立的

pandas的变长字典Series：

相当于一个定长有序的字典
key与value之间是独立的
某些应用时，功能更强大

自定义Series的索引： Series的基本运算:

Series的数据对齐：

数据量大的时候，处理起来很方便

Series的name属性：类似字段名的作用

4.7 DataFrame

DataFrame的基本操作

DataFrame的修改与删除

DataFrame的name属性

5.1 便捷数据获取

5.2 数据准备

5.2数据整理：

5.2.1修改属性名

#-*- coding:utf-8 -*-
#给quotes数据加属性名

from matplotlib.finance import quotes_historical_yahoo_ochl
from datetime import date
import pandas as pd

today = date.today()
start = (today.year-1, today.month, today.day)
quotes = quotes_historical_yahoo_ochl('AXP',start, today)
fields = ['date','open','close','high','low','volume']
quotesdf = pd.DataFrame(quotes,columns=fields)
print quotesdf

5.2.2 修改index属性

quotesdf = pd.DataFrame(quotes,index = range(1,len(quotes)+1),columns=fields)

5.2.3 时间序列

#-*- coding:utf-8 -*-
#修改时间序列

from matplotlib.finance import quotes_historical_yahoo_ochl
from datetime import date
from datetime import datetime
import pandas as pd

today = date.today()
start = (today.year-1, today.month, today.day)
quotes = quotes_historical_yahoo_ochl('AXP',start, today)
fields = ['date','open','close','high','low','volume']
#quotesdf = pd.DataFrame(quotes,columns=fields)
#quotesdf = pd.DataFrame(quotes, index=range(1, len(quotes) + 1), columns=fields)
list1 = []
for i in range(0,len(quotes)):
    x = date.fromordinal(int(quotes[i][0]))         #转换成常规时间
    y = datetime.strftime(x,'%Y-%m-%d')         #转换成固定格式
    list1.append(y)
quotesdf = pd.DataFrame(quotes, index = list1, columns=fields)
quotesdf = quotesdf.drop(['date'],axis=1)     #删除原date列
print quotesdf

创建时间序列

# -*- coding:utf-8 -*-
__author__ = 'jerry'
#创建时间序列
import pandas as pd
import numpy as np
dates = pd.date_range('20141001',periods=7)
dates = pd.DataFrame(np.random.randn(7,3),index=dates,columns=list('ABC'))
print dates

5.3 数据显示

5.4 数据选择

选择行：

选择列：

选择行、列：

选择区域、单个值：

iloc，iat方法:

*条件筛选：

5.5 简单统计与处理：

比较相邻的数据diff():

tips： 1.多看库里面相关的函数 2.你想到的方法基本上都有先成的函数

正序与逆序：

记数统计：

5.6 grouping：

分组主要是理解需求，基于什么去分组，然后出来的组再进行什么样的功能操作

5.7 Merge：

6.1 聚类分析：

聚类是数据挖掘描述性任务和预测性任务的一个重要组成部分它以相似性为基础，把相似的对象通过静态分类分成不同的组别和子集

聚类算法：

K均值算法：简洁、快速 K均值算法的基本流程： 1.任意选择k个对象作为初始的聚类中心 2.对每个点确定它的聚类中心点。实际上，就是计算距离（一般采用均方差作为标准的测度函数） 3.计算每个新聚类的聚类中心，直到收敛（确定的中心点不再改变聚类就完成）保证各聚类本身尽可能紧凑，而各聚类之间尽可能地分开

6.2 matplotlib数据可视化：

matplotlib宣言：让简单的事情变得简单，让复杂的事情变得复杂

matplotlib介绍：

折线图：

折线图

散点图

import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(0, 1)
y = np.sin(4 * np.pi * x) * np.exp(-5 * x)
plt.plot(x, y,"o")
plt.show()

pylab绘图

6.3 Matplotlib图像属性控制

几乎可以控制matplotlib每一个默认属性

图像大小
每英寸点数、线宽、色彩和样式
子图、坐标轴和网格属性

色彩和样式：

文字：其他属性：

子图：

子图axes

6.4 pandas作图：

pandas通过整合matplotlib的相关功能，可以实现基于Series和DataFrame的某些绘图功能，针对这2种类型，pandas通常比pylab和pyplot作图更方便

pandas绘图：

pandas控制图像形式：

6.5 数据存取：

CSV（Comma-Separated Values）逗号分隔值：

数据分析基础知识

数据分析基础知识

安装

4.4 扩展库Scipy

4.5 ndarray

4.6 变长字典Series

字典：

pandas的变长字典Series：

4.7 DataFrame

5.1 便捷数据获取

5.2 数据准备

5.2数据整理：

5.2.1修改属性名

5.2.2 修改index属性

5.2.3 时间序列

5.3 数据显示

5.4 数据选择

选择行：

选择列：

选择行、列：

选择区域、单个值：

iloc，iat方法:

*条件筛选：

5.5 简单统计与处理：

5.6 grouping：

5.7 Merge：

6.1 聚类分析：

6.2 matplotlib数据可视化：

6.3 Matplotlib图像属性控制

6.4 pandas作图：

6.5 数据存取：

参考：

results matching ""

No results matching ""