工作之余,开始学习《利用Python进行数据分析》这本书,开始准备将采集到的房屋数据进行统计,挖点有用或者好完的数据出来。
先拿这本书中的1880-2010年间全美婴儿姓名的一部分来练练手,熟悉下IPython和Jupyter Notebook这个高级货。
一:整合数据
|
|
使用groupby或pivot_table在year和sex级别上对其进行聚合
二:按性别和年度统计总出生数
|
|
|
|
插入prop列,用于存放指定名字的婴儿数相对于总出生数的比例,prop为0.02表示100个人有两个人取了这个名字
检查所有分组的prop值总和是否为1
True
三、前1000个名字
取出数据的子集,每对sex/year组合的前1000个名字
四、分析命名趋势
|
|
五、评估命名多样性的增长
|
|
个人总结
极其佩服国外的一些大神能够做出这么好的东西,用着十分的舒服,爱不释手。
安装好anaconda后,我开始学习数据分析处理的基础知识,不能放弃学习。