前言:先得有数据,才能分析,数据要有一定规模,真实数据,并获取做分析.
<!–more–>
1.kaggle:大数据分析的鼻祖,世界范围内规模最大的数据分析比三,网站访问速度较慢,其次是全英语.
Kaggle提供了一个无需设置、可定制的Jupyter笔记本环境。访问免费的GPU和社区发布的数据和代码的巨大存储库。
官方网站:[`https://www.kaggle.com`][1]
2.天池:国内目前影响力最大的比赛,整体平台配置,数据集丰富度都有保障,是阿里推出的. 官方网站: `https://tianchi.aliyun.com`
3.行业数据:
官方网站:`https://www.gsdata.cn` 清博研究院长期致力于网络生态研究、互联网治理、品牌公关、新媒体发展等多个领域,通过对富有挑战性的问题进行严谨客观的数据分析和研判,进而推动社会发展和进步。
4.房价指数:房价相关数据集
官方网站:`https://fdc.fang.com` 房天下产业网,是专门针对企业客户需求而设计的全方位房地产数据信息平台,致力服务于房地产开发商、顾问咨询及代理机构、房地产投资机构、以及政府部门、国内外房地产研究机构
5.移动观象台: 手机app的排名数据
官方网站:`http://mi.talkingdata.com`
> 现有数据集的利弊:
1.数据集都是脱敏感,只能发西安一切数据背后的隐藏关系,适合 测试数据挖掘算法,对初级数据分析作用不大.
2.大部分都是提供网页浏览或者PDF,没有EXECL下载,所以很难在此基础上做分析.
> 从互联网中构建数据集
1.互联网分析数据都是真实用户的扽戏结论自然就具备较高的可信度.
2.来自互联网数据大部分都具有一定规模,非常适合来做实验各种数据分析技巧
> 怎么去构建数据集呢?这里要知道什么是爬虫?
爬虫:一类程序的名字,有人成为网络爬虫,就是下载网页并按照一定的规则提取账网页中的信息,而python则是市面上最适合开发爬虫程序的语言.
>
> 爬虫的主要流程:
数据请求(可以像浏览器一样,根据地址去下载对应的网页内容)
网页分析(根据规则,从网页中筛选出感兴趣的内容)
数据保存(抓去到感兴趣的内容并保存 CSV,EXCEL文件中,未后续分析环节做准备.)
> 爬虫注意事项
1.适当降低抓取网页的频率,避免给服务器造成太大压力
2.抓取数据仅做分析使用,切勿商业化.***