政策法规Regulations
打印本页内容

使用父亲数据技术剖析新浪网美股行情

 点击:次  发布日期:2019-01-04 11:05    发布人:[db:作者]

  念书父亲数据技术拥有壹段时间了,之前也写度过壹些洞洞散散的落客,干为己己己念书的壹些记载,不外面每篇落客邑条是涵盖片断技术。此雕刻次想写壹篇比较完整顿的落客,记载壹个完整顿的项目从头到条消费的经过,亦对己己己念书的壹个尽结

  芜词不多说,直入本题

  此雕刻次的项目触及了两条流动程

  壹条是退线处理。爬虫爬到股票数据后,先提交给 Map Reduce 涤除壹下,生成程式募化的数据,然后倒腾入 hive 终止剖析,之后提交给 sqoop 带出产到 mysql 并用 echarts 却视募化展即兴

  

  退线处理

  另壹条是实时处理。爬虫壹直爬取数据,flume 监控爬虫爬上的文件所在目次,并时时传递送给 kafka,spark streaming 会活期从 kafka 那边拿到数据,实时剖析并将数据管到 mysql,最末却视募化。

  

  实时处理

  网页构造剖析

  本次爬取 新浪网美股实时行情,页面长此雕刻么

  

  新浪网美股实时行情

  F12,翻开开辟者器,选择 network 面板,F5 刷新页面,找到股票的 json 数据的 api 接口。

  

  此雕刻是 api 接口

  不一的网站寻摸 api 接口的方法不太壹样,给父亲家壹个小秘诀,普畅通的接口邑是 xhr 或 script 典型,同时它的 url 前面普畅通邑会跟着壹个 page 参数,代表着此雕刻是第几页

  副击 url 之后退开了壹个新的页面

  

  股票的 json 程式数据

  此雕刻边却以看到前往的数据不是规范的 json 程式,前面跟着壹串 ,同时我们也却以在 url 外面面看到此雕刻壹串字符,当今在 url 里他删掉落,结实就成了英公了下面此雕刻么儿子。