您当前的位置是:ag8ag > app游戏数据

Python爬虫实战:股票数据定向爬虫

时间: 2017-10-10 23:11 来源: 未知 作者: admin

  上图中左边为网页的界面,显示了天山股份的股票价格是13.06。右边为该网页的源代码,在源代码中查询13.06发现没有找到。所以判断该网页的数据使用js生成的,不适合本项目。因此换一个网页。

  从上图中可以发现百度股票的数据是html代码生成的,符合我们本项目的要求,所以在本项目中选择百度股票的网址。

  由于百度股票只有单个股票的信息,所以还需要当前股票市场中所有股票的列表,在这里我们选择东方财富网,网址为:链接描述(,界面如下图所示:

  查看百度股票每只股票的网址:,可以发现网址中有一个编号300023正好是这只股票的编号,sz表示的深圳交易所。因此我们构造的程序结构如下:

  因此,在我们存储每只股票的信息时,可以参考上图中html代码的存储方式。每一个信息源对应一个信息值,即采用键值对的方式进行存储。在python中键值对的方式可以用字典类型。因此,在本项目中,使用字典来存储每只股票的信息,然后再用字典把所有股票的信息记录起来,最后将字典中的数据输出到文件中。

  接下来是html代码解析程序,在这里首先需要解析的是东方财富网页面:链接描述(,我们打开其源代码,如下图所示:

  由上图可以看到,a标签的href属性中的网址链接里面有每只股票的对应的号码,因此我们只要把网址里面对应股票的号码解析出来即可。解析步骤如下:

  1.找到a标签中的href属性,并且判断属性中间的链接,把链接后面的数字取出来,在这里可以使用正则表达式来进行匹配。由于深圳交易所的代码以sz开头,上海交易所的代码以sh开头,股票的数字有6位构成,所以正则表达式可以写为[s][hz]d{6}。也就是说构造一个正则表达式,在链接中去寻找满足这个正则表达式的字符串,并把它提取出来。代码如下:

  2.由于在html中有很多的a标签,但是有些a标签中没有href属性,因此上述程序在运行的时候出现异常,所有对上述的程序还要进行tryexcept来对程序进行异常处理,代码如下:

  从上面代码可以看出,对于出现异常的情况我们使用了continue语句,直接让其跳过,继续执行下面的语句。通过上面的程序我们就可以把东方财富网上股票的代码信息全部保存下来了。

  股票的信息就存在上图所示的html代码中,因此我们需要对这段html代码进行解析。过程如下:

  所以只要百度股票网的网址+每只股票的代码即可,而每只股票的代码我们已经有前面的程序getStockList从东方财富网解析出来了,因此对getStockList函数返回的列表进行遍历即可,代码如下:

  3.获得了html代码后就需要对html代码进行解析,由上图我们可以看到单个股票的信息存放在标签为div,属性为stock-bets的html代码中,因此对其进行解析:

  5.我们从html代码中还可以观察到股票的其他信息存放在dt和dd标签中,其中dt表示股票信息的键域,dd标签是值域。获取全部的键和值:

  上述代码中的print语句用于打印爬取的进度。执行完上述代码后在D盘会出现BaiduStockInfo.txt文件,里面存放了股票的信息。

  每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

  10月10日消息,近日有关小米千元全面屏手机曝光不断,将在10月中旬发布。现在最新消息...

  三星S系列手机是每年上半年最值得关注的手机,呼应下半年的iPhone新品,成为了手机圈...

  据SK海力士(SK Hynix)今日发布的一份声明显示,收购东芝芯片业务部门后,贝恩资本(Bai...

  CNBC 电视台的一篇报道称,负责苹果 iCloud 基础设施的苹果高管已经离开了公司。Eric ...

  微软今天在官方支持页面更新文章,敦促仍在使用Version 1511版本的Windows 10用户尽快...

  苹果在今天凌晨向我们推送了 iOS 11.1 Beta 2 ,那么到底这个版本的系统有哪些值得我...

  王者荣耀今日进行了一次更新,在新上线的活动中,玩家需要使用指定英雄进行对战,从而......

  炉石传说国庆活动的卡包怎么领取,我们将从10月9日起陆续为参与活动的玩家发放卡包。......

  阴阳师为崽而战斗技总结,主要讲一下自己在2400—3100分段的一些看法。下面来看看中速......

  《绝地求生大逃杀》中的四排是需要有一些战术策略的,这样团队合作才能发挥出较好的效......


上一篇:苹果忽然撤下记录美无人机空袭数据的软件(图
下一篇:知乎数据控:爬虫分析二手车电商成交数据

关于 | 联系我们 | 服务协议 | 隐私权保护 | 人才招聘 | 友情链接 | 网站地图

上海沃势文化传播有限公司 网站备案/许可证号 沪B2-20160057

COPYRIGHT ? 2017 ag8ag. ALL RIGHTS RESERVED.