本文共 5012 字,大约阅读时间需要 16 分钟。
两年前在一个微信群中,听一些朋友讨论林明璋的“超级数字力”课程,后来也听 李笑来 推荐过他的课程。由于比较远,我只买了一本 林明璋 写的《》来读。再后来发现了他们做的这个网站 “财报说”。从该网站上我们可以看到各支股票按照 申万行业分类 做成了列表;每只股票都提供了 4年 的资产负债表、现金流量表 和 利润表,并利用一套五个维度(现金流、营运能力、盈利能力、财务结构、偿债能力)的模型进行评分。
我以前在图文 中介绍过自己的选股策略,从 000015 红利指数 的十大权重股中选择哪些分红能力强,且处于低估位置的股票。既然 林明璋 把自己的知识做成了网站,为何不把这些数据爬下来也作为自己在下一个周期选股的参考呢?
好了,我们开始吧!
首先,我们看一下「财报说 - 行业板块」对应的网页。
网址为:
其次,我们看一下“一级行业”、“二级行业”、“股票列表”部分对应的网页源码。
“一级行业”部分对应的网页源码如下:
通过网页的HTML DOM TREE
找到第一个industries-header_section-lists
类中的a
标签,就可以得到一级行业的名称以及对应的网页地址。
“二级行业”部分对应的网页源码如下:
通过网页的HTML DOM TREE
找到第二个industries-header_section-lists
类中的a
标签,就可以得到二级行业的名称以及对应的网页地址。
“股票列表”部分对应的网页源码如下:
通过网页的HTML DOM TREE
找到table tbody tr
标签(table
内部的 tbody
内部的 tr
标签,详见 CSS 的选择器语法)每一个 tr
对应表格中的一行数据,找到tr
内部的td
标签,就找到了希望获取的“股票名称”、“股票编号”以及显示股票详细信息的“网址”。
接着,我们爬取对应股票的详细数据。
如上图所示对应的网址为:
对应的源码为:
通过网页的HTML DOM TREE
找到header-price
类,在该类中找到value
、pepb-ratio
、ratio-low
、ratio-normal
、ratio-high
这些类,就可以得到“当前股价”、“当前市盈率”、“当前市净率”、“10倍市盈率”、“20倍市盈率”、“30倍市盈率”的数据。
最后,我们用 Jumony 这套开源代码来获取网页对应的 HTML DOM TREE
,这套开源代码可以在 Github 上下载。
下载地址为:
这里对 Jumony 就不做过多介绍了,要是大家感兴趣,可以在图文下方留言,我后面再写几篇图文来介绍这个工具。
找到了所要爬取的网页地址,分析完网页的源码,确定了所用的工具和技术路线,剩下的就是写代码进行实现了。
Step1. 定义存储行业类型的结构 Industry
public class Industry{ ////// 行业名称 /// public string Name { get; set; } ////// 对应网址 /// public string Url { get; set; }}
Step2. 获取一级行业的列表 List<Industry>
private const string Url = "https://beta.caibaoshuo.com";public static ListGetLevelOne(){ List result = new List (); string url = Url + @"/cn_industries/3"; IHtmlDocument doc = HtmlSpiter.GetHtmlDocument(url); if (doc == null) return result; List lists = doc.Find(".industries-header__section-lists").ToList()[0].Find("a").ToList(); for (int i = 0; i < lists.Count; i++) { Industry item = new Industry(); item.Name = lists[i].InnerHtml(); item.Url = Url + lists[i].Attribute("href").AttributeValue; result.Add(item); } return result;}
Step3. 获取二级行业的列表 List<Industry>
public static ListGetLevelTwo(Industry levelOne){ List lstResult = new List (); IHtmlDocument doc = HtmlSpiter.GetHtmlDocument(levelOne.Url); if (doc == null) return lstResult; List lists = doc.Find(".industries-header__section-lists").ToList()[1].Find("a").ToList(); for (int i = 0; i < lists.Count; i++) { Industry item = new Industry(); item.Name = lists[i].InnerHtml(); item.Url = Url + lists[i].Attribute("href").AttributeValue; lstResult.Add(item); } return lstResult;}
Step4. 定义存储股票信息的结构 StockCbs
public class StockCbs{ ////// 股票名称 /// public string StockName { get; set; } ////// 股票编码 /// public string StockId { get; set; } ////// 网址 /// public string Url { get; set; } ////// 根据财报得出的评分 /// public string CsbCourse { get; set; } ////// 当前价格 /// public string Price { get; set; } ////// 市盈率 /// public string Pe { get; set; } ////// 市净率 /// public string Pb { get; set; } ////// 10倍市盈率 /// public string Pe10 { get; set; } ////// 20倍市盈率 /// public string Pe20 { get; set; } ////// 30倍市盈率 /// public string Pe30 { get; set; }}
Step5. 得到股票列表 List<StockCbs>
public static ListGetStocks(Industry industry){ List lstResult = new List (); IHtmlDocument doc = HtmlSpiter.GetHtmlDocument(industry.Url); if (doc == null) return lstResult; List lists = doc.Find("table tbody tr").ToList(); for (int i = 0; i < lists.Count; i++) { List row = lists[i].Find("td").ToList(); StockCbs item = new StockCbs(); item.StockName = row[1].FindFirst(".company-link").InnerHtml().Trim(); item.Url = Url + row[1].FindFirst(".company-link").Attribute("href").AttributeValue; item.StockId = row[1].FindFirst(".code-in-list").InnerHtml().Trim(); item.CsbCourse = row[2].InnerHtml().Trim(); doc = HtmlSpiter.GetHtmlDocument(item.Url); List lst = doc.Find(".header-price").ToList(); item.Price = lst[0].FindFirst(".value").InnerHtml().Trim(); item.Pb = lst[0].Find(".pepb-ratio span").ToList()[1].InnerHtml().Trim(); item.Pe = lst[0].Find(".pepb-ratio span").ToList()[0].InnerHtml().Trim(); item.Pe10 = lst[0].FindFirst(".ratio-low").FindFirst(".data").InnerHtml().Trim(); item.Pe20 = lst[0].FindFirst(".ratio-normal").FindFirst(".data").InnerHtml().Trim(); item.Pe30 = lst[0].FindFirst(".ratio-high").FindFirst(".data").InnerHtml().Trim(); lstResult.Add(item); } return lstResult;}
Step6. 结果输出
- 爬取一级行业:爬取数据,填充“一级行业下拉列表”。
- 爬取二级行业:根据选择的一级行业,爬取数据,填充“二级行业下拉列表”。
- 爬取网页:爬取二级行业对应的所有股票信息。
- 跳转到网页:跳转到二级行业所在的网页。
到此为止,关于如何利用 C# 语言爬取「财报说」中的股票数据,就介绍完了。大家有什么问题可以在图文的下方给我留言,今天就到这里吧!See You!
相关图文:
转载地址:https://lsgogroup.blog.csdn.net/article/details/89332302 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!