网络爬虫

最近在写一个程序,去爬热门事件和热门关键词网站上的数据。在这里介绍一下网络爬虫的种种。

基本组件

image

网络爬虫也叫做网络蜘蛛,是一种互联网机器人,把需要的网页撷取下来,组织成适当格式存储。它是搜索引擎的重要组成部分,虽然从技术实现上来说,它的难度往往要小于对于得到的网页信息的处理。

上面这张图来自 维基百科 ,scheduler 调度多个多线程的下载器下载网页,并把信息和元数据存储起来。而通过解析下载网页的数据,找到链接,又把链接加入到工作队列中去准备下载。这看起来是一个迭代的过程。

网络爬虫相关的几项重要策略:

  • 选择策略:哪些网页是需要被抓取的;
  • 重访问策略:怎样的方式去检测网页是否被修改过;

[……]阅读全文

酒桌上的计算机网络

alcohol 宴开始。

 

酒杯盛酒,酒杯碰撞,这是 物理层

你要根据不同人的外貌特征找到你要敬酒的人所坐的位置,这是 IP 协议网络层);

你明白,敬酒的实际目的是加深感情,这在 应用层 ,而这酒中的感情,才是报文的 数据部分

 

你和某位新见面的兄弟互相来回敬酒,这叫 TCP

你给同一位好兄弟敬酒好多次,死命灌他,他也不回礼,这叫 UDP

你对全桌的人说,来,咱们同归于尽,这叫 广播

你在对这一桌的人顺序挨个敬酒,这叫 令牌环

 

 

你对该兄弟说,初次见面,请多关照,请问阁下尊姓大名,敬酒一杯,这叫 SYN 报文

这位兄弟说,同是天涯沦落人,

[……]阅读全文

back to top