Archive for Network

网络爬虫

最近在写一个程序,去爬热门事件和热门关键词网站上的数据。在这里介绍一下网络爬虫的种种。

基本组件

网络爬虫

网络爬虫也叫做网络蜘蛛,是一种互联网机器人,把需要的网页撷取下来,组织成适当格式存储。它是搜索引擎的重要组成部分,虽然从技术实现上来说,它的难度往往要小于对于得到的网页信息的处理。

上面这张图来自维基百科,scheduler调度多个多线程的下载器下载网页,并把信息和元数据存储起来。而通过解析下载网

[......]阅读全文

分享到:

DNS劫持

想谈一谈这个话题是因为最近有一位朋友抱怨他的博客在某些用户某些时候访问的时候,被莫名其妙地加上了广告,他检查来检查去,始终发现不了网站本身有什么问题,后来他才了解到了DNS劫持一说。

DNS劫持

其实这不是一个新概念了,在几年前,中国一些不讲道德的运营商,尤其是地方运营商就开始捕捉用户浏览器的访问记录,然后根据不同用户的访问行为,有选择地往用户访问的网页里面推送广告。因为运营商掌握着DNS主机

[......]阅读全文

分享到:

如何在局域网内抢带宽

如何在局域网内抢带宽 事情的起因是最近家里买了一台60寸的智能电视,支持点播(VOD)功能,家里的网络带宽理论上只有4M,在播放的时候,就会占用大量网络带宽,导致我同时上网浏览网页都很困难。

有没有办法给限制局域网内某台主机的流量?首先,还是得从TCP的原理说起。

TCP拥塞控制

TCP是个君子协议,在拥塞控制的设计(RFC 2851)中包括慢开始、拥塞避免、快重传和快恢复4种算法。

如何在局域网内抢带宽

拥塞窗口(cwnd)

[......]阅读全文

分享到:

酒桌上的计算机网络

酒桌上的计算机网络 宴开始。

 

酒杯盛酒,酒杯碰撞,这是物理层

你要根据不同人的外貌特征找到你要敬酒的人所坐的位置,这是IP协议网络层);

你明白,敬酒的实际目的是加深感情,这在应用层,而这酒中的感情,才是报文的数据部分

 

你和某位新见面的兄弟互相来回敬酒,这叫TCP

你给同一位好兄弟敬酒好多次,死命灌他,他也不回礼,这叫UDP

你对全桌的人说,来,咱们同归于尽,这

[......]阅读全文

分享到: