Monthly Archives: December 2009

用python爬虫抓站的一些技巧总结

学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。 – 这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了。

Posted in python, 编程 | Tagged , | 17 Comments

被MPAA找上门了,太囧了

服务商突然跟我说我主机上有非法内容,让我快点处理,我大惊,心想就是一些emule链接而已,这反应速度也太快了。 – 然后看了原文,同样大惊,因为一看抬头,是Sony电影娱乐公司发的通牒,心想这下惹到猛人了。 – 然后惊慌失措了好一阵,开始想找啥借口好(-。-),好半天才想起来应该先消灭证据,可是我都不知道什么东西惹毛了人家,让我整站删我是绝对不干的,这才想起来要好好看信。 -

Posted in 未分类 | 21 Comments

山寨版VeryCD网站上线了

地址: http://www.simplecd.org 源代码:http://code.google.com/p/simplecd 反馈意见可以论坛留言:http://www.simplecd.org/bbs/forumdisplay.php?fid=3 也可以直接在本人博客留言:http://69.163.35.68/old/?p=467

Posted in 未分类 | Tagged | 79 Comments

关于VPS性能的几个误区

很多人用类似iProber的探针来测试VPS性能,这其实蕴含了很多测试误区 – iProber截图如下:

Posted in VPS相关 | Tagged , | 8 Comments

以后谁再跟我说MySQL性能好我跟谁急……

TNND,今天浪费了一天的时间在Mysql上面,先是改代码,然后是转换sqlite3数据库到mysql,然后发现原来好好的网站跑不起来了。 @。@ 然后就这么折腾了半天,基本上确定了,在select语句上,mysql的性能平均落后sqlite十倍左右,内存消耗超过sqlite则是三倍左右。 – 实际上mysql更灵活点,我的意思是:给mysql三倍的内存,那么他的表现只比sqlite慢十倍而已,如果你给他很抠门的内存?那么超时是唯一的结果。就像我一开始网站挂掉那样。 -

Posted in VPS相关, 其他 | Tagged , | 23 Comments

再谈VPS:Xen与OpenVZ技术性能测试(附VPS推荐列表)

参考文献写在前面,以示我对他们工作的感谢: – 1.关于Xen和OpenVZ的详细分析,受益匪浅:http://hostingfu.com/article/xen-or-openvz 2.10美元以下VPS列表:http://www.vpser.net/ten-dollars-vps,参考了这个列表,我会对其中尝试过的几个做出点评,并且结合我对Xen和OpenVZ架构的测试情况,重新整理一份我的偏好。 – =================================================== – 以前已经有过一篇深受好评的奋战VPS~国外VPS性能比较,这次为何重开VPS的讨论? – 因为最近在给VeryCD作山寨站点,这个可是有1G数据库的真家伙,可不是wordpress、没啥人气的discuz论坛等这种小菜可以比拟的,想必会在一定程度上考验VPS的性能。 – 之前选VPS那个花钱如流水,买的多个VPS都还没到期,打算压榨一下他们的剩余价值。应用web.py框架的几台VPS/Shared Hosting中,一台rapidxen的128M Xen方案,一台ramhost的512M Openvz方案,一台stdyun.com的80M共享空间方案。 -

Posted in VPS相关 | Tagged , | 44 Comments

备份VeryCD的进一步讨论(三): 使用web.py框架架设山寨网站

虽然还是个半成品,但是框架已经大约定下来了,山寨页面在此:http://www.simplecd.org ========================================= VeryCD的山寨化终于进入了第三阶段,鼓掌~~。前文说到怎么用python爬verycd的内容,并且保存为数据库;这次就要说说怎么用web.py建站,并且怎么实现简单的搜索功能。 – 其实建站最常用的方法还是php,但是要让被python宠坏的我来写枯燥乏味的php脚本,实在不想遭这个罪,更何况我底层都用的python实现,如果网站也用python的话,调用底层代码起来就无比方便了。

Posted in Linux, VPS相关, python, 编程 | Tagged , , | 3 Comments

备份VeryCD的进一步讨论(二):sqlite3数据库的处理

话说上回说到用python写爬虫脚本,把VeryCD的资源信息抓取下来,并提及了建设山寨站点的想法,这回继续说怎样保存到数据库中。 – 数据库有什么好处?维护起来不见得方便,比如我只要按VeryCD的Topic号建立文件名,一条数据存一个文件,维护起来极其简单:直接修改查看即可。 – 为了让其按更新时间排序,那么就略微复杂那么一点点了,只要对更新时间建立一张索引表,那么排序也是分分钟的事情:空间占用仅为O(N),且一个Topic仅为一个integer、时间上也就是建表O(NlogN),更新O(logN)。排序有先成的函数,更新不知道有不,没有的话也可以先remove,再insert的办法来做,还是O(logN),或者干脆自己写代码好了,反正也就是二分查找而已。

Posted in Linux, VPS相关, python, 编程 | Tagged , , , | 2 Comments

备份VeryCD的进一步讨论(一): 爬虫的使用

上文尝试了用wget和httrack为VeryCD做整站镜像,但是这个方法有弱点如下: ================================= 1.备份文件太大,平均一个资源要占用500K左右的硬盘空间,那么整站备份可能要80G(或许还不止) 2.数据是保存了,但是搜索引擎等代码无法保存,所以镜像虽大,却也残废,无法搜索 3.备份目标无法随意指定,无论wget还是httrack,只能被动地跟随链接来备份,比如我想只备份2004年的资源便无法做到。 4.慢网速问题,现在VeryCD主站的速度极慢,用”wget http://www.verycd.com”,平均速度一般都在5K左右,如果用wget或者httrack,由于它们会下载所有有关/无关文件,因此效率极低。 =================================

Posted in Linux, VPS相关, python, 编程 | Tagged , , , | 9 Comments

反和谐,站点镜像,verycd

前一阵刚刚解决了离线下载,资源基本上都是verycd找,这verycd一倒可真是天大的噩耗啊,好在虚惊一场,晚上verycd又能上了,今天因为verycd的倒掉促发了我的危机意识。这么好的资源站点要是真的倒了,上哪找资源? 事实上资源倒是不难找,emule上直接搜索其实就可以找到,但是找单集还算容易,找全集可就累了。privatebay号称挂了,可是还是能够访问和搜索,而且东西也挺新,至少如果要找美剧是不愁的,可是同样要找全集还是很累。Verycd最大的贡献就在于它百科书式的资源整理和索引,它整理的那些东西可是非常宝贵的,要是没了那可实在是可惜。

Posted in VPS相关, python, 编程 | Tagged , | 13 Comments