Tag Archives: VeryCD

网站流量上去了,但是完全高兴不起来啊

晚上在simplecd上搜某音乐时就觉得不对劲,5分钟热度值也太高了点,登陆51.la看了以后真是吓了一跳,15分钟在线从平时的200-300+跳到了1000+,绝对有啥事情发生了。 经过浏览流量来源,果然不出所料有状况:VC发神经把音乐给砍了。根据一些搜索和尝试,是先砍专栏,再砍搜索,然后逐条删敏感数据的砍法,到时候也不知道会有多少资源幸存。

Posted in 其他 | Tagged | 95 Comments

VeryCD灌水机-python自动灌水脚本示例

VeryCD那个铜光盘才能进候补区的规定很烦人,必须得灌水才能升级,可是又懒得灌,于是写了一个灌水脚本,有人问我要,就干脆发出来共享一下吧。 ` 使用方法: 1.把username和passwd改成相应的东东 2.用python解释器执行脚本,自动在首页的所有资源后面跟帖支持楼主 ` 想要了解灌水机原理的话: 1.学会python基本原理 2.学会正则表达式,网络脚本必备(也可以学beautifulsoup,写的代码更直观易懂,不过正则通用性强,总要学的) 3.学会html基本格式,理解获取网页的GET/POST机制 4.然后再看代码吧,这个脚本因为很简单,所以注释了一下

Posted in python, 编程 | Tagged , , | 37 Comments

山寨版VeryCD网站上线了

地址: http://www.simplecd.org 源代码:http://code.google.com/p/simplecd 反馈意见可以论坛留言:http://www.simplecd.org/bbs/forumdisplay.php?fid=3 也可以直接在本人博客留言:http://obmem.info/old/?p=467

Posted in 未分类 | Tagged | 80 Comments

备份VeryCD的进一步讨论(三): 使用web.py框架架设山寨网站

虽然还是个半成品,但是框架已经大约定下来了,山寨页面在此:http://www.simplecd.org ========================================= VeryCD的山寨化终于进入了第三阶段,鼓掌~~。前文说到怎么用python爬verycd的内容,并且保存为数据库;这次就要说说怎么用web.py建站,并且怎么实现简单的搜索功能。 – 其实建站最常用的方法还是php,但是要让被python宠坏的我来写枯燥乏味的php脚本,实在不想遭这个罪,更何况我底层都用的python实现,如果网站也用python的话,调用底层代码起来就无比方便了。

Posted in Linux, python, VPS相关, 编程 | Tagged , , | 3 Comments

备份VeryCD的进一步讨论(二):sqlite3数据库的处理

话说上回说到用python写爬虫脚本,把VeryCD的资源信息抓取下来,并提及了建设山寨站点的想法,这回继续说怎样保存到数据库中。 – 数据库有什么好处?维护起来不见得方便,比如我只要按VeryCD的Topic号建立文件名,一条数据存一个文件,维护起来极其简单:直接修改查看即可。 – 为了让其按更新时间排序,那么就略微复杂那么一点点了,只要对更新时间建立一张索引表,那么排序也是分分钟的事情:空间占用仅为O(N),且一个Topic仅为一个integer、时间上也就是建表O(NlogN),更新O(logN)。排序有先成的函数,更新不知道有不,没有的话也可以先remove,再insert的办法来做,还是O(logN),或者干脆自己写代码好了,反正也就是二分查找而已。

Posted in Linux, python, VPS相关, 编程 | Tagged , , , | 5 Comments

备份VeryCD的进一步讨论(一): 爬虫的使用

上文尝试了用wget和httrack为VeryCD做整站镜像,但是这个方法有弱点如下: ================================= 1.备份文件太大,平均一个资源要占用500K左右的硬盘空间,那么整站备份可能要80G(或许还不止) 2.数据是保存了,但是搜索引擎等代码无法保存,所以镜像虽大,却也残废,无法搜索 3.备份目标无法随意指定,无论wget还是httrack,只能被动地跟随链接来备份,比如我想只备份2004年的资源便无法做到。 4.慢网速问题,现在VeryCD主站的速度极慢,用”wget http://www.verycd.com”,平均速度一般都在5K左右,如果用wget或者httrack,由于它们会下载所有有关/无关文件,因此效率极低。 =================================

Posted in Linux, python, VPS相关, 编程 | Tagged , , , | 13 Comments

反和谐,站点镜像,verycd

前一阵刚刚解决了离线下载,资源基本上都是verycd找,这verycd一倒可真是天大的噩耗啊,好在虚惊一场,晚上verycd又能上了,今天因为verycd的倒掉促发了我的危机意识。这么好的资源站点要是真的倒了,上哪找资源? 事实上资源倒是不难找,emule上直接搜索其实就可以找到,但是找单集还算容易,找全集可就累了。privatebay号称挂了,可是还是能够访问和搜索,而且东西也挺新,至少如果要找美剧是不愁的,可是同样要找全集还是很累。Verycd最大的贡献就在于它百科书式的资源整理和索引,它整理的那些东西可是非常宝贵的,要是没了那可实在是可惜。

Posted in python, VPS相关, 编程 | Tagged , | 17 Comments