如何破解新浪微博的验证码

最近要为公司做一系列微博的东东,有些API微博不公开提供,于是断断续续开发了一个叫libweibo的库,专门用来做坏事,嘿嘿。

其中最核心的部分就是三种不同微博验证码的破解了,按强度递减分别为新浪SSO统一登录验证码、私信验证码、以及搜索验证码。

大体的方法还是我以前提到的python 验证码破解的方法,不过多年后,python又多了好多好用的库,比如sklearn这个大杀器,所以把一些通用概念再次总结一下,另外尝试了一下reveal.js做了个在线的slide。分享如下:)

http://slid.es/jingchaohu/decoding-weibo-captcha-in-python

Posted in python, 编程 | 7 Comments

使用python/casperjs编写终极爬虫-客户端App的抓取

1.缘起

随着移动互联网的发展,现在写web和我三年前刚开始写爬虫的时候已经改变了太多。特别是在node以及javascript/ruby社区的努力下,以往“服务器端”做的事情都慢慢搬到了“浏览器”来实现,最极端的例子可能是meteor了 ,写web程序无需划分前端后端的时代已经到来了。。。

在这一方面,Google一向是最激进的。纵观Google目前的产品线,社交的Google Plus,网站分析的Google Analytics,Google目前赖以生存的Google Adwords等,如果想下载源码,用ElementTree来解析网页,那什么都得不到,因为Google的数据都是通过Ajax调用经过数据混淆处理的数据,然后用JavaScript进行解析渲染到页面上的。

本来这种事情也不算太多,忍一忍就行了,不过最近因业务需要,经常需要上Google的Keyword Tools来分析特定关键字的搜索量


图为关键字搜索的截图

Continue reading

Posted in python, 编程 | Tagged , , , , , | 16 Comments

网站广告投放策略研究 (一) 轮播以及效用最大化

首先科普一下目前互联网广告的类型,大体都有CPC,CPM,CPA,CPS,CPV这几种。

CPC就是按点击(Click)计算,CPM就是按弹窗(Mxxx?)计算,CPA/CPS一个是按注册一个是按销售计算,CPV则是按显示次数计算。于是CPC,CPA,CPS这种根据网站访客行为来获得收益的是一类,而CPM和CPV这种只和网站流量相关的则是另一类。

可想而知,CPC,CPA,CPS的效果要分析访客群体,点击习惯等诸多要素来进行调整,非一蹴而就,这篇文章中我主要想研究怎么从流量上做文章,在不作弊的情况下获取尽可能多的收益;等广告联盟用得多了,时间长了,也会给一点不同广告联盟的评价。

本文地址 http://obmem.info/?p=844 ,转载请保留,谢谢。
Continue reading

Posted in 站长, 编程 | Tagged , , , | 44 Comments

防DDoS脚本 in python

这篇博可以说连开场白都可以省掉了,之所以被DDoS,并不是因为惹了疯狗被追着咬,而是因为VC悲剧之后流量全到simplecd来了。

不仅如此,一些笨蛋们在抓站,一些笨蛋们在用迅雷下载,100Mbps的端口居然已经满负荷运作十几个小时了,这是什么概念?100Mbps满负荷1天,流量就是1000G,这样下去不用多久,我就可以等着上百刀的罚单了,泪飙。

此外,100Mbps的速度使得硬盘都快转不动了,严重拖累网站的响应速度,卡得我欲仙欲死啊真是。想当年VC挂了一天,被抓站的家伙们搞得一个礼拜半残废状态(其中那些家伙包括我在内,汗)。simplecd就更支撑不了了。
Continue reading

Posted in Linux, python, 站长, 编程 | Tagged , , , | 110 Comments

网站流量上去了,但是完全高兴不起来啊

晚上在simplecd上搜某音乐时就觉得不对劲,5分钟热度值也太高了点,登陆51.la看了以后真是吓了一跳,15分钟在线从平时的200-300+跳到了1000+,绝对有啥事情发生了。

经过浏览流量来源,果然不出所料有状况:VC发神经把音乐给砍了。根据一些搜索和尝试,是先砍专栏,再砍搜索,然后逐条删敏感数据的砍法,到时候也不知道会有多少资源幸存。

Continue reading

Posted in 其他 | Tagged | 93 Comments

MacBook翻/墙术

因为退税原因,入手同学的MacBookPro一台期限一月,虽然没有网络,但最近也着实蛮哈皮的,用着颇爽,虽然开发上来讲用着还是没Ubuntu顺手,尤其那MacPort,简直就一Gentoo么。

帮同学写MBP使用攻略的时候,顺手写一下Mac翻/墙攻略,于是就有了本文

Continue reading

Posted in 翻墙 | Tagged | 26 Comments

共享理财的一些实践(纯理论向IT向)

共享理财是指多人之间夹杂不清的财务关系状态下的理财方法。

实际上这是我在和别人合租的情况下,出于减少工作量的懒人思维而折腾出来的东东。

因为刚搬家,很长一段时间内都没有网络,无聊之极;再加上一直管帐的女生觉得算钱太累,把皮球踢到我的身上,所以干脆开始研究省心省力的理财方法。于是就有了本文。

本文对于某些人来说可能极度无聊,慎入。

Continue reading

Posted in python, 其他, 编程 | Tagged , , | 41 Comments

一年米国VPS使用经验总结

估计以后也很少会再用VPS,整理一下我用过的所有VPS吧。
申明:所有网速评价都是基于米国-米国(apt-get)、米国-澳洲(filezilla下载,VPN)的网速,到国内的网速我没有条件测试。

按时间顺序来:

1.mediatemple dv base: 50刀,20G硬盘,512M内存,1T流量,openvz类似

  • 测试:性能unixbench4.1.2-wht得分为30分,限制inode数,限制tcp连接300,限制一堆
  • 使用感受:一有点流量就挂了,内存完全用不到512M,在kmem里面限死了,能看到1G内存,但是永远别想用到哪怕512M;服务烂,support不太懂技术,只会敷衍,虽然是大公司,但是平均等候ticket时间还是有将近8小时,这对一个50刀的plan来说不能忍。
  • 评价:从来没有见过那么烂的VPS

Continue reading

Posted in VPS相关, 站长 | Tagged , | 60 Comments

服务器间同步/镜像/备份配置备忘录

因为上了独服,就不能依靠VPS供应商的备份了,其实大部分经济型VPS都没备份的,但是人家硬盘起码是RAID1+0,就算物理故障了只要不太严重不是电脑爆炸硬盘全毁之类的还是能修复的。独立服务器就不一样了,为了省钱不上RAID,不租备份,所有备份都得自己折腾了,这些配置折腾起来实在烦人,还是得记下来省下以后再搜索的功夫。

一、同步服务器的选择

备份服务器不需要好的CPU或者内存,只要求硬盘大,网络好就行了,对我来说100G以上的备份空间是必须的,然而100G以上的VPS压根就没几家会提供,便宜的更是难找,好在一不小心发现fdcservers在搞特价,256M内存300G硬盘10Mout100Min无限带宽的VPS只要9刀,没有比这个更合适做备份服务器的了。

Continue reading

Posted in Linux, 站长 | 10 Comments

又搬家了,这次是独立服务器:)

以前所在的服务商,AlienVPS最近被另一家公司收购了,然后就各种悲剧:先是把我和另一个人搞混了导致VPS挂了半天,然后是在WHT上各种广告超售,每天load average都能上8,时不时就抽两下,一怒之下我决定上独立服务器试试看了。

让我orz的是,周末把SimpleCD和其他一些站点重定向到放在ramhost镜像站,结果合起来快2W IP 8W PV的访问量愣是load average徘徊在0.1附近,比我现在的独立服务器还强,ramhost实在太强大了,拜一下。再次强烈推荐ramhost给擅长内存管理的人。

openvz下放站的要点是把所有程序的stack size调低(栈大小对大部分代码来说就是个no啊,狠一点完全没关系,因为基本上全用的是动态分配的堆),那内存就刚刚的几乎用不完了,再加上openvz的架构决定了它的缓存要比xen给力很多,所以同样的配置OpenVZ只要不超售性能要比Xen的出色不少。

Continue reading

Posted in Linux, VPS相关, 其他, 站长 | Tagged , | 36 Comments