一休给访客直播室做的视频,呵呵很多创意,又让我的小心思有念想了。

实时系统中的两个概念:实时更新和秒级延迟

实时系统中有两个非常重要概念:实时更新、秒级延迟。
一个决定系统属性,另一个则衡量系统性能。

实时更新

这个指标决定了系统的实效属性。

系统对于数据请求,即时计算得到结果并返回。
区别于离线预算(如日表,周表,月表等固定周期计算。在周期内,结果恒定,与数据请求时间无关)

即时计算又分两种方式:

  • (即来即算型)存储明细数据,当请求到来时,即时计算将结果返回。()
  • (即来即取型)随数据更新,不断计算中间结果并保存,当请求到来时,即时取中间结果返回。

两种方式各有利弊,需要根据产品特性及环境酌情选择或混用。

继续阅读 »

【量子直播室】实时流系统在电商分析产品中的应用

量子直播室是什么?

量子直播室 是量子恒道基于店铺实时流量数据,经过过滤、转换和组合等数据分析过程后,向淘宝卖家提供的即时数据服务类产品。

直播室产品的特点是什么?

继续阅读 »

Beanstalk Protocol 摘记

Beanstalk协议概况

  • beanstalk protocol 是建立在TCP之上的应用层协议。
  • 协议采用ASCII编码
  • 针对每一个连接,服务端按照接收指令的次序处理和发送响应。
  • 协议中所有整型都已十进制小数表示(除非另作说明),并且非负数
  • 协议中的名称都是ASICC字符串,由 a-zA-Z0-9-+/;.$_() 组成,但是不能以减号开头,以空字符或者换行结束,每个名称至少一个字符。
  • 协议包含两种数据
  • 行文本,被用作:
  • 客户端指令
  • 服务端响应
  • 非结构化数据块,被用作:
    • 传递job体(一段字节序列)
    • 传递统计信息
  • 服务端不对job体做任何检查或修改,总会按其原有格式返回
  • 客户端负责解析job体
  • 当结束连接时客户端发送“quit”指令,或者直接断开tcp连接即可
  • beanstalkd 支持大量连接,因此最好的做法是客户端保持连接,并尽量复用。
  • 当客户端发送协议错误或者服务端出错时会报出下面中的一个错误:
    • OUT_OF_MEMORY 服务端无法为job分配足够的内存。
    • INTERNAL_ERROR 服务器内部错误,一般不会发生。
    • BAD_FORMAT 客户端发送的指令格式非法。
    • UNKNOWN_COMMAND 指令不存在
  • 当服务端发生错误无法继续服务于当前客户端时,将主动关闭连接
  • 继续阅读 »

    筷子兄弟新作《父亲》

    【转发】“所有的审查机制都会影响到人们的言论自由”

    上不了Google,Facebook,Twitter…  甚至各类技术网站,因为服从某些意志,大众距离先进信息越来越远,更可悲大众都无法意识到被隔离。

    【转自cnblogs.com】
    北京时间 12 月 16 日晚间消息,美国 83 位互联网投资者和工程师今日联名向美国国会议员发表了一封公开信,反对美国参、众两院正在分别审议的《禁止网络盗版法》(以下简称“SOPA”)和《保护知识产权法》(以下简称“PIPA”)互联网黑名单法案。

    这 83 位联名者中不乏一些互联网专家和知名人士,如“互联网之父”、 TCP/IP 联合设计者温顿·瑟夫(Vint Cerf)、HTTP/1.1协议标准作者吉姆·盖提斯(Jim Gettys)和 IPv6 主要设计者史蒂夫·蒂灵(Steve Deering)等。

    他们在联名信中称,如果这两个法案付诸实施,则将创造出一个令人极度恐慌的环境,使技术创新变得不确定,并严重损害美国作为核心互联网基础设施监管者的信誉。这两个议案将破坏互联网的全球域名系统(DNS),并导致其他一些不可预知的技术问题。

    继续阅读 »

    红领巾,讽刺的太直白

    讽刺的太直白

    过滤掉广告那部分,只怀旧一下自己80

    寻找80后回忆的纪念馆

    [PHP] 处理文件上传

    HTML基础

    通过POST表单方式提交

    PHP上传步骤

    1. 客户端通过HTTP POST方式表单提交
    2. 文件上传后存储在默认临时目录,配置php.ini属性upload_tmp_dir和PHP运行环境变量TMPDIR可以设置临时目录,php语言中函数putenv设置无效
    3. 使用move_upload_file将上传从临时目录移动到指定位置(如果upload_tmp_dir已经设置到指定位置就不需要此步骤)
    4. 如果表单没有选择上传文件 $_FILES['userfile']['type'] == “” , $_FILES['userfile']['size']== 0

    继续阅读 »

    [数据控] 当所有浏览器链接行为都被包装以后,现在的统计分析怎么办?

    • google,baidu,bing等搜索引擎的 搜索结果跳转
    • 短地址服务
    • 社会化分享服务(jiathis,bshare)

    上面各个产品在提供各自服务的幕后,都把矛头指向了一个最最重要东西 — 用户行为数据,互联网时代最具价值的宝库。

    网络行为的样本够丰富可以描述群体规律,网络行为的记录够细致可以分析过往预见未来 … 如果你上网,数据维度够多、维度上信息量够大,我一点都不怀疑可以复制一个你。应用到各个领域其价值都不可估量!

    这点重要性毋庸至于早已被认知。

    继续阅读 »

    [数据控] 全网搜索引擎将没落?

    最近越发有一种强烈的感觉:像google、baidu这样的全网搜索引擎,搜索服务在不远的或将没落。

    90年代初互联网诞生,经过近10年的发展初具规模。那时候的信息零散分布在互联网各个不为人所知的角落。互联网上的信息好比从大厦高楼往下看的茫茫人流,没办法分清谁是谁。

    1998年车库里诞生了谷歌,从此在庞杂的互联网信息海中,我们有了一种归纳信息的方法–搜索。搜索成就了一家伟大的公司,同时也造就一代人使用互联网获取信息的行为方式。它确实是一个伟大的存在!

    在这20年的发展过程中,我们不但创造各种信息,还创造各种传播、复制信息的方式。在接下来的岁月,信息在现在已然巨大的基数以已超出我们想象的增速膨胀、乃至爆炸!

    我不怀疑技术发展能赶上信息爆炸的能力,我怀疑大众对信息的需求能否赶上信息爆炸的强度。那时候,普通众众的某个信息需求,只需要宏量信息的一个小小子集就已满足。baidu,google全网搜索的式,能耗需求比会不会太大了?领域搜索也许更好一些。

    能耗 / 需求 = ??

    几年之前买东西也好,搜新闻也罢,我都会用百度,谷歌等搜索引擎。如今这些基本需求有了淘宝、京东、网易、新浪、人人、同程、点评、豆瓣 … 等一一满足,针对我生活中的某一需求,逐渐有了一个或几个印在脑海里的固定对象来服务。

    google,baidu 提供的服务依然重要,工作之中,信息需求细致琐碎之处依然需要他们 …

    说没落,是针对普通大众获取信息的第一选择及习惯是否改变,而无关它们存在之重要性。

     

    [PHP] 3分钟第一个 Extension

    准备工作
    GNU autoconf
    GNU automake
    GNU libtool
    GNU m4
    确认上述都已安装

    下载php源码
    wget http://cn2.php.net/get/php-5.3.8.tar.gz/from/cn.php.net/mirror
    tar zxvf php-5.3.8

    继续阅读 »

    [数据控] 为站点加上统计

    国内比较成熟的统计系统

    • 量子恒道(前身是yahoo统计)
    • 百度统计
    • google analytics
    • cnzz

    百度统计 部署
    在yourpath/wp-content/themes/twentyten/footer.php尾部添加
    默认情况下会显示统计图表,可以到设置–>统计图标 中设置成“不显示图标”,大概2~3分钟后修改生效。
    另外安装完成后可以到 设置–>代码安全检查,检查安装是否正确,访问呢数据大概在半个小时后会在报表中体现。

    
    

    Google Analytics 部署
    在yourpath/wp-content/themes/twentyten/footer.php尾部添加
    默认不显示统计图标

    
    

    cnzz 部署
    在yourpath/wp-content/themes/twentyten/footer.php尾部添加

    
    

    开通linode VPS

    一休哥推荐,小组4人合租了这个linode 日本 VPS。

    1440 RMB/YEAR
    20GB Storage
    512MB RAM
    200GB Transfer
    1 IP

    速度不弱于国内,免去了备案困扰。
    大家有兴趣,访问他们的官网:
    http://www.linode.com

    空间用了一个周末,发现内存莫名被吃掉,服务器巨卡,访问巨慢。

    # 查看占用内存较多的进程
    ps -A --sort=-pmem -o comm,pmem | head -20
    # 发现12个php-fpm 进程吃掉了90%左右内存
    vi /usr/local/etc/php-fpm.conf 如下修改
    # max_children=4 # 子进程数限制4个
    # emergency_restart_interval = 10m # 10分钟自动重启回收内存资源