my-life/what-big-data-brought.md at master ・ allwefantasy/my-life



my-life/what-big-data-brought.md at master ・ allwefantasy/my-life

一个公司如果开始要做大数据,成本是需要考虑的:

  1. 机器。会比传统的业务更消耗服务器,单机配置一般也比较高。
  2. 人员。BI,分析师,应用研发,架构,算法,每种类型的人价格都不便宜
  3. 数据为导向(或者慢慢转换为以数据为导向)会对原有的产品产生额外的负担。比如该产品需要产生大量的数据供大数据使用。

在实际的发展过程中,有很多老总敏锐的感觉到,手头有这么多有价值的数据,一定要利用起来,但是有几个问题确实是很多人不清楚的,大家也是边做边感受。有时候做到后面,心里也会犯嘀咕,花了这么多钱,这么多人手,做这件事情真的值得么?

我觉得真要做,至少要考虑下面几点:

  1. 需要多少成本?
  2. 需要多少时间?
  3. 产出是什么?
  4. 数据最后呈现的产品形态是什么?

如果能清楚的知道数据最后的产品呈现形态,想必产出也就自然而然知道了。毕竟产出需要特定产品去承载。

你知道了数据的最后的产品呈现形态,知道了产出,也就知道,数据究竟给公司带来了什么,也就回答了我们标题上的问题。

在罗列大数据都有哪些呈现形态的时候,我们不妨从一个非常高的角度看看大数据的组成包含哪些:

  1. 数据本身
  2. 流水线(支撑数据分析的数据处理平台)
  3. 挖掘加工(分析数据内部特征关联性规律,也就是机器学习)
  4. 产品(最终的呈现形态)

目前产品呈现形态,我所知的有:

  1. 推荐

    • 电商应用最广泛。有效增加用户体验,同时提升点击转化购买率
    • 有内容产出的站点。比如CSDN
    • 做内容聚合的,比如今日头条。据说今日头条的算法随着用户使用的积累,效果越来越好了。
  2. 广告(精准营销)

    • 专业的广告公司,比如广告联盟.
    • 特定产品本身承载的广告投放。比如微信那个高大上的朋友圈广告
    • 公司内部的EDM,电话,短信等营销
  3. 搜索(排序因子)

    • 机器学习产生的很多中间结果可以有效的提升搜索的排序
  4. 用户分析(这算的上是一个中间产品,也算的上是一个最终产品)

    • 了解你的客户是根本
    • 金融行业非常依赖于此。比如信征,反作弊,反欺诈等。未来放贷的变革估计也靠此了。
    • 这个可以作为一个直接的产品,也可以作为一个中间服务,直接支撑推荐,广告,搜索等产品
    • 基于此还可可以有非常多的产品,就等待人们去挖掘了。
  5. 实时计算(流量计费,反欺诈/作弊等等都需要依赖于此)

  6. BI报表

    • 基础流量,你网站的pv,uv等等
    • 质量监控,监控分析你的服务是否顺畅,比如视频播放卡顿比可以反馈出视频网站的服务质量。
    • 运营监控,譬如通过情感分析可以得到用户的直观反馈。典型如京东评论的情感分析。
    • 特定指标计算,这个是根据运营以及决策人员根据实际经验想看到的一些数据,我们把它量化,指标化,从而呈现出报表形态,方便运营以及决策人员做出相应的调整。
  7. 运维支持

    • 也可以划归到BI报表中的质量监控中去
    • 单独划归出来其实想说,大数据其实是可以对整个产品线的各个环节做support的。并不一定是我上面的列举。

上面说了七点,其实总结下,无非做了如下两件事情:

了解:

  1. 了解自己的产品
  2. 了解自己的用户

提升:

  1. 提升各种转化率
  2. 提升决策的准确率

当然,还有专门做数据的公司,只要他们能够为其他公司提供【了解】【提升】这两件事情,也就算达到自己的使命了。


Read full article from my-life/what-big-data-brought.md at master ・ allwefantasy/my-life


No comments:

Post a Comment

Labels

Algorithm (219) Lucene (130) LeetCode (97) Database (36) Data Structure (33) text mining (28) Solr (27) java (27) Mathematical Algorithm (26) Difficult Algorithm (25) Logic Thinking (23) Puzzles (23) Bit Algorithms (22) Math (21) List (20) Dynamic Programming (19) Linux (19) Tree (18) Machine Learning (15) EPI (11) Queue (11) Smart Algorithm (11) Operating System (9) Java Basic (8) Recursive Algorithm (8) Stack (8) Eclipse (7) Scala (7) Tika (7) J2EE (6) Monitoring (6) Trie (6) Concurrency (5) Geometry Algorithm (5) Greedy Algorithm (5) Mahout (5) MySQL (5) xpost (5) C (4) Interview (4) Vi (4) regular expression (4) to-do (4) C++ (3) Chrome (3) Divide and Conquer (3) Graph Algorithm (3) Permutation (3) Powershell (3) Random (3) Segment Tree (3) UIMA (3) Union-Find (3) Video (3) Virtualization (3) Windows (3) XML (3) Advanced Data Structure (2) Android (2) Bash (2) Classic Algorithm (2) Debugging (2) Design Pattern (2) Google (2) Hadoop (2) Java Collections (2) Markov Chains (2) Probabilities (2) Shell (2) Site (2) Web Development (2) Workplace (2) angularjs (2) .Net (1) Amazon Interview (1) Android Studio (1) Array (1) Boilerpipe (1) Book Notes (1) ChromeOS (1) Chromebook (1) Codility (1) Desgin (1) Design (1) Divide and Conqure (1) GAE (1) Google Interview (1) Great Stuff (1) Hash (1) High Tech Companies (1) Improving (1) LifeTips (1) Maven (1) Network (1) Performance (1) Programming (1) Resources (1) Sampling (1) Sed (1) Smart Thinking (1) Sort (1) Spark (1) Stanford NLP (1) System Design (1) Trove (1) VIP (1) tools (1)

Popular Posts