编辑导语:数据,对于任何平台或者企业来说,都很重要。无论是想要做出一些营销决策还是调整新产品的发布策略,数据的收集和分析都是必经的一环。对于医药O2O电商平台来说,得到权威而又准确的数据,尤其是药品和病症之间的关系数据源,显得尤为重要。
本文复盘一次药学服务数据购买的案例,呈现当时的处理方式和遇到的问题。
该“买数据”案例,发生在做医药O2O电商平台,药品这一特殊的电商商品,其“健康属性”,可以作为附加值提供的载体。如,卖药的同时附加提供健康服务,以药学服务拉近“人货场”的温度,打造线上线下产业化新零售生态。
药学附加服务,无论是用药指导、寻医问药,还是患者画像之类的,前提都是要有药品-病症之间的关系数据源。
这个数据即要权威准确,又要通俗易懂,兼顾科学化和网络大众化。市场上单纯的医药数据,或单纯的药品商品数据,都不难获得。难获得的是,针对医药电商人群和故事场景下的医药健康的资料。
本案例涉及到的内容清单:
一、前期需求分析
1. 分析需求
基于项目规划,将本次药学服务的需求场景,归纳如下:
这就要求,数据中起码涉及这些字段:用法用量、功能主治、适用人群、禁忌不良反应、服药周期、治疗的疾病、疾病的症状、疾病说明等。结合业务场景,可以勾勒出这样的简单的关系图:
2. 确定核心要素
根据以上需求,我们可以得知 “药”、“病”、“症” 三者最为核心,关系如下:
且三者为多对多关系,如下:
3. 评估数据量级
常规药品的数量,达到6万种(SKU)。
药品基本都是单规格的(不同含量视为不同规格,不同含量不同的申报,业内视为不同的商品),因此大约要准备接近这个数字的药品资料,才能保证覆盖面。
总结:至此,从需求要素、核心内容、需求数据量范围,描绘了拟获取数据的轮廓,作为寻找数据源的验收标准或参考。
二、调研获取数据的途径
我们的目标数据,是客观标准的基础数据,不是运营产生的数据。因此权威性、客观性最重要,那么如何获取呢?
1. 假如自己维护?
请专人、找到药盒、翻阅药品说明书、录入、再翻阅医药词典类数据、对应整理疾病信息……平均一天一人最多搞定100条,算下来6万就要很久。
显然来不及且成本不菲,并且没有验证的数据也不敢用,这条途径pass。
2. 爬别人的数据
药品信息在药监局官网比较权威,但是上面没有疾病方面的,甚至连条形码都找不到(备注:条形码,国内就是69码,唯一标识商品,13位、12位或8位数字组成)。
爬取其他网站,也曾尝试的,结果不是不准确、不齐全,就是不成功,这条路也走不通。
3. 购买数据
购买数据比起爬数据要正规些,咨询了京东阿里和腾讯丁香,人家都不卖。这些公司是要自己做数据服务的,也不差这点钱。
咨询了药房网、135网,没疾病方便的可靠数据,这时候业内人事推荐了一个叫“YA”的公司,在做药学服务,就决定深入商谈。
三、拿到样本数据
经过洽谈,对方提供的是一批EXCEL格式的样本数据。大概的表有14个表格,数据拿到之后,进行初步验收。
1. 比对E-R模型
他们的数据是mongdb存储的,首次抽离出来数据来卖,所以数据在表结构和表数量上有冗余。通过其表结构,绘制出E-R图,基本与需求符合。
2. 竞品横向对比
在检查样本数据的过程中,也在做替代方案的对比。
制定检验要点是:单表数据的错误率、联表查询的匹配率、市场数据的覆盖率、错误修复时效等。从网站或App寻找同类产品,但都有各种问题,最终还是舍弃了其他选项。
3. 远程全量检查数据
在未付款情况下,对方不提供全量数据。
由于样本有限,为了进一步了解数据,协商采取远程查数据库。对方在数据库中进行了单表验证和联表查询操作,我方远程观看,并记录检查结果。
远程的操作毕竟是不便,只交叉抽样验证了部分数据,当时估计出的准确率是93%——这也是决定继续洽谈的主要参数。
四、付首款并拿到全量数据
接下来的流程是谈价格,价格谈好就可以打包出售数据。
我方压价的论点主要是:疾病方面的数据不到一万条,买回后仍需补充的人工成本;非独家买断,可以复制销售,卖家边际成本很低,内容质量不高。
口头说的是由执业药师团队和药师专业、中国非处方药物协会药师进行审核。但是并拿不出证据,最终得到了折扣,拟定了全量数据验收的合同。
当时的合同内容比较简单,草稿截图如下:
合同签署后,拿到了全量数据。
双方约定一周的时间进行数据验收,验收无误则支付尾款。因为数据的敏感性,由专人以邮件压缩包文档的方式接收。然后存入堡垒机中,其他参与验收人员通过堡垒机进行检验。
1. 研究数据的质量
检查数据的合理性:也就是数据在逻辑机构上的是否有缺陷。
数据的关联度:采取的是手动在EXCEL上比对,并导入数据库后程序员SQL查询相结合的方式。基于对基础数据的了解,制定了检查方案,局部如下图:
2. 检查数据的权威性
这一点需要专业药师或药学人员参与,我们采用的是抽样调查的办法,比对的标杆是药典的权威资料,考察的对象比如“阿苯达唑”的服用时间、用药禁忌等。
3. 数据的覆盖率
采用的办法是,指定20个常用药物(比如对乙酰氨基酚),看是会否能查到全套的资料,得到的结论是数据并不理想。
比如:用条形码匹配已有的商品,发现有1579个找不到,占比20.87%;再用这1579个的通用名查找,仍有147个仍找不到,即绝对找不到的比例1.9%。
4. 数据的冗余性
很多表都是从MongDB转化过来的,所以表之间的结构不合理。最终14个表,也就有7个表是有用的,其余的多是过度表(初步验收时候虽然也发现了)。
5. 双方交涉
其实大家看得出,全量数据的检测结果不理想。
主要发生在,表结构不合理;数据存在错误、一些名词在各表中的表述不一致等。但是这个时期,合同的约定并不利于买方,因此只能继续往前。
我们在一周内输出了问题清单,抠合同字眼,寻找有利的机会,然后责令对方将数据清洗后重新交接。
五、数据购买后的应用规划
在经历5次数据交付后,双方法务协商一致,进行了价格的调整,最终完成了交易。
如果把验收当做一次项目,那么虽然项目做的不太漂亮,但是数据还是有价值的,是可用用的。
数据拿到了,技术层面进行应用规划:第一步,元数据检查和清洗,将14个表,抽离成整洁的新表;第二步,指定底层服务逻辑,以作为数据中台,供应用端接口调用。
比如:
第三步:对接具体业务场景,输出具体方案(此处略)。
六、总结
1. 本次数据购买主要涉及三方面
- 产品角度的需求锲合度;
- 医药专业角度的数据权威性;
- 法务层面的合同约定项:其中后两点都没做太好,尤其是法务方面,这导致了全量数据拿到之后的进退两难。
但是项目自身也存在局限性和难度:比如数据量大,很难发现细节问题;缺少标杆,自行推敲只能抽样调查的方式;数据的价格方面没有固定的标准,难以拿捏。
2. 数据购买带来的经验教训
- 自身对数据的需求范围和目标明确;
- 了解卖家,和卖家数据的影响力;
- 应当在购买之前,应该了解还有谁买过或者用过,调查口碑;
- 在于对方接洽之前,准备充分的行业和技术方面的验证标准和计划;
- 制定基本的项目步骤,比如:前置研究、评估成本、购买谈判、后置约束;
- 在拿到全量数据之前,应当充分采取远程调查的手段,挖掘对方数据的漏或者不足,以作为合同约定和议价的前提;
- 在合同签署中,更多约定对“隔皮断货”的风险的鉴定标准和卖方的责任。这个份文档一定要提供给行业专家、法务,以便将来拿到真实数据之后,可进可退;
- 合同中要约定验收过程问题的处理办法,验收成本谁来负责,验收不通过的最大次数等。