- 众包模式
Freebase是一个允许任何人创建、修改、查询的知识库,这就是常说众包模式。维基百科是这类模式的鼻祖,但跟维基百科不同的是,Freebase里面存储的不是大段的文本,而是结构化良好、机器也可读的数据格式。
2015年,Google又宣布将逐步关停Freebase, Freebase原有的数据迁移至WikiData. 而WikiData是Wikipedia基金会的一个知识库开放项目,和Freebase在本质上是一样的,都是利用众包模式维护一个开放的知识库。至于说Google为什么这么做,我就不得而知了,猜测背后会有一些生态、法律的原因要考虑。
Audrey Hepburn在Wikidata中的页面无论是Freebase还是WikiData, 目前的知识库建设仍然是比较依赖众包模式的。建设这样一个众包平台,就需要考虑诸如数据获取、数据清洗、不同数据源的融合、实体之间建立起关联关系,统一入知识库等问题,这是整个知识图谱建设中最基础的一环,如果一开始这个架构没有搭好,后续会有很多问题。
留个问题在这里:什么样的人或组织会向WikiData贡献数据,动机会是什么?
2.推广语义网标准
网站开发者为什么要多此一举的加上额外的数据标签,当然是希望能从Google那里获得流量和品牌展示。举例来说,站长可以将自己的企业logo,联系方式、社交网络账号,还有一些诸如电影播放链接、产品描述、本地服务商信息等。
企业logo、电话、社交帐号等在知识图谱上展示机器学习,自动挖掘知识是未来一个方向。但是,合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下。咱还是先详细了解下这个众包模式是怎么玩的。
下一篇,WikiData体验报告。