小熊带你玩科技|谷歌是怎样扫描2500万本书的?出错图片揭开了谷歌的土味操作
本文由《万物》杂志官方微信“把科学带回家”提供

文章图片
撰文七君
我们想要搜索某个网站、某条新闻 , 在搜索引擎里输入几个关键字就可以了 , 很方便 。 一些软件甚至可以通过拍照识别题目 , 然后给出解答 。 但是 , 在网上搜索某本书里的内容却很难 , 除非这本书已经被转成了电子版 。
如果能把市面上的书都变成电子版 , 那么几千年前古人的思想也能上线 , TA的言论和当代明星的发言一样可以通过网络被搜索到 。 古往今来的思想家一下子就在网络上“重生” , 鲁迅曰没曰过什么搜一下都能知道 , 这是一件利在千秋的好事呀 。

文章图片
谷歌创始人也有这个心愿 , 联合创始人之一的谢尔盖·布林曾说:“人类几千年的知识 , 或许是最高质量的知识都在书本里 。 ”
2002年 , 谷歌启动了雄心勃勃的书籍数字化项目ProjectOcean , 想要创立一个全球最大的数字图书馆 。 谷歌的设想是 , 只需要一台能联网的电脑 , 你就可以搜索和阅读数千万本书籍 , 就和浏览网页一样方便 。

文章图片
2004年 , 谷歌开始正式扫描 。 密歇根大学、哈佛大学、斯坦福大学、牛津大学和纽约公共图书馆纷纷加入了进来 。
2010年 , 谷歌宣布要扫尽全世界的1.2亿本书 。 根据2015年10月28日《纽约时报》的报道 , 谷歌已经扫描了超过2500万册书籍了 。
为了扫描这些书 , 谷歌年支出4亿美金 , 设立了专门的扫描中心 。 在这些扫描中心里 , 设置着专门的扫描架子 , 上面配有上千美元的光学镜头 , 还有用来探测书页曲率的光学雷达LIDAR 。

文章图片
谷歌的7508978专利里采用的扫描技术 。
为什么不用传统的扫描仪呢?
因为一些书比较老旧 , 也比较厚 , 不能暴力压在扫描仪上扫 , 更不能拆开 , 只能自然摊开 。 因为这个原因 , 扫描完的书页其实是弯曲的 , 为了自动把页面捋直 , 谷歌还自主研发了一套技术 , 并申请了专利7508978 。
这个技术属于光学字符识别(OpticalCharacterRecognition) , 可以理解为一种后期技术 。 谷歌的这个专利可以把弯折的书页自动铺平 , 并把图片里的文字转化为字符 , 让我们能够用关键词搜索到 。 随着这个项目技术的进步 , 一开始一本300页的书要40分钟扫完 , 现在已经可以做到一小时扫6千页了 。

文章图片
看起来谷歌的扫书技术非常高大上 , 是吗?
其实 , 谷歌扫书设备并不是完全的自动化 , 有一个步骤还是需要手动 , 那就是翻书 。 人类操作员翻一页书 , 踩一下踏板 , 扫描设备就扫一次 。
本来这件事儿是谷歌的商业机密 , 但是后来被一位叫做AndrewNormanWilson的艺术家曝光了 。
Wilson说 , 他曾在2007年在谷歌加州的MountainView园区工作过 , 那些负责书本扫描的员工的工牌颜色和正牌员工不一样 , 也不能享受他们的福利 , 比如骑谷歌自行车 , 免费员工餐 , 还有公司的班车 。 后来 , 他还专门把谷歌图书里出现的戴着套子的手指书页截图收藏了起来 , 大家来看看——

文章图片
当然 , 谷歌也不是没试过全自动扫描 。 从公开的专利记录来看 , 谷歌的一个叫做DanyQumsiyeh的工程师就曾设计了一款价格很并夕夕的全自动扫描仪 。
- 小红猪带你看科技|七夕节送女朋友必备左点小艾智能艾灸器X8,3天众筹500万
- 浪浪科技精选|超频三GI-CX240 ARGB水冷,极致性能冷酷到底
- ITheat热点科技|可搭载高规格显卡,AMD将发布新移动端处理器:开放完整PCIe通道
- 爱因儿科技|入侵盖茨、马斯克、巴菲特等名人推特账号的黑客被抓了!最小的17岁
- 小米科技|小米正式官宣以旧换新,支持小米10系列等5款机型,你等到了吗?
- 小米科技|数亿米粉始料未及!小米2日正式宣布,网友:太良心了!
- 科技数码迷|刘作虎终于拿起了屠刀,一加氢OS彻底与过去说再见
- 一点科技范|你更pick谁?,下半年最受期待的三大系列手机
- 科技章鱼烧|更换硬盘只需动动小手,装载系统和软件交给DiscWizard
- 科技小蠕虫|又一国家绕开华为,3大运营商核心网络不用华为,美国“围剿”下
