【技术原创】探讨一下京东商城价格图片解析算法的优化,附演示程序下载
发现咱博客开启后技术性的文章写的并不多,这貌似违背当时的初衷啊。文章不多并不表示咱一直都闲着,尤其是在技术方面咱是因为太忙了才没时间写一写,总结总结的。今晚趁还有些精力赶紧将前段日子自己捣鼓的小东西(之一)给大家分享一下。
前不久我不是扬言说要做两款小软件么,这次我们说到的话题就跟这个有关。我说的那个软件之一就是京东商城的相关软件–我想抓取价格做分析(京东不会提供这个接口),我相信这个肯定是对大家有所帮助的。京东商城的价格展示方式,除了书籍外,基本上都是通过图片来展示的–这个好处是防止有人过于轻易地抓取到价格信息。于是咱想准确地获取到价格的话就只能老实地分析图片喽(其实有的页面里,比如列表页面商品价格是有字符串表示形式的,但那个只用于无目标采集时有用,要是关注某个商品价格变动情况的话,作用就不大了,所以咱无法避免图像分析这一步)。
图片分析一般有两种思路,一种是与样本库对比,这种方法简单有效,缺点是适应性较差,样本可能要跟着图片不停地变动;另一种就是形状分析,也就是判断图片中数字的形状来判断是哪个字,这种方法效率比前者低,但适应性强;以前我在看验证码识别相关文章时还找到过这种算法,但眼下要用的时候就再也找不着了,方便起见咱也只能用第一种,也就是样本库的方法识别了。