O2O
APP开发搜索系统流程结构什么是“切词”,开发APP搜索系统流程切词,又叫“分词”,用于将用户输入的非结构化字符变成机器可识别的词组。市面上有很多成熟的切词组件。切词逻辑有很多种,如根据字符、概率等切词,电商和O2O一般使用字符串切词的方式进行处理。关于切词的方法,最基础的有最大正相匹配、最大逆向匹配和双向匹配等,具体的内容可以百度查询。切词工具是根据词库中的词典将字符进行切分,一般开源的切词工具都有默认的词库和自定义词库两种,用户可通过添加自定义词库来完善补充。
APP开发公司这面需要强调的是切词时候的过滤,尤其生鲜类、非标品情况下特别需要注意。
●单字词、助词之类的是否要过滤掉,如米、面和油等。
●别名情况的处理,尤其是生鲜类。比如北京的油菜,在上海叫上海青,在重庆叫漂儿白。检索接下来就需要匹配检索结果集了。根据切出的词语进行匹配,匹配到的商品信息集合为检索结果集。结果集需要做检索、过滤和标记3个步骤。检索项包括但不限于:
●商品名称;
●商品标题、副标题;
●商品描述;
●商品参数、规格;
●商品品牌(生鲜、副食品类尤为重要,比如五得利面粉、鹏程五花肉);
●商品品类(一级类、二级类);
●别名关联商品;
●促销类型。成熟的电商系统不仅仅能实现用户的基本商品检索,还会根据关键词进行意图分析并进行查询转换。以生鲜电商举例,当用户搜索“猪肉”时,用户希望获得的不是含有“猪肉”词语的商品,而是猪肉的各个部位、猪肉级别等信息,这时应该将其转化为“后臀尖”“前臀尖”“里脊”“一级白条”等词语进行检索,而不是匹配“猪肉”。意图分析主要有以下两个方面:
●行为模式分析;
●用户画像分类。去重和过滤获取的结果集需要经过去重、过滤的处理。此部分可以在加权打分后进行处理,也可以安排在初选结果后处理。
●同一个商品被多个词语命中,则需要去重。
●现实中的电商搜索可能会根据不同的场景构建所谓的“小搜索”,如按照类目、品类和定制化场景等搜索。因此,针对不同的搜索场景,可能会有不同的过滤、去重条件,也可以在构建数据的时候使用不同的库进行处理。
●O2O场景需要按照一定区域概念(城市、商圈等)进行过滤。
●售罄商品需要过滤。
●下线商品需要过滤。标记和加权在检索完成后需要对数据进行标记,以便后续做加权时使用。此步也可以在做加权处理的时候同步进行。加权是整个流程中最重要的步骤。加权的目的是根据模型确定结果集中各个商品的排序优先级。加权的维度有很多,根据不同的场景考虑会有所区别。加权因子主要分为以下几个维度:
●相关度;
●商业化因素;
●个性化因素;
●人为因素;
●数据模型统计。计算相关度最后是计算相关度,这里指的是分词的相关度,包括文本匹配、词间距、是否是中心词和品牌词等。中心词的概念是是否命中了核心的词语,中心词和品牌词也需要有对应的词库进行维护更新。词间距是计算相关性的一个维度,比如一段文本中包含清华、大学,“清华大学×××××××”与“清华×××××××大学”相比,肯定是前者相关性更高一些。这里面有几点需要注意。
●关键词被完整匹配和部分匹配的权重是不同的;
●单词命中和多词命中同一商品也需要考虑权重情况。
深圳APP开发公司本文关于“搜索系统流程结构什么是“切词””的建站知识就分享到这里,谢谢关注,博纳网络编辑整理。