【生财有术 精华帖】如何快速挖掘新兴领域需求

原创 [db:作者]  2021-06-22 08:25  【生财有术 精华帖】如何快速挖掘新兴领域需求已关闭评论

如何快速挖掘新兴领域需求

facert

如何快速控振新兴领域需求
挖掘需求的重要性不必多说,有需求才会有市场。

创业者在进入一个新兴领域时会思考这个问题: 如何挖气出用户需求,并做出用户愿意
付费的产品。

本文提供一种挖振新兴领域需求的思路 : 长尾搜索词。

搜索引擎的搜索框作为用户 主动搜索的入口,用户的每个输入都可能是痛点,这些痛点
更大概率能转化为需求和产品。

所以我们可以通过收集用户的这些长尾搜索词,并结合一些关键指标,找出需求点。

如何| 导新兴领域需求

如何快速挖掘新兴领域需求

自: 生财有术

4 6
[|
facert

挖枉需求的重要性不必多说,有需求才会有市场。创业者在进入一个新兴领域时会思考这个问题 : 如何挖握出用户需求,并做出用户原意
付费的产品。

本文提供一种挖振新兴领域需求的思路 : 长尾搜索词。

搜索引营的搜索框作为用户主动搜索的入口,用户的每个输入都可能是痛点, 这些痛点
更大概率能转化为需求和产品。

所以我们可以通过收集用户的这些长尾搜索词,并结合一些关键指标,找出需求点。

接下来,我们通过挖所区块链领域相关需求的例子来讲讲如何操作。

最近比特币等各种虚拟货币大涨,相信大伙或多或少听说过。那么问题来了,区块链经
过这些年的发展,作为一个还算新兴的领域,它到底衍生出了哪些产业,创业者进入这
个行业能提供哪些服务。

步骤一 : 确定领域词

首先我们需要确定领域词,领战词的选择至关重要。需要有足够的特征和代表性,不然
在后续的扩展挖振中会越偏越远。
比如区块链行业相关的领域词 【比特币」 「Defij 以太坊」 。

获取行业的领碟词,可以有如下办法 :
1. 寻找别人整理好的

2. 向相关行业人员请救3.

3. 自己写程序抓取挖掘

工和 2 不在本文的讨论中,新兴领域的词层出不穷 , 整理好的词库有它的消后性, 特别
是区块链相关的,项目更新日新月异。还不如自己动手丰衣足食,构建自己的领域词
库。首先找到该领域比较权威的网站或者导航站 ,比如区块链相关的新闻站有 「巴比特
[区块律动」 ,叶航站有 qkl123.com ,我们将导航站收录的项目以及相关的描述都抓

取下来。
区块链导航
es mr EE
zh Br gpr 加有 四 se

抓取方式如下
1 直接用 web scraper 插件 (教程可参考我之前写的 : 如何 5 分钟零代码实现豆痢小
组耻虫 httpsV/mp.weixin.qq.com/sgnKgHDiC86d4_a6Z1GZHRg )

2. 用 Python 写个程序。伪代码和下 :

URL=httpsV/webapi8btccomyqklnavigation-sites-tag/list?
slug=96s8ttag id=&page size=508page=%d
筛环slug和page:

url=URL+slug+page

返回内容=请求数据 (url )

抽取返回内容的标题+描述

保存到txt文件中

终得到一份 标题+描述 的文本,里面基本能洱盖大部分的领域词, 如果觉得这部分不


够,可以在其他网站上再采集一些数据。res 有inrs和Hb和和二tt下。天4三,右天和信人
acailtcalns 世上
eeL x

rs Tatagy mnr 二
下Con光头时和的中加所58个四区
at, 和1 ii

-CN18
ES
ITC ITC空和的之

aaraene Cairgere世
bi Wi可本

然后需要从文件中将领域词分离出来, 方法就是 分词 + 计算词频 + 抽出 topN 的关键

我们先尝试使用结巴分词对内容进行分词,一般情况下结巴分词能够比较好的处理中文
分词,但是却不适用于我们这种场景。

是结巴分词靠的是词典,对于新兴领域词典有

生性,比如我们测试 区块链是一个

伟大的革新,很明显区块链 没有很好的被识别出来。

所以问题变成了如何能够在词库不健全的情况下发现新词 ( 也叫未登录词 ) ,解决的方
案有很多,下面介绍其中一种算法 : 左右互信息 + 信息坑。

我们只用甫俗的方式去解释原理,具体的公式和代码不涉及。

我们先思考什么样的文本片段能够组成一个词,一般会想到文本片段在语料中出现的次
数足够多。

这种方式很容易实现,只要把所有最小单位的片段提取出来,然后计算片段在语料中出
现的闫数就行。但光是出现频数高还不够,一个经常出现的文本片段有可能不是一个词,而是多个词构
成的词组。比如 赚钱的本质是什么,赚钱 出现的频数高,赚钱的出现的频数也不低 ,
但 赚钱的 并不能成为一个词。

成词标准一 : 所处语境的丰富程度 - 信息炳

如果一个文本片段在很多的语境中被提到,那么它更有可能成为一个词。

类就是一个用来衡量这个维度的指标。焙越高就意味着信息含量越大,不确定性越高 ,
越难以两测。

举个例了 ,被子 是一个词,它可以在各种语境中见到 旺被子 盖被子 被子湿了但 辈
子 只能和一辈子 半辈子 几个固定搭配, 那么 被子 所在语境更加丰富,灶越大,更容
易成词。

成词标准二 : 内部聚合程度 - 互信息

举例说明,我们已经知道 电影是个词,那么 的电影院 拆分两个片段 的电影电影院, 哪
个更容易成词呢?

假设在 5000 万字的样本中, 电影 出现了 150 万次 ,院 出现了 4 万次。那 电影 出现的
概率为 0.03, 院 出现的概率为 0.0008。如果两个片段出现是个独立事件的话,电影、

院 一起出现的期望概率是 0.03 * 0.0008 = 2.4e-05。如果 电影院 出现了 3 万次, 电

影 院 一起出现的概率是 6e-03, 是期望概率的 250 倍。 这通常被成为凝合度 ,数值越
大表示两个片段一起出现的概率越大。而相反 的电影 出现的概率远小于 电影院,所
以 电影院 更易成词。

综上,想要成为一个词,这两个标准缺 一不可。

大概原理讲完了,程序写起来较复杂 , 我们直接看下运行效果。下图截取部分通过此算

法发现的关链词,其中很多是结巴分词
块链领域的关链词。

识别的。看起来效果还不错,基本能洱盖区四


Rs
5








SS


2
2
Sn
到mr



训o
汪汪
5
3

步骤二 : 拓展长尾词

关键词唤定后,我们可以国绕关键词扩展出更长尾的局。比如围绕挖矿,可能的需求
有 怎么按六
挖矿多长时间能回本 挖矿真的能赚钱吗。

那么如何快速拓展出这些长尾词呢,可以思考下,如果我们有类侯的问题,会怎么获取
息。

答案是主动搜索 - 问百度,问知平,问各种搜索引擎。

主动搜索真切的表达了自己当时的需求。比如我们在百度搜索 挖广,百度会有一系列的下拉联想词出来,绝大部分是人主动搜索
形成的,而这些词背后恰恰体现人们最迫切的需求。

Bai巡相度 |

坊矿才匀时什么原理
失信软件app

失矿是什么刘思
所下握么可作

失太app十大排名
给软件
所下平台
招矿六钱真的呆

那么接下来问题就简单了,我们只需将步骤一拿到的领域词循环获取下拉词,就能决取
到更多的长尾司。获取的方式不间述 ,跟上文关键词方式一样,会技术的几行代码就能
搞定。

同样我们不用局限于百度,其他的搜索引敬都有类似的功能,另外我们也可以对我们的
关键词做下加工,比如加一些博绪词,会有不一样的收获。

步骤三 : 挖气长尾词

接下来我们需要寻找出更有价值的长尾词,比如搜索量还行,但竞争不激烈的长必词。
这个做 seo, sem 的同学都很熟恶,可通过百度关键词规划工具挖振。

输入相关的关键词,就能看到这个词的月均搜索量,竞争激列程度.有

am 让
oa oa。 山
Er 人 Mg
ap 本
aa 本
aa om
earw Mog 油 寅
pr ao。 轴

通过上图我们可以看到 挖矿 每个月搜索量很高。说明在区块链领霹中 ,挖矿需求真实
存在。

很多人可能会执着于挖振搜索量很高但竞争小的词,会进入一些误区。

不是所有满足条件的关键词就_定能转化成需求,并最终完成变现,它可能是蓝海 , 也

可能不满足需求本身。

反过来,如果你的资源足够,哪怕竞争再激烈,进入一个需求量足够大的市场,也能够

分一杆壮。

采用上文同样的方法, 我们可循环遍历抓取百度规划师的那部分数据。有一些现成的拓
词工具能直接使用,附带搜索量结果。

至此 , 我们完成了长必词的挖气,接下来就是怎么分析这些数据了。

步对四 : 聚类长尾词

我们总共隐出了 30w 区块链相关的长尾词,这些词需要做个归类 ,人工整理耗时耗
力,可以写程序帮我们处理大部分工作。这里介绍一种简单的聚类算法 K-means ,属于无监督算法 ( Unsupervied
learning ) ,即我们手上没有明确的类别,通过算法把相似的东西分到一个组,来寻找
其中的规律。

聚类

网上有一些很好用的 Python 库 ,如 scikit-lea rm 能直接实现 K-means 算;

ET ee

3mina2s+0nsperloai dev ofl run loop eachy

我们预估分 200个类别,30w 数据 3分钟就能哆完。
效果如下图 , 我们发现以太币相关的需求已经聚合到同一个文件中

简单分析下数据,区块链行业目前搜索的长尾词用户画像大概分几类 〔 以下仅供娱乐 )
。 青铜级别 ( 刚网知道区块链这个行业,还在将信将疑中 )1

Ra
me


ER
|
ne

。 白银级别

aa

Ca
inioha
Cs
0

避 5

(已入场币圈,游走在各种交易所 )

( 不满足交易,开始投资生产力 )2 3 aa 折 o 1
rr 的 aa 本 o 1
ra 2 oa 芭 全关乎 @@了cer

。 王者级别 ( 不原只做韭菜 ,直接当镰刀)

aeTeEgd 加 加

afsressd

ET
Easyem

ae

加 2 和3

在分析的过程中,我们也发现程序处理流程的几个问题

。 长尾司覆盖不全

。 由于区块链行业的特殊,很多关键词没法在规划师中获取到搜索量,故需要另外分
析。同时我们确定领域词的时候,可以扩大抓取的数量和范围。条目跟行业无关

。 比如 def 是区块链全融,那么会拓展到金融相关的长尾词,挖矿也会扩展到挖煤矿
的长尾词。这个问题可以通过一些思路避免,本文先不葛述,下期再讲。

。 有些做技术的同学可能纠结算法的准确率。这里面我的观点是,技术用来给工作提

效 ,但不能纯依赖技术。如果一个算法准确率在 70% 左右,已经能提升一半以上的
效率 ,但再优化这个算法耗费的精力指数级上升,那么可先不优化。

科+互信息」 算法是我之前的反作或团队在识别

品牌营销上用到的。换
个思路,发现它在挖旺需求上面也是把利器。再拓展下,此算法可以挖振出各行业
的品牌词,也能给结巴分词自定义行业词库,细做下去应该也托有趣。

。 通过关链词挖旺需求,只是作为一个维度去判断市场,不是万金油.参考链接

。 如何在百万级的数据里找到别人正在赚钱的页
目 zhuanlan.zhihu.comy/p/15

。* 。 反作弊基于左右信息和互信息的新词挖
掘 zhuanlan.zhihu.comy/p/25

学 : 基于SNS的文本数据挖

我整理了下此次区块链领域相关的长尾词,有需要的自取。

链接: httpsV/pan baidu.com/s/1Zc6kJG

b4IBj_uHo0atQ 提取码: y46f

感谢 @小曾 提供的关链词挖振思路,最后祝大家一起生财有术 !

关于生财有术 精华帖相关推荐:

生财日历预览版,生财有术百度云第五期,生财有道appios

历史上的今天:

文章标签:

特别说明:本站不提供下载,文章采集自网络,如有侵权,联系删除文章

版权声明:【生财有术 精华帖】如何快速挖掘新兴领域需求》,版权归 [db:作者] 所有,侵删!

评论已关闭!