现在的位置: 首页 > 综合 > 正文

三岁小孩开发搜索引擎,搜索引擎白热化[原创]

2013年08月16日 ⁄ 综合 ⁄ 共 3970字 ⁄ 字号 评论关闭
三岁小孩:指这个想法很幼稚,比喻.

注意: 
QQ273939617,文章可转载,但请勿修改,包括错别字。
*转载请注明该论坛直接链接,文章内文字请勿随意添加任何形式的链接。
*请注明发帖人在本论坛的名字。

采购与工程搜索构思
别名:采购搜索,中国采购,中国产品与采购,产品采购。还没想好用哪个,域名也不好起。

采购与工程搜索
(黄页,产品,采购,销售,工程)

设计目的: 
1. 收集整理企业黄页;我对所有黄页都不满意。包括新*,搜*,chinayp(奇怪,这个网站访问的人是美国人占多。值得注意)。我的总结,目前的黄页收录不全,照搬照抄,不会动态更新。除联络人外,基本无有用信息。(有弱点,好)
2. 通过多元搜索首先获得各个企业的全部联接,然后用蜘蛛爬行这些网站(免除了从头开始的麻烦,而且结果比google,baidu,yahoo还要全。因为是加总多家的结果。)
3. 提供基本企业信息查询和企业相关信息类聚
    企业->信息
    企业->产品
    产品->企业
产品->销售(次要,因为重复的信息,垃圾太多)
产品->求购(次要,因为重复的信息,垃圾太多)
企业->柜台(展台)->如果简单实用,给采购使用的话,这是多余的。我的目的是专用搜索,而不是b2b.据我所知,原料采购很少上ali***,除非贸易的采购。

本网站的立意在
结果丰富,甚至比google,baidu,yahoo齐全,但主要是按企业,按行业,按产品的专业特征过滤和重新排序,客户需求相关性而不是pagerank,这个对要找什么厂家的网页,简直是狗屎.
软件平台
    Java/windows or .net (收集,整理,排序,整和,因为考虑在pc上进行,所以不想用linux,可以征集其它人的电脑,利用它们的cpu闲置时间。当然正式运行后,还是专用的好),任务由主控服务器通过webservces控制,或说分散机来承接任务。 
    Java + linux + php + mysql(接受查询)
核心步序
1.    通过”企业源“模块,收集完整的企业列表(法人,注册资金,登记证号)
2.    通过”企业基本信息整理”模块,分析,去重,生成最新,最全,动态,准确的黄页.(动态校验。。多点校正)
我要得到完整信息。不像狗S的新*黄页,搜*黄页,连个厂家地址都没有也算黄页。
3.    “企业->产品“模块,收集完整的企业产品清单
4.    “产品->企业“模块,提供横向对比
5.    “行业分类法”模块,把工商企业仔细分类,这个过程需要提前作,并辅助人工
6.    行业关键字词清单,权重值依照目前的热度来调整(考虑抽样得出,要想专业,必须使得自己至少看起来比较专业,对行业的了解是一定的。不是随便搞一个清单。说白了,我这个构想有点像作内容,而不是搜索了。)
7.    行业细分(产品级)关键字清单,权重值依照目前的热度来调整(考虑抽样得出)
8.    按地域,行业别,企业,产品四级。
9.    网站网页性质分类法(说来容易,作来难,概率和统计吧。)
a)    企业官方网站
b)    门户网站
c)    商品营销网
d)    学术研究
e)    偶尔提到该关键字
f)    垃圾文字
g)    具体可参照:制造(服务),流通,设计,销售(求购),标准,学术,新闻,偶尔提到,垃圾,提问与回答,讨论组BBS
硬件
    初步设计:三台面向最终用户查询用,linux,负载平衡分布查询
                目标是5台,固定用户10W,峰值5000人
       线下分析:没有足够电脑只能募集5-10台pc机,linux,硬盘10*100G
        (容量现在还不晓得,但我决定不存放任何垃圾。对垃圾也会弃而不处理,浪费我的电费)

区域范围:
设计之初,考虑全世界范围,初步支持中文,但数据库设计必须考虑国别和网页文字别
如果能提供外语->中文的语言转换,可以为外语盲提供浏览国外的信息那是好。可能趋向机械式的翻译。很多零件是国外的,所以可能原始预言进行摘要比较好。

推广方式:
主要还是在人群集中的目标用户聚集的论坛推广。因为人多。向采购性网站,杂志投文章。文章能得到广泛转载和收藏,时间比较持久。
    推广目标:工程人员(开发),采购,业务人员。一年达到50W人知道该网站。10W人造访,5W人能回头使用(一个网友说很容易。??)

困难之处:
    目标客户太少。推广困难,因为类似网站太多。想脱颖而出很困难。用户对google,baidu粘度太高。但本设计还是有很高的立意。功能上至少能解决很大问题。并且作过广泛调查。关键是很多人怀疑该设计不能达到预期的效果。第二,怀疑推广不开。

    总结了类似网站的情况。有两点:技术是关键。推广是大敌。

    最近手上项目收工,衣食温饱,想作这个尝试,不晓得有否价值。待大家批评。

 
=================
作者续
     这是一封写给一个专业采购人士的信片断。

     我现在的想法是做一个垂直的搜索引擎,名字叫<<企业产品与采购搜索>>。将"黄页号码","企业与产品“信息进行整合。

    具体思路是:
    1.通过垂直搜索方式,从全世界的黄页类,商务类网站检索,抓取”黄页信息"和产品信息。
    背景:由于公司或工厂现在面临很多电讯类供应商,他们的电话号码经常更换,现在的黄页(国内的最大为中国电讯和网通黄页),最大的缺点是不准确(客户更换造成)和更新慢(数量庞大的关系,还有电话号码过户和变更的原因)。
    2.对公司级别,工厂级别的企业提供类聚的相关信息,其它的只提供电话号码。
    类聚的意思就是说现在的黄页类网站只提供该企业的地址,电话,联系人,邮编。而无法提供其它信息。
    而通常寻找一个供应商都是从产品或某种服务需求开始的,比如找配件或OEM代工,或直接购买其成品来做贸易。最开始都是比较模糊的意识。

    我想把企业的外部属性归类,如产品,设计能力,制造能力,客户,供应商,厂房面积,员工人数,品质认证,环保认证等
    然后通过"企业名称"+"这些属性,形成关键字,向通用搜索引擎提交查询,返回比如10万笔数据,我得到这些链接,然后再派出网络蜘蛛抓取这些网页。用某类属性的相关关键字来加粗(或加成红色)显示。
    然后通过"产品名称"为关键字,向通用搜索引擎提交查询,返回比如10万笔数据,我得到这些链接,然后再派出网络蜘蛛抓取这些网页。用某类属性的相关关键字来加粗(或加成红色)显示。当然这个过程有非常复杂的计算。主要会对网页匹配行业关键字,网页匹配产品特性关键字进行计算。

    再对网页的来源分类,如“企业网站","商务网站","新闻网站","行业网站","设计开发网站","产品标准网站"等.

    例如:找"绝缘硅胶片",google: 有64,200项符合绝缘硅胶片的查询结果.我们需要的有用信息可能被淹没了,因为花一天时间也不能看完10000个网页。

    如果按我的方法进行,最后显示结果:
    1.生产厂家[30]
        广州市日春电子制品厂
        http://www.cps800.com/products/22908.htm
        广州市日春电子制品厂是一家专注于大功率电子产品上导热绝缘材料的研发和生产厂家,所有产品符合欧盟ROHS环保要求。我厂可提供以下产品与服务:
        供应硅胶片、矽胶片、矽胶布、硅胶布、软矽胶垫、绝缘粒、云母片、矽胶帽套、导热绝缘矽胶套管、硅胶端子套、麦拉片(PET)、pvc/pc绝缘片、电源线扣、pcb间隔柱、capton(聚酰亚胺薄膜)。
        
        其它厂家....
    2.商务信息[2000]
    3.行业网站[20]
    4.产品标准[20]
    5.学术文章[100]
        深圳市傲策科技有限公司
        http://www.dianyuan.com/sale/d/44/57727.html
        俗名又叫散热膏,是以特种硅油做基础油,新型金属氧化物做填料,配
        以多种功能添加剂,经特定的工艺加工而成的白色膏状物. 具有优异
        的导热、耐温性能,是耐热器件理想的介质材料,而且性能稳定,
        在使用中不会产生腐蚀气体,不会对所接触的金属产生影响. 高纯
        度的填充物和有机硅是产品光滑、均匀及高温绝缘的保证. 涂抹于
        功率器件和散热器装配面,帮助消除接触面的空气间隙增大热流
        通,达到减小热阻,降低功率器件的工作温度,提高可靠性和延
        长使用寿命。

        其它....
    6.其它相关性低的网站[5000]
   
    这样用户就可以根据需要进行选择,例如直接看厂家,那数量已经缩小到30家,很容易找,如果看产品标准,也可以直达目的网站.

    相比直接在google搜索的好处是:google返回的是PageRank高的网站排在前面,也就是说在上面六个分类中,商务信息(买卖)和其它相关性低的网站可能充斥在我们面前(可能链接多或某个词的使用频度高,如USB).

    ========================
    我现在想请教的是:
    1.这样的预先分类网页的方案是否可取?
    2.怎样分类才适合采购人员,业务人员(卖东西给该企业),开发工程技术人员,和商贸采购人员。
    也就是采购人员希望把与该企业或该产品相关的所有网页按什么来进行分类比较好??
    3.作为专业人士,您有什么好建议能给我参考
 
chen

 

抱歉!评论已关闭.