鱼C论坛

 找回密码
 立即注册
置顶 ·分享 本人最新博客(包含各种AI算法的原理剖析与实现,模型原理剖析与实现)
DAY 2020-6-13 19:32
博客地址: https://www.jianshu.com/u/ac22418e1795 ,欢迎喜欢AI的一起交流学习。鱼C博客至此不在更新。 现在已经更新的有,李航《统计学习方法》算法剖析与代码实现,HMM,CRF,unigram,Bigram,N-gram,word2vec,RNN,LSTM,BI-LSTM,transformer,Bert。
个人分类: 公开|8 次阅读|0 个评论
置顶 ·分享 迁移计划
DAY 2019-10-17 13:31
因为鱼C平台各种文本语法无法支持,转入`简书`平台,进行心得分享
个人分类: 公开|408 次阅读|0 个评论
置顶 ·分享 如何培养你沉稳的气质
DAY 2019-10-5 11:10
不要随意显露你的情绪 不要逢人就抱怨 征询意见之前自己先思考但不要先讲 不要一有机会就宣泄你的不满 学会讲话不要紧张
个人分类: 个人私密|421 次阅读|0 个评论
分享 数仓采集-服务器选型
DAY 2019-9-23 16:30
服务器选择物理机还是云主机? 1.机器成本考虑 物理机:以128G内存,20核物理cpu,40线程,8THDD和2TSSD硬盘,一般物理机寿命5年左右 戴尔品牌单台报价4w出头, 云主机:以阿里云为例,差不 ...
个人分类: 数仓|205 次阅读|0 个评论
分享 数仓采集-框架版本的具体型号
DAY 2019-9-23 16:29
1)apache框架版本 hadoop 2.7.2 flume 1.7.0 hive 1.2.1 ... 2)cdh框架版本:5.12.1 hadoop 2.6.0 spark 1.6.0 flume ...
个人分类: 数仓|213 次阅读|0 个评论
分享 数仓采集-框架版本选型
DAY 2019-9-23 16:28
1)如何选择apache/CDH/HDP 1.1 apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的人员) 1.2 cdh:国内使用最多的版本,但cm不开源,但其实对中小公司使用来说没有影响(建议使用) 1.3 hdp:开源,可以进行二次开 ...
个人分类: 数仓|241 次阅读|0 个评论
分享 数仓采集-系统数据流程设计
DAY 2019-9-23 16:27
业务交互数据:业务流程中产生的登录,订单,用户,商品,支付等相关的数据,通常存储在db中,包括mysql ,oracle等 埋点用户行为数据:用户有在使用产品过程中,与客户端产品交互过程中产生的数据,比如页面浏览 点击,停留,评论,点赞,收藏等 ...
个人分类: 数仓|178 次阅读|0 个评论
分享 数仓采集-项目技术选型
DAY 2019-9-23 16:25
数据采集传输:flume,kafka,sqoop,logstash,DataX 数据存储:mysql,hdfs,hbase,redis,mongodb 数据计算:hive,Tez,spark,flink,storm 数据查询:presto,Druid,impala,kylin
个人分类: 数仓|158 次阅读|0 个评论
分享 数仓采集-项目需求
DAY 2019-9-23 16:25
项目需求 1.数据采集平台搭建 2.实现用户行为数据仓库的分层搭建 3.实现业务数据仓库的分层搭建 4.针对数据仓库中的数据进行,留存,转化率,GMV,复购率,活跃等报表分析 思考题 1.项目技术如何选型? 2.框架版 ...
个人分类: 数仓|119 次阅读|0 个评论
分享 数仓采集-数据仓库的概念
DAY 2019-9-23 16:24
数据仓库,是为企业所有决策制定过程,提供所有系统数据支持的战略集合,通过对数据仓库中数据的分析 ,可以帮助企业,改进业务流程,控制成本,提高产品质量等。 数据仓库,并不是数据的最终目的地,而是为了数据最终的目的地做好准备。这些准备包括对数据的: 清洗,转义,分类,重组,合并,拆分,统计等等。 ...
个人分类: 数仓|344 次阅读|0 个评论
分享 Python 爬取全图网美女图片(http://www.quantuwang.co/meinv/)
DAY 2019-9-18 15:05
import requests from lxml import etree import os import hashlib from threading import Thread import time import random def downloadFile(session,url,headers,dirPath,fileName): if fileName is None : fileName = hashlib.md5(url.encode( encoding = 'UTF-8' )).hexdigest( ...
个人分类: Python|6260 次阅读|0 个评论
分享 Java 读取excel
DAY 2019-9-17 19:11
一.导包 dependency groupIdorg.apache.poi/groupId artifactIdpoi/artifactId version4.1.0/version /dependency dependency groupIdorg.apache.poi/groupId artifactIdpoi-ooxml/artifactId version4.1.0 ...
个人分类: Java|182 次阅读|0 个评论
分享 Python 实现大文件断点下载
DAY 2019-9-14 19:28
import sys import requests import os import hashlib # 屏蔽 warning 信息 def download(url, headers,dirPath ,fileName): if fileName is None : fileName = hashlib.md5(url.encode( encoding = 'UTF-8' )).hexdigest() + url if dirPath is None : dirPath = ...
个人分类: Python|257 次阅读|0 个评论

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-12 07:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部