Artificial Intelligence 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。AI 研究通常需要大量数据支撑。

加载中
置顶
发表了博客
09/27 16:47

Alluxio Local Cache 监控指南 Alluxio Alluxio ​

作者 张策:Alluxio PMC & 联通大数据工程师 01 什么是 Alluxio Local Cache 随着云计算在基础设施领域的市场份额持续上升,主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施,并以此为云提供商降低成本。但是,存储计算分离也为查询延迟带来了新的挑战,因为当网络饱和时,通过网络扫描大量数据将受到 IO 限制。此外,元数据也面临远程网络来检索的性能问题。 数据编排系统 Alluxio 预见到了存算分离的发展趋势,并... 展开更多

收藏 0
0
置顶
发表了博客
昨天 10:51

激活数据价值,探究DataOps下的数据架构及其实践丨DTVision开发治理篇

据中国信通院发布,2012年到2021年10年间,我国数字经济规模由12万亿元增长到45.5万亿元,在整个GDP中的比重由21.6%提升至39.8%。顺应时代发展新趋势,“数据”成为新的生产要素已是毋庸置疑的共识。 如果说数据中台的崛起代表着企业数字化转型从流程驱动走向数据驱动,从数字化走向智能化。那么DataOps,则是实现数据中台的一个优秀的理念或方法论。 DataOps的概念早在2014年即由Lenny Liebmann提出,2018年DataOps正式被纳入G... 展开更多

收藏 0
0
置顶
发表了博客
前天 18:44

从Model-Centric到Data-Centric,MLOps帮助AI多快好省的落地

1. 从Model-Centric到Data-Centric   近年来在国际国内的人工智能研究和应用上出现明显的趋势即AI应用对于模型和算法的提升目前达到一个瓶颈,目前正在从传统的Model-centric(即以模型为中心),在向Data-centric(以数据为中心)进行转变。 曾任斯坦福大学人工智能实验室主任,谷歌人工智能大脑负责人和百度首席人工智能科学家的业内著名学者Andrew Ng(吴恩达)教授2021年在美国通过他创办的DeepLearning.AI发表线上演讲,... 展开更多

收藏 0
1
置顶
架构师
发表了博客
09/28 11:46

DophineSheduler上下游任务之间动态传参案例及易错点总结

![](http://pic1.zhimg.com/80/v2-cd4d89a9763d6cf04fc7c26f8eee7807_720w.png) # **作者简介** ![](http://pic1.zhimg.com/80/v2-1c57af02097149cd4ecb1f44eeab2ae8_720w.jpg) **淡丹** 数仓开发工程师 5年数仓开发经验,目前主要负责百得利MOBY新车业务 二手车业务及售后服务业务系统数仓建设 ## **业务需求** 在ETL任务之间调度时,我们有的时候会需要将上游的计算结果作为参数传入到下游,**针对这种业务需求**,海豚调度... 展开更多

收藏 0
0
置顶
发表了博客
09/28 10:42

EasyNLP带你实现中英文机器阅读理解

**作者:施晨、黄俊** # 导读 机器阅读理解是自然语言处理(NLP),特别是自然语言理解(NLU)领域最重要的研究方向之一。自1977年首次被提出以来,机器阅读理解已有近50年的发展史,历经“人工规则”、“传统机器学习”、“深度学习”、“大规模预训练模型”等多个发展阶段。机器阅读理解旨在帮助人类从大量文本中,快速聚焦相关信息,降低人工信息获取成本,增加信息检索有效性。作为人工智能在自然语言理解方向上的“集大成者... 展开更多

收藏 0
0
置顶
发表了博客
09/28 10:44

最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质

近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。 点击查看视频 观看以上视频不难发现,左侧画面和右侧画面的清晰度有极大差别。事实上,两侧画面的视频播放源完全相同,区别在于右侧画面使用了特殊的“一键超分”工具,从而实现清晰度从540p到1... 展开更多

收藏 0
0
置顶
发表了博客
09/28 11:10

实用五步法教会你指标体系的设计与加工

今天我们来和大家聊一聊一个新话题,一个对于企业业务发展十分关键的东西——指标。 指标建设是衡量企业业务效果的主要依据,本文结合自身实践经验和大家分享指标的设计与加工过程,讲述其基础概念和设计加工方法,以及设计加工过程中的注意点,希望对感兴趣的同学有所帮助。 # 一、指标建设的必要性 ## 1、什么是指标 指标是客观描述某个事物某个特征的可量化的数字度量,如用户最近30天购买次数,某商品最近30天销售额等。 指... 展开更多

收藏 0
0
置顶
发表了博客
09/27 10:22

跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA

作者:熊兮、欢夏、章捷、临在 导读 多模态内容(例如图像、文本、语音、视频等)在互联网上的爆炸性增长推动了各种跨模态模型的研究与发展,支持了多种跨模态内容理解任务。在这些跨模态模型中,CLIP(Contrastive Language-Image Pre-training)是一种经典的文图跨模态检索模型,它在大规模图文数据集上进行了对比学习预训练,具有很强的文图跨模态表征学习能力。在先前的工作(看这里)中,中⽂NLP/多模态算法框架EasyNLP支持... 展开更多

收藏 0
0
置顶
发表了博客
09/13 08:03

Groq:从头设计一个张量流式处理器架构

来源|Groq 翻译|贾川、程浩源、胡燕君 作为一家由多位前Google TPU开发者组建的芯片公司,Groq一经成立便备受关注。2016年底,曾领导研发Google张量处理单元(TPU,用于加速机器学习而定制的芯片)的Jonathon Ross离职创办了Groq,他们希望能为AI和HPC工作负载提供毫不妥协的低延迟和高性能。 不同于传统的CPU和GPU架构,Groq从头设计了一个张量流处理器 (TSP) 架构, 以加速人工智能、机器学习和高性能计算中的复杂工作负载。... 展开更多

收藏 0
0
置顶
发表了博客
09/23 10:05

EasyCV带你复现更好更快的自监督算法-FastConvMAE

作者: 夕陌、谦言、莫申童、临在 导读 自监督学习(Self-Supervised Learning)利用大量无标注的数据进行表征学习,在特定下游任务上对参数进行微调,极大降低了图像任务繁重的标注工作,节省大量人力成本。近年来,自监督学习在视觉领域大放异彩,受到了越来越多的关注。在CV领域涌现了如SIMCLR、MOCO、SwAV、DINO、MoBY、MAE等一系列工作。其中MAE的表现尤为惊艳,大家都被MAE简洁高效的性能所吸引,纷纷在 MAE上进行改进,例... 展开更多

收藏 0
0
置顶
发表了博客
09/22 15:49

VS Code摸鱼神器,让你快速开发AI模型

摘要:ModelArts VS Code插件一键接入云上开发环境介绍及操作指导 对于习惯于使用本地VS Code IDE的开发者,受限于本地资源,采用本地开发加云上调测的远程开发方式不失为一种更好的选择。对比一下本地开发和远程开发的优劣可以看到,本地+远程结合的方式可以同时享受IDE工程化开发的优势和云上资源的即开即用,优势互补,最大程度地满足开发者需求。 通过本地IDE加ModelArts提供的远程开发插件,用户可以先在本地做一些基础的代... 展开更多

收藏 2
0
置顶
发表了博客
09/22 15:02

阿里云大数据助力知衣科技打造AI服装行业核心竞争力

公司简介 杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。知衣成立于2018年2月,同年获得千万美金A轮融资;2021年完成由高瓴创投、万物资本领投的2亿人民币B轮融资,同年入围“杭州市准独角兽企业榜单”。 知衣凭借图像识别、数据挖掘、智能推荐等核心技术能力,不断升级服务体系,自主研发了知衣、知款、美... 展开更多

收藏 0
0
置顶
发表了博客
2019/08/01 10:10

最火的分布式 HTAP 数据库 TiDB - 入门实践教程

偶然在某篇博客看到了 TiDB,一个融合 OLTP 和 OLAP 的分布式开源数据库, GitHub 上 Star 很多,然后 watch 了,发现 commit 和 pull request 一直都很频繁。 后面又看到 TiDB 在小米的应用实践,越来越感兴趣,某晚心血来潮试用了下。 照着官方文档 ,Mac 用 Docker Compose 部署很方便,半个小时左右就部署起来了, 默认的集群 Grafana 监控页面蛮有极客范,还支持换主题。 除了第一次有一个模块下载失败(翻墙后成功)外,没... 展开更多

收藏 1
1
置顶
发表了博客
09/22 11:33

他来了!袋鼠云大数据基础平台EasyMR正式上线

7月28日,在袋鼠云2022产品发布会上,袋鼠云技术负责人思枢正式宣布旗下产品「大数据基础平台EasyMR」发布。 EasyMR是袋鼠云自研的大数据基础平台,提供Hadoop、Hive、Spark、Trino、HBase、Kafka等组件,完全兼容Apache开源生态;支持企业级安全管控,一键开启LDAP+Kerberos+Ranger认证权限体系;提供一站式运维管理平台,帮助企业快速构建大数据平台,降低运维成本。 结合袋鼠云在数字化领域多年的寸积铢累,此次全新发布的大... 展开更多

收藏 1
0
置顶
发表了博客
09/21 10:50

EasyNLP玩转文本摘要(新闻标题)生成

作者:王明、黄俊 导读 文本生成是自然语言处理领域的一个重要研究方向,具有丰富的实际应用场景以及研究价值。其中,生成式文本摘要作为文本生成的一个重要子任务,在实际应用场景中,包括新闻标题生成、摘要生成、关键词生成等任务形式。预训练语言模型,如BERT、MASS、uniLM等虽然在NLU场景中取得了令人瞩目的性能,但模型采用的单词、子词遮盖语言模型并不适用于文本生成场景中,特别是生成式文本摘要场景。其原因是,生成式... 展开更多

收藏 0
0
置顶
发表了博客
09/20 15:19

一文了解循环神经网络

摘要:循环神经网络(RNN)可是在语音识别、自然语言处理等其他领域中引起了变革! 本文分享自华为云社区《【MindSpore易点通】深度学习系列-循环神经网络上篇》,作者:Skytier 循环神经网络(RNN)可是在语音识别、自然语言处理等其他领域中引起了变革! 1 应用场景 循环神经网络(RNN)其实就是序列模型,我们先来看看其应用场景。 在语音识别时,给定了一个输入音频片段X ,并要求输出对应的文字记录Y 。这里的输入和输出数... 展开更多

收藏 0
0
置顶
架构师
发表了博客
09/20 13:28

ApacheCon Asia 2022 精彩回顾 | 如何让更多人从大数据中获益?

点亮 ⭐️ Star · 照亮开源之路 **GitHub:[http://github.com/apache/dolphinscheduler](http://github.com/apache/dolphinscheduler)** ![](http://picx.zhimg.com/80/v2-ee919d11849c69bb615e3dade2a7edb8_720w.png?source=d16d100b) > 在 ApacheCon Asia 2022 Meetup上,有着十余年大数据开发工作经验,来自**某银行离线数据工厂开发工具负责人陈卫老师**分享了 如何让更多人从大数据中获益 的主题演讲。 感谢**志愿者关... 展开更多

收藏 0
0
置顶
发表了博客
09/19 10:48

带你掌握如何使用CANN 算子ST测试工具msopst

摘要:本期带您了解如何使用msopst工具。 本文分享自华为云社区《【CANN文档速递13期】算子ST测试工具【msopst】》,作者: 昇腾CANN 。 如何获取msopst工具 msopst工具存储在Ascend-cann-toolkit安装目录的“toolkit/python/site-packages/bin”路径下。支持对TBE算子以及AI CPU算子进行ST测试。 CANN软件安装完成并生效环境变量配置脚本后,即可直接使用此工具,您可以在任意路径下执行如下命令查看工具相关参数: 总体使用流... 展开更多

收藏 0
0
置顶
发表了博客
09/15 15:13

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

## 大数据运维的挑战—如何保证集群稳定与运行效率 企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。 ![](http://oscimg.xuhui-sz.com/oscnet/... 展开更多

收藏 1
0
置顶
发表了博客
09/16 11:40

ChunJun&OceanBase联合方案首次发布:构建一体化数据集成方案

8月27日,ChunJun社区与OceanBase社区联合组织的开源线下Meetup成功举办,会上重磅发布了「OceanBase&ChunJun:构建一体化数据集成方案」。 这是OceanBase&ChunJun联合解决方案的首次发布,将针对分库分表的实时数据集成、跨集群/租户的数据集成、不同数据源的实时数据集成、日志类型数据的全增量一体化处理等诸多场景,提供高可靠数据集成解决方案。 下面为大家带来具体介绍,欢迎分享给更多的开发者和爱好者共同学习、探讨。 ... 展开更多

收藏 1
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
返回顶部
顶部