“一生一芯”计划 预学习阶段
“一生一芯”计划 预学习阶段 贯穿计算机专业本科课程(数字逻辑、计算机组成原理、计算机体系结构、操作系统、计算机系统设计)很厉害的项目。 难度较大,希望自己能够坚持下去。 阅读两篇关于如何提问的文章并编写一篇不少于800字的读后感(2022.7.5) 已完成阅读,读后感见 (隐私手动打码)-提问的智慧读后感.pdf。 Linux 系统安装 (PA0) 和基本使用(2022.7.5) 安装 Linux 操作系统 暂时使用虚拟机 VMware 中安装 64 位的 Ubuntu 21.04。 根据 PA0 讲义 安装好这些工具 12345678apt-get install build-essential # build-essential packages, include binary utilities, gcc, make, and so onapt-get install man # on-line reference manualapt-get install gcc-doc # on-line reference ...
Codeforces Round 805 (Div. 3) G Passable Paths
This is a hard version of the problem. The only difference between an easy and a hard version is in the number of queries. Polycarp grew a tree from n vertices. We remind you that a tree of nnn vertices is an undirected connected graph of nnn vertices and n−1n−1n−1 edges that does not contain cycles. He calls a set of vertices passable if there is such a path in the tree that passes through each vertex of this set without passing through any edge twice. The path can visit other vertices (not ...
感知技术期末复习 第1章 绪论
感知技术期末考前复习 第 1 章 绪论 传感器的应用领域:国防、航空、航天、交通运输、能源、电力、机械、石油、化工、轻工、纺织等工业部门和环境保护、生物医学工程等领域、办公设备、家用电器、农业发展、个人消费电子终端产品。 1.2 传感器相关概念 1.2.1 测量系统(重点⚠️) 测量是指以确定对象属性和量值为目的的全部操作。 测量:被测参量和同种性质的标准量进行比较,确定被测量对标准量的倍数。 测试/检测:具有实验性质的测量,测量与实验的综合 测量需要借助专门的设备、仪器等测量工具或测量系统,采用适当的测量方法并通过信号分析处理,才能得到有关的,可显示/输出的信息量值。 测量系统 表征客观事物属性的物理或化学参量 作用是:以客观和实验的方式对客体或事件的特性、品质加以定量或定性的描述。 1.2.2 传感器的定义 将被测量按一定规律转换成可输出信号的期间或装置。 传感器是测量装置 输入量:物理量/化学量/生物量 输出量:某种便于转换、传输、处理、显示的量(电量) 输出量和输入量有确定的对应关系 1.2.3 传感器的分类 检测时是否需要外界能源 无源传感器(无 ...
德语学习 A2 Kapitel 13 Das steht dir gut!
13-1 Kleidungsstück 词汇:衣物 der Pullover- 套头羊毛衫 die Jeans- 牛仔裤 die Armbanduhr-en 手表 der Sportschuh-e 运动鞋 die Socke-n 袜子 die Jogginghose-n 运动裤 die Brille-n 近视眼镜 die Bluse-n 女式衬衫 der Gürtel- 皮带 die Jacke-n 外套 der Rock-:e 半身裙 die Strumpfhose-n 连裤袜 der Ohrring-e 耳环 das Kostüm-e 戏服 das Hemd-en 男士衬衫 der Mantel-: 大衣 die Hose-n 裤子 der Schuh-e 鞋子 der Schutzhelm-e 安全帽 der Stiefel- 靴子 die Krawatte-n 领带 der Anzug-:e 西装 das Kleid-er 连衣裙 die Halskette-n 项链 der Schal-s 围巾 die Winterjacke-n 冬季外套 die Mütze-n 绒线帽 ...
智能计算系统 第八章 智能编程语言
智能计算系统 第八章 智能编程语言 本章内容定位:智能算法的实现 8.1 为什么需要智能编程语言 语义鸿沟、硬件鸿沟、平台鸿沟 语义鸿沟 以卷积运算为例 c++标量计算需要7重循环 python需要写4重循环 tensor类型只需要一行代码 硬件鸿沟 智能计算硬件在控制、存储、计算等方面有独特性 传统编程语言难以有效描述上述硬件的特点 不同层次编程语言和硬件特性带来的性能影响 存储逻辑上一般采用程序员可见的Cache,而不是普通平台上对于程序员透明的 Cache。 计算逻辑上提供了面向智能计算的定制运算单元,精度损失可以忽略 平台鸿沟 功能可移植性:采用特定平台专用语言所编写的程序能够在别的平台上正常运行 矩阵乘法的例子调用了 AVX 的 intrinsic 函数在 ARM 上无法运行 性能可移植性:在特定平台上优化好的程序,在辛的硬件平台上仍然保证有较高的执行效率 理想的 编程语言需要抽取不同硬件平台的共同特性,并在此基础上提取性能关键特征作为语言特性提供给用户 8.2 智能计算系统抽象架构 抽象硬件架构 层次化的智能计算系统抽象硬件架构 每一层都包含存储单元 ...
智能计算系统 第七章 深度学习处理器架构
智能计算系统 第七章 深度学习处理器架构 7.1 单核深度学习处理器 DLP-S 控制模块 运算模块 存储单元 总体架构 从DLP到DLP-S 计算时 多发射队列,支持指令级并行 增加运算器的操作,支持硬件高效执行的操作 低位宽运算器,提高执行能效 稀疏运算,提高计算效率 访存 转换检测缓冲器TLB,降低访存演出 最后一级cache,降低访存延迟 执行流程 IFU 通过 DMA 从 DRAM 中读取程序指令,然后经过 IDU 进行译码后分发给 DMA、VFU 和 MFU DMA 接收到指令后从 DRAM 读取神经元至 NRAM,读取权重至 WRAM VFU 接收到指令后从 NRAM 中读取神经元数据,并对神经元数据进行预处理,然后发送给 MFU MFU 接收到指令后从 VFU 接收经过预处理的神经元数据,从 WRAM 中读取权重数据,完成矩阵运算后将结果发送给 VFU VFU 对输出神经元进行后处理(激活、池化等) VFU 将运算结果写回 NRAM 神经元数据流 DRAM→NRAM→VFU→(MFU→VFU)→NRAM→DRAM 权重数据流 DRAM→W ...
智能计算系统 第六章 深度学习处理器原理
智能计算系统第六章 深度学习处理器原理 深度学习处理器概述 神经网络越来越大,越来越深 为什么需要深度学期处理器 深度学习应用广泛 图像识别、语言处理、自然语言处理、博弈游戏等领域 已经渗透到云服务器和智能手机的方方面面 通用CPU/GPU处理在人工神经网络效率低下 谷歌大脑:1.6万个CPU核跑了数天完成猫脸识别训练 AlphaGo:和李世石下棋用了1202个CPU和200个GPU 专门的深度学习处理器 图形处理 GPU 信号处理 DSP 智能处理 ? 未来每台计算机可能都需要一个专门的深度学习处理器 云服务器到智能手机 应用面将超过GPU:每年数十亿片 发展历史 第一次热潮 1951,SNARC 1960,Mark-I 第二次热潮 1989,Intel ETANN 1990,CNAPS 1993,MANTRAI 1997,预言神 1990s的神经网络处理器 结构简单 规模小 第三次热潮 2006至今 2008 英伟达GPU …… 深度学习处理器发展的三个因素 技术、体系结构、应用 深度学习处理器设计思路 介于专用芯片和通用芯片之间。 ...
智能计算系统 第五章 编程框架机理
智能计算系统 第五章 编程框架机理 5.1 Tensorflow 设计原则 高性能、易开发、可移植 高性能 Tensorflow 中的算子,设计过程中就已经针对底层硬件架构进行了充分的优化 针对生成的计算图,Tensorflow 又提供了一系列的优化操作,以提升计算图的运行效率 Tensorflow 调度器可以根据网络结构的特点,并发运行没有数据依赖的节点 易开发 针对现有的多种深度学习算法,提取了大量的共性运算,封装成算子 用户使用tensorflow进行算法开发时,能够直接调用这些算子,很方便的实现算法 可移植 可工作与各种类型的异构系统 对每个算子需提供在不同设备上的不同底层实现 用户程序可以在不同的硬件平台上执行 5.2 Tensorflow 计算图机制 计算图的自动求导 深度学习中通常采用梯度下降更新模型参数 对于复杂模型,手动计算梯度困难 大部分深度学习框架均需提供自动梯度计算功能 用户只需要描述前向计算的过程,由编程框架自动推导反向计算图,完成求导 常见求导方法 手动求导法 手动用链式法则求出梯度公式,代入数值得到梯度值 缺点 对大规模 ...
智能计算系统 第四章 编程框架使用
智能计算系统 第四章 编程框架使用 以图像风格迁移为例 第三章已经介绍了上层的算法 第四章讲如何实现算法,怎么用编程框架 4.1 深度学习编程框架的概念 为什么需要编程框架? 深度学习算法越来越流行。而深度学习算法理论比较复杂、代码实现工作量大。有必要将算法的常用操作封装成组件,提高深度学习算法开发效率(避免重复造轮子)。 深度学习算法具有多层结构,每层运算由一些基本操作构成 这些基本操作中存在大量共性运算,如卷积、池化、激活等。 面向这些封装起来的操作,硬件程序员可以基于硬件特征,有针对性地进行充分优化,使其能充分发挥硬件的性能 编程框架的定义 将深度学习算法中的基本操作封装成一系列组件,这一系列深度学习组件,即构成一套深度学习框架。 将VGGNet19作为驱动范例。 tensorflow是目前使用人数最多,影响最大的编程框架。 4.2 Tensorflow 概述 2015年,谷歌团队开源 其变种可以工作于各种异构系统,包括手机、平板电脑等移动设备,数百台机器和数千种计算设备的大规模分布式系统 支持多种高级语言作为输入:Python、C、C++、Java、Go 灵 ...
智能计算系统 第三章 深度学习
智能计算系统 第三章 深度学习 人获得的输入80%以上是视觉输入 剩下的听觉输入属于序列化的输入信息 3.1 适合图像处理的卷积神经网络 计算机视觉 输入图像大小32*32,输入数据量32*32*3=3072。 隐层神经元100个,第一层权重为3072*100=307200 实际场景中往往需要更大的输入,权重数量级大于10^9,导致过拟合 神经网络可以有效减少权重数量 CNN中,用局部连接取代全连接,减少权重数量 CNN中,若干输出层神经元可以共用一组权重,进一步减少权重数量。 例子VGG16 卷积层 conv 池化层 max pool 全连接层 FC,分类主要靠全连接层 Softmax 卷积层 检测复杂边缘 将权重作为参数,在训练中学习 局部连接,权重共享 卷积运算 y(n)=Σi=−∞∞x(i)h(n−i)=x(n)∗h(n)y(n)=\Sigma_{i=-\infty}^\infty x(i)h(n-i)=x(n)*h(n)y(n)=Σi=−∞∞x(i)h(n−i)=x(n)∗h(n) 多输入特征图单输出特征图卷积运算 不同的过滤器可检测不同特征 卷 ...