CA12 仓库级计算机
CA12 仓库级计算机 20211213 仓库级计算机WSC 提供互联网服务 不同于高性能计算“集群” 集群有更高的计算性能 集群强调线程级并行,仓库级强调请求级并行性 不同于数据中心 数据中心将不同的机器和软件整合到同一个地点 数据中心强调虚拟机和硬件异构性以服务不同客户 重要设计因素 成本-性能 累加大量的较小节约,积少成多 能效 峰值功率和功耗影响着配电系统和冷却系统的成本 每焦耳做的功才是关键 通过冗余实现可靠性 网络IO 交互负载和批处理负载 交互负载和批处理负载 并行量的充足与否并不重要 运营成本、地理位置
网络技术与应用 第九章 接入互联网
如何接入互联网,如何对接入互联网的主机进行控制。 接入技术 DDN ATM FR PSTN ISDN ADSL HFC WLAN 4G/5G 通过电话网接入 ADSL 电话和数据通信互不干扰 HFC …
汇编语言与逆向技术基础 九、C 语言程序逆向分析
汇编语言与逆向技术基础 九、C 语言程序逆向分析 知识点 识别函数 识别变量、数组、结构体 识别IF分支结构 识别switch结构 识别循环结构 识别函数 启动函数 在编写Win32应用程序时,在源码里都有一个WinMain函数。 Windows程序的执行并不是从WinMain函数开始的,而是先执行启动函数 首先执行启动函数的代码,启动函数是编译器生成的 启动函数初始化进程完成后,才会执行WinMain函数 C/C++程序运行时,启动函数的作用基本相同 检索指向新进程的命令行指针 检索指向新进程的环境变量指针 全局变量初始化 内存栈初始化 当所有的初始化操作完成后,启动函数就会调用应用程序的进入点函数(main和WinMain )。 程序通过CALL指令来调用函数,在函数执行结束后,通过RET指令返回调用程序继续执行 函数 函数的参数如何传递、局部变量如何定义、函数如何返回? 程序通过CALL指令来调用函数,在函数执行结束后,通过RET指令返回调用程序继续执行 CALL指令的操作数就是所调用函数的地址或者相对地址(MASM32的link.exe程序) ...
CA11 线程级并行
CA11 线程级并行 性能 Cache 性能 单处理器 Cache 未命中流量 失效操作和后续 Cache 未命中流量 一致性未命中:由处理器间通信引起的未命中 真实共享不命中:通过 Cache 一致性机制由数据通信引起的未命中 处理器第一次对共享 Cache 块写操作引起的不命中 另一个处理器对该 Cache 块中被修改数据字读操作未命中引起的 虚假共享不命中:使用每个缓存块单个有效位的失效一致性算法引起的未命中 目录协议 为了保证缓存数据的一致性,监听协议在每次缓存中不命中时均要求所有缓存之间进行通信 基本优势:成本低廉 致命弱点:可扩展性差 目录协议 目录保存每个缓存数据块的状态 目录内容 哪个缓存拥有数据块副本 数据块是否处于脏状态 在共享L3缓存中实现 每个数据块中保存比特矢量,矢量长度位处理器核数目 每个比特矢量表示私有L2中是否包含L3数据块的副本 无法扩展到L3之外 分布式目录 特点 内存和目录共同分布存储,以便不同的一致性请求转到不同的目录 在每个结点上添加目录以实现缓存一致性 同步 同步机制一般是由用户级软件程序构建的, ...
CA10 数据级并行性 (2)
CA10 数据级并行性 图形处理单元 GPU和CPU没有共同的祖先 GPU前身是图形加速器,做好图形处理是其存在的原因 GPU在走向主流计算的同时,仍然不能放弃自己在图形处理上的责任 GPU与矢量处理器和SIMD体系结构不同! 要点 异构计算模式需要协作良好的计算调度:CPU是主机,GPU是设备 编程环境具备多种类型的并行性:多线程、MIMD、SIMD和指令级 GPU专用的类C编程语言——CUDA 将所有类型的并行性统一为CUDA线程 编程模型为单指令多线程 GPU 编程 线程块 Thread Block 被限制在一起执行的线程 网格 Grid 线程块的集合 多线程SIMD处理器:执行全部线程块的硬件 技术术语 dimGrid 网格维度 dimBlock 线程块维度 blockIdx 线程块索引 threadIdx 线程索引 blockDim 线程块的大小 GPU中的并行执行和线程管理由硬件处理,而不是由应用程序或者操作系统来完成。 CUDA 要求线程块能够以任何顺序独立执行,且不同线程块之间不能直接通信,而是通过全局存储器交换数据 关注性能需要牢记CUDA的 ...
网络技术与应用 第八章 路由器与路由选择
基本概念 路由选择:选择一条路径发送数据报的过程 路由器:进行路由选择的计算机 IP互联网:运行IP协议,由路由器将多个网络相互联接而形成 IP互联网采用面向非连接的互联网解决方案 路由器自治:各个路由器独立对待每个IP数据报 路由器为每个IP数据报选择它所认为的最佳路径 什么设备需要具备路由选择功能? 主机、路由器、多宿主主机 直接投递和间接投递 源IP地址和目的IP地址网络前缀不同时,需要经过多次间接投递和一次直接投递才能到达目的地。 若源IP地址与目的IP地址网络前缀相同,那么这IP数据包只需要一次直接投递就能到达目的地。 表驱动IP选路的基本思想 在需要路由选择的设备中保存一张IP路由表 IP路由表存储着有关可能的目的地址及怎样到达目的地址的信息 在转发IP数据报时,查询IP路由表,决定把数据报发往何处 路由表中的目的地址如何表示? 大型互联网中有可能存在成千上万台主机 路由表中不可能包括所有目的主机的地址信息 内存资源占用巨大 路由表搜索时间很长 隐藏主机信息 IP地址:网络号(netid)和主机号(hostid) IP路由表中保存相关的目的网络信息 ...
数字信号处理 七、频谱分析
数字信号处理 七、频谱分析 频率上的信号 0,2pi是低(频率)通过,pi是高(频率)通过(期末送分题) 离散时间傅里叶变换的收敛 涟波 涟波的最值的绝对值是大于1的 窗口取得越大,傅里叶变换就越像方波。 离散时间傅里叶变换的正交性 正交性质是绝大部分变换都会保证的必要要求 正交保证了:当对某个分量进行操作时,对其它分量不影响 频谱分布 怎样得到 DFT X(e^jω) 的其他样本(不同的频谱)? 采样时对时间序列就采样更多的样本(内插) 添加一定长度的零(补零) 频率响应(重点) 例: 求脉冲响应 1)h[n]=[1,0,1],n=−1:1h[n]=[1,0,1],n=-1:1h[n]=[1,0,1],n=−1:1 H(ejω)=h[−1]e−jω(−1)+h[1]e−jω(1)=2cosωH(e^{j\omega})=h[-1]e^{-j\omega(-1)}+h[1]e^{-j\omega(1)}=2cos\omegaH(ejω)=h[−1]e−jω(−1)+h[1]e−jω(1)=2cosω h[n]=[1,0,−1],n=−1:1h[n]=[1,0,-1] ...
计算机网络 第五章 接口层原理与协议
Kapitel 5 接口层原理与协议 5.1 接口层基础 TCP/IP体系结构 物理网络连接方式(拓扑结构):节点到节点连接、共享式连接、交换式连接 接口层功能 物理层:提供位流服务 数据链路层:提供可靠或不可靠的传输服务 接口层技术分类 有多种接口层技术,传统上大致可以分成三类:局域网、城域网、广域网 5.2 局域网体系结构与组网方法 局域网体系结构与数据封装 介质访问控制层(Medium Access Control ) 物理节点寻址 差错控制 介质访问控制(共享式连接) 逻辑链路控制层(Logical Link Control) 链路层的复用和分用 可靠数据传输 5.3 局域网编址与ARP协议 MAC地址—物理地址 32位IP地址: 网络层地址(逻辑地址):标识主机或路由器的一个接口 主要用于IP数据包的路由转发 48位MAC地址(物理地址): 物理地址:在相同的物理网络中,标识一个节点 对于大多数局域网,采用48位MAC地址 位于网卡的ROM或EPROM中 扁平地址,无层次,需要唯一 ARP协议 A已知B的IP地址,需要获 ...
汇编语言与逆向技术基础 八、静态逆向技术
汇编语言与逆向技术基础 八、静态逆向技术 知识点 逆向技术 IDA Pro 简介 IDA Pro 窗口 IDA Pro 的操作 交叉引用 函数分析 图形化显示 增强反汇编的相关功能 逆向技术 逆向工程 逆向工程(又称 逆向技术 ),是一种产品设计技术再现过程 对一项目标产品进行逆向分析及研究,从而演绎并得出该产品的处理流程、组织结构、功能特性及技术规格等设计要素,以制作出功能相近,但又不完全一样的产品。 逆向工程源于商业及军事领域中的硬件分析 其主要目的是在不能轻易获得必要的生产信息的情况下,直接从成品分析,推导出产品的设计原理 软件逆向工程 软件逆向工程(Software Reverse Engineering)是指根据软件程序的反汇编代码(静态)和执行过程(动态),通过逆向分析来推导出软件具体的实现方法。 软件逆向工程可能会被误认为是对知识产权的严重侵害,但是在实际应用上,反而可能会保护知识产权所有者。 漏洞发掘 取证 性能分析 软件保护 逆向分析技术 静态分析 IDA Pro 动态分析 OllyDbg WinDbg IDA Pro 简介 IDA Pr ...
CA9 数据级并行性 (1)
CA9 数据级并行性 (1) 引言 SIMD 体系结构利用了数据并行性 面向矩阵的科学计算 面向多媒体的图像和声音处理 机器学习算法 SIMD比MIMD更节能 与MIMD相比,SIMD单挑指令可以同时对许多数据进行操作 个人移动设备使SIMD更具吸引力 在SIMD架构中,程序员从代码顺序执行的角度来思考问题,获得代码并行执行的加速比。 SIMD 并行性 SIMD 的三种变形 矢量体系结构 SIMD 扩展指令集 图形处理单元GPUs Intel x86 预计每年每个芯片处理器增加两个处理核 SIMD 宽度每四年翻一倍 SIMD 的潜在加速比是 MIMD 的两倍 矢量体系结构 将许多数据操作扩展为流水执行 对微处理器来说,代价昂贵 需要更多的晶体管资源 需要最够的DRAM带宽 SIMD 扩展指令集 1996年,MMX multimedia extensions SSE streaming SIMD extensions AVX advanced vector extensions 图形处理单元 与矢量体系结构共享特征,但具有自己的特性 独特的生态环境: ...