Bài giảng Cấu trúc máy tính - Chương 3: Bộ xử lý

ppt 44 trang hapham 2320
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Cấu trúc máy tính - Chương 3: Bộ xử lý", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptbai_giang_cau_truc_may_tinh_chuong_3_bo_xu_ly.ppt

Nội dung text: Bài giảng Cấu trúc máy tính - Chương 3: Bộ xử lý

  1. Chương 3 BỘBỘ XỬXỬ LÝLÝ Nội dung v Các đặc tả bộ xử lý v Các bộ xử lý Intel v Các bộ xử lý công nghệ tiên tiến
  2. BỘ XỬ LÝ Bộ xử lý - CPU (Central Processing Unit): Bộ não của hệ thống máy tính ChứcChức năngnăng ?? Thực hiện chương trình chứa trong bộ nhớ Cơ chế: nhập tuần tự từng lệnh từ bộ nhớ và xử lý Điều khiển hoạt động trao đổi dữ liệu giữa CPU và bộ nhớ, giữa CPU với thiết bị vào/ra và với các thiết bị khác. q Công nghệ chế tạo: mạch tổ hợp cỡ lớn VLSI (Công nghệ chế tạo: mạch tổ hợp cỡ lớn VLSI (VeryVery LargeLarge ScaleScale IntegratedIntegrated Circuit)Circuit). .
  3. 1. CÁC ĐẶC TẢ CỦA BỘ XỬ LÝ § Tốc độ của bộ xử lýTốc độ của bộ xử lý § Hệ số nhân tốc xung nhịpHệ số nhân tốc xung nhịp § Bus dữ liệuBus dữ liệu § Bộ nhớ đệm Cache Bộ nhớ đệm Cache § Các loại đế cắm (Socket) và khe cắm (Slot) bộ xử lý Các loại đế cắm (Socket) và khe cắm (Slot) bộ xử lý § Công suất tiêu thụ và vấn đề làm mát cho bộ xử lý Công suất tiêu thụ và vấn đề làm mát cho bộ xử lý
  4. 1. CÁC ĐẶC TẢ CỦA BỘ XỬ LÝ § TốcTốc độđộ củacủa bộbộ xửxử lýlý = Tần số hoạt động ?  w Tốc độ đồng hồ đo bằng tần số (Hz) = số chu kỳ nhịp /giây. w Chu kỳ nhịp (Clock Cycle): thành phần thời gian nhỏ nhất của CPU Ø Thực thi chương trình  Thực hiện lệnh § Chu kỳ lệnh § Thời gian cần để thực hiện xong một lệnh (Inst. cycle) § = 1 hoặc nhiều chu kỳ máy (machine cycle). § Chu kỳ máy § Thực hiện một cuộc chuyển dữ liệu đơn thuần (machine cycle) § = 1 hoặc nhiều hơn một chu kỳ nhịp đồng hồ. ± Mỗi CPU cần số chu kỳ nhịp và thời gian khác nhau để thực thi lệnh. ± Trước khi truyền dữ liệu cần thêm chu kỳ đợi § Chu kỳ đợi § Số chu kỳ để thực hiện lần truyền dữ liệu đầu (Wait state) tiên.
  5. § TốcTốc độđộ củacủa bộbộ xửxử lýlý ?? TốcTốc độđộ thựcthực hiệnhiện lệnhlệnh • f - tần số nhịp làm việc của CPU; • N - số đơn vị xử lý số học-logic ALU • C - số chu kỳ nhịp trung bình của một lệnh • tw- Hệ số thời gian truy nhập bộ nhớ ( cả chu kỳ đợi) ?? ĐánhĐánh giágiá tốctốc độđộ § Khó đánh giá chính xác: Phụ thuộc nhiều yếu tố § Dựa vào phép đo lường tiêu chuẩn (benchmark) Intel AMD, Cyrix  Tiêu chuẩn iCOM # ?  PR (Performance Rating) VD: 133MHz, 2.8GHz VD: PR 133, PR533 ! ? Khó khăn: ü Từ 486DX2: tốc độ CPU nhanh gấp nhiều lần FSB ü Mỗi bảng mạch có thể xác lập để chạy với vài loại CPU tốc độ khác nhau, thông qua hệ số nhân xung nhịp.
  6. § HệHệ sốsố nhânnhân tốctốc xungxung nhịpnhịp 486 DX2 § Yêu cầu nâng tốc độ CPU 486 DX /33MHz /66 MHz § Tốc độ Mainboard không đáp ứng Cache Cache được Double § Bộ nhân tốc: tích hợp vào trong CPU Clock 33 MHz  Hệ số nhân tốc (bus Ratio) (a) 33 MHz (b) a- VXL 486 không nhân tốc độ ?? TốcTốc độđộ CPUCPU b- VXL 486 với bộ nhân đôi tốc độ CPU speed = Host Clock x Bus Ratio (Tốc độ CPU = Tốc độ Bus x Hệ số nhân) Thiết lập tốc độ và hệ số nhân (multiplier) ? Ø Dùng jumper hoặc cấu hình tốc độ trong BIOS ?? Overclocking:Overclocking: 
  7. § BusBus dữdữ liệuliệu Ø BusBus dữdữ liệuliệu trongtrong § Cấu thành từ các đường dữ liệu và các thanh ghi trong. Cấu thành từ các đường dữ liệu và các thanh ghi trong. § Kích thước thanh ghi: xác định dạng phần mềm và lệnh Kích thước thanh ghi: xác định dạng phần mềm và lệnh mà bộ xử lý có thể chạy. mà bộ xử lý có thể chạy. § CPU từ 386 CPU từ 386  Pentium III là các bộ xử lý 32-bit, Pentium III là các bộ xử lý 32-bit,  có có thể chạy các hệ điều hành và phần mềm 32-bit. thể chạy các hệ điều hành và phần mềm 32-bit. q 8088, 386SX: bus dữ liệu trong rộng gấp đôi bus dữ liệu ngoài  ??? · Truyền và nạp dữ liệu bên trong CPU với kích thước đầy đủ = kích thước thanh ghi · Truyền và nạp dữ liệu với bên ngoài sẽ bị hạn chế bởi độ rộng của bus dữ liệu ngoài. q Pentium: bus dữ liệu ngoài 64-bit, thanh ghi chỉ có 32-bit, · Do có 2 pipeline 32-bit để xử lý, nên việc nạp dữ liệu rất hiệu quả.
  8. § BusBus dữdữ liệuliệu Ø BusBus dữdữ liệuliệu ngoàingoài § Tập hợp các dây để nhận gửi dữ liệu. Tập hợp các dây để nhận gửi dữ liệu. § Độ rộng bus dữ liệu ngoài xác định kích thước một Độ rộng bus dữ liệu ngoài xác định kích thước một khối bộ nhớ (a bank of memory). khối bộ nhớ (a bank of memory). v Kích thước bus dữ liệu:Kích thước bus dữ liệu: · 286, 386SX : 16-bit · 386DX, 486: 32-bit · Pentium: 64-bit  Có thể ghi/đọc bộ nhớ cùng một lúc với 16, 32 hay 64-bit q Bank RAM? q Lắp đặt bộ nhớ RAM?
  9. § CACHECACHE ?? Tốc độ xử lý của CPU phụ thuộc vào:Tốc độ xử lý của CPU phụ thuộc vào: Tốc độ truy nhập bộ nhớ chínhTốc độ truy nhập bộ nhớ chính Ø Bộ nhớ chính (bộ nhớ thao tác- Main memory)Bộ nhớ chính (bộ nhớ thao tác- Main memory) § Dung lượng nhớ khá hạn chế § Dùng DRAM  Tốc độ truy nhập chậm (~ 100÷10 ns) § Phải làm tươi thông tin (Refresh) !! ChỉChỉ dùngdùng bộbộ nhớnhớ chínhchính  hạnhạn chếchế khảkhả năngnăng củacủa CPU.CPU. Ø Tổ chức bộ nhớ PC theo kiểu hệ thống có phân cấp:Tổ chức bộ nhớ PC theo kiểu hệ thống có phân cấp: § Tăng tốc độ xử lý của CPU § Đảm bảo khả năng lưu trữ lớn  ThêmThêm vàovào hệhệ thốngthống mộtmột bộbộ nhớnhớ cócó tốctốc độđộ truytruy nhậpnhập cao,cao, dùngdùng SRAMSRAM  BộBộ nhớnhớ cachecache
  10. CACHECACHE · Dùng lưu trữ các lệnh và dữ liệu thường sử dụng nhiều Dùng lưu trữ các lệnh và dữ liệu thường sử dụng nhiều trong quá trình thực hiện chương trình. trong quá trình thực hiện chương trình. · Cơ chế nạp lệnh, suy đoán cho phép dự đoán nhu cầu của Cơ chế nạp lệnh, suy đoán cho phép dự đoán nhu cầu của CPU và nạp trước các dữ liệu cần thiết vào cache. CPU và nạp trước các dữ liệu cần thiết vào cache. · Khi CPU có yêu cầu, dữ liệu sẽ được nạp từ cache thay vì Khi CPU có yêu cầu, dữ liệu sẽ được nạp từ cache thay vì nạp từ bộ nhớ chính, tăng hiệu năng xử lý hệ thống nạp từ bộ nhớ chính, tăng hiệu năng xử lý hệ thống Cache controller CPU Cache Cache Main L1 L2 memory Hình 3.2 Hệ thống bộ nhớ dùng Cache
  11. CACHECACHE Cache L1 (Cache Level 1) w Lưu trữ một số mã lệnh và dữ liệu của công việc hiện thời. w Dung lượng nhỏ: ban đầu là 8 KiB, sau tăng lên 16, 32 KiB w Được thiết kế trong khuôn bộ xử lý, w Tốc độ xung nhịp bằng với tốc độ BXL v Từ kiến trúc P5 cache L1 được tách Intel 486 Cache L1 (8KB) thành hai phần riêng: DCache ICache Pentium P5 § ICache cho mã lệnh (8KiB) (8KiB) DCache ICache Pentium III § DCache cho dữ liệu (16KiB) (16KiB) DCache v Pentium IV ETC Cache v Pentium IVchỉ còn 8 KiB DCache, (8/16KiB) DCache ICache cho mã lệnh thay bằng cache Pentium D ETC Cache ETC (Execution Trace Cache). (16KiB)
  12. CACHECACHE CacheCache L2L2 (Cache(Cache LevelLevel 2)2) CacheCache thứthứ cấpcấp o Được dùng nhằm giảm bớt thời gian chờ khi lỡ cache L1 Pentium P5 128-512 KiB On board = tốc độ FSB Pentium II 512KiB Cùng CPU = 1/3–1/2 tốc độ CPU P6, Celeron 256KiB-1MiB On die = tốc độ CPU Pentium III 256KiB-1MiB On die ATC Cache Pentium IV 256KiB-1MiB On die ATC Cache Pentium D 1 or 2MiB x2 On die Cache riêng cho mỗi core Dual Core 1MiB On die Share Cache - Công nghệ Smart Core 2 Duo 2 or 4MiB On die Share Cache - Công nghệ Smart CacheCache L3L3 (Integrated(Integrated CacheCache LevelLevel 3)3) o Cache L3 với 2MB được thiết dành cho một số hệ thống như: PIV Extreme Edition
  13. Kỹ thuật xử lý lệnh kiểu đường ống (Pipeline) w Kỹ thuật cơ bản của các CPU từ 8086  Tăng tốc độ xử lý w Một lệnh được chia thành n phép xử lý nhỏ w Thực hiện lần lượt trong 1 đường ống n giai đoạn (Stage). w Quá trình xử lý lệnh đồng thời xảy ra trên mọi giai đoạn Stage1 Stage2 Stage N P1 P2 0 1 0 0P 1n 0 1 1 0 1 0 0 1 0 1 1 0 1 0 R 0 1 0 1 1 R 2 R n Số giai đoạn đường ống gia tăng Tăng tốc độ thực thi lệnh ? Prescott 31 Pentium 4 20 Pen III 10 Ø Lỗi tại 1 giai đoạn  toàn đường ống sẽ bị xóa, Pentium 5 quá trình xử lý phải thực hiện lại từ đầu Pentium M 14 Ø Thiết kế dự đoán rẽ nhánh lệnh Branch Prediction
  14. ĐếĐế cắmcắm (Socket)(Socket) vàvà khekhe cắmcắm (Slot)(Slot) Đế cắm Số chân Bố trí chân Điện áp Bộ xử lý Socket 1 169 17x17 PGA 5V 486 SX, DX/DX2, DX2 OverDrive Socket 2 238 19x19 PGA 5V 486 SX, DX/DX2, Pentium OverDrive Socket 3 237 19x19 PGA 5/3.3V 486 SX, DX/DX2/ DX4, AMD 5x86 Socket 4 273 21x21 PGA 5V Pentium 60/66, OverDrive Socket 5 320 37x37 SPGA 3.3/3.5V Pentium 75-200 OverDrive Socket 6 235 19x19 PGA 3.3V 486 DX4, Pentium Overdrive Socket 7 321 37x37 SPGA VRM Pentium 75-233+, MMX, K5/K6, MI/II Socket 8 387 Dual patern SPGA Auto VRM Pentium PRO Socket 370 370 37x37 SPGA Auto VRM Celeron/ Pentium III PPGA/FC-PGA Slot A 242 Slot Auto VRM AMD Athlon PGA Socket A 462 PGA Socket Auto VRM AMD Athlon / Duron SECC Slot 1 242 Slot Auto VRM Pentium II/III, Celeron SECC Slot 2 330 Slot Auto VRM Pentium II/III Xeon Socket 423 423 SPGA Auto VRM Pentium IV Socket 478 478 SPGA Auto VRM Pentium IV LGA 775 775 SPGA Auto VRM Pentium IV
  15. Socket & Slot ?? Đế cắm dạng ZIF Đế cắm dạng ZIF (Zero(Zero insertioninsertion force)force) Socket 1-7, kiểu PGA hoặc SPGA: tối đa 321 chân Socket 1-7, kiểu PGA hoặc SPGA: tối đa 321 chân Socket 8 cho Pentium Pro dạng SPGA kép Socket 8 cho Pentium Pro dạng SPGA kép Slot1 cho PII, PIII đầu và Slot2 cho Xeon: dùng các điểm Slot1 cho PII, PIII đầu và Slot2 cho Xeon: dùng các điểm tiếp xúc tiếp xúc SK 370 cho PIII Tualtin, Celeron và SK 423/478 cho P4 SK 370 cho PIII Tualtin, Celeron và SK 423/478 cho P4 Slot 1 Socket 370 Socket 478
  16. LGA775 (Land Grid Array 775) v LGA775 · 775 điểm tiếp xúc thay cho các chân cắm  tránh được hiện tượng cong hoặc gẫy chân CPU · Áp dụng từ dòng Prescott thứ 2 (sau Prescott đầu dùng SK478). · Thường được hỗ trợ bởi các chipset 9x · Kết cấu ổ cắm khá phức tạp, nhưng cho phép chế tạo các CPU có mật độ tiếp xúc (chân) dày đặc hơn, đáp ứng các yêu cầu kỹ thuật nhưng chi phí thấp.
  17. CôngCông suấtsuất tiêutiêu thụthụ vàvà vấnvấn đềđề làmlàm mátmát chocho bộbộ xửxử lýlý Công suất tiêu thụ tăng làm nhiệt lượng tỏa ra lớn khó nâng cao xung nhịp CPU Xu hướng thiết kế: ´ GiảmGiảm điệnđiện ápáp làmlàm việcviệc ø Điện áp 5V  điện áp thấp dưới 2V  siêu thấp < 1V ö Tần số hoạt động tăng ´ GiảmGiảm kíchkích thướcthước cáccác phầnphần tửtử trongtrong CPUCPU ø Thay đổi quy trình công nghệ: 10m  0.13m  kích thước nano (90, 65, 45 32 nm) ö Số transitor tăng: 3.1 triệu của Pentium P5  42 triệu của P4  hàng trăm triệu transitor trên các Core 2 Duo ´ SửSử dụngdụng côngcông nghệnghệ vậtvật liệuliệu kháckhác ø Dây dẫn nhôm  đồng, giúp điện trở giảm Các công nghệ CPU, chipset cũng nhằm vào mục tiêu giảm điện năng tiêu thụ và nhiệt lượng của CPU
  18. CôngCông suấtsuất tiêutiêu thụthụ vàvà vấnvấn đềđề làmlàm mátmát chocho bộbộ xửxử lýlý ´ TảnTản nhiệtnhiệt § Gồm một tấm kim loại chia thành các cánh, nhờ vậy tăng được diện tích toả nhiệt. § Giữa tấm kim loại và CPU thường được bôi một lớp epoxy, tăng diện tích tiếp xúc bề mặt. ´ FANFAN § Quạt gió để hút nhiệt từ các cánh tản nhiệt ra. § Các quạt thường lấy điện áp trên mainboard (hoặc từ bộ nguồn), § FAN tiêu chuẩn: công suất khoảng 1W (0.2A-5V)
  19. 2. CÁC BỘ XỬ LÝ INTEL Họ 4 bit/8 bit: 4004 | 4040 | 8008 | 8080 | 8085 Họ 16 bit: 8086 | 8088 | 80186 | 80286 Họ 32 bit: 80386 | 80486 Họ Pentium: Pentium | Pentium Pro | Pentium II | Celeron | Pentium III | Pentium III-M | Pentium 4 | Pentium 4-M | Mobile Pentium 4 | Pentium 4 EE | Celeron D | Pentium D | Pentium EE Pentium Mobile: Pentium M | Celeron M Họ Core: Core Duo | Core Solo | Core 2 Duo | Core 2 Extreme Họ Server: Xeon Non x86 compatibili: Intel iAPX 432 | Intel i860 | Intel i960 v Kiến trúc IA-64: Itanium | Itanium 2
  20. PENTIUM P5 Thế hệ thứ 5, tên mã Pentium P5: Pentium P5 | Pentium MMX | q KiếnKiến trúctrúc siêusiêu hướnghướng (super(super scalar)scalar) w Thực thi kỹ thuật xử lý song song mức lệnh ILP (Instuction Level Parallelism) w Super scalar với: § Hai đường ống lệnh (pipeline) nguyên, ống lệnh dấu chấm động Ø Thao tác các chỉ lệnh đa hướng  thực thi nhiều lệnh cùng một lúc. q CôngCông nghệnghệ MMXMMX (Multimedia(Multimedia Extensions)Extensions) w Mở rộng cho các ứng dụng multimedia, để cải tiến việc nén/giải nén video, xử lý âm thanh, hình ảnh. Cải tiến cấu trúc: § Tăng Cache L1, nâng cao hiệu năng của bộ xử lý § Bổ sung 57 lệnh cho xử lý video, âm thanh và đồ hoạ cùng P.P SIMD (Single Intenction Multiple Data)  cho phép một lệnh duy nhất xử lý trên nhiều vùng dữ liệu cùng một lúc
  21. PENTIUM P6 Pentium PRO | Pentium II | Celeron | Pentium III | Pentium III-M § ViVi kiếnkiến trúctrúc P6P6 q ThựcThực thithi độngđộng (Dynamic(Dynamic Execution)Execution) w Giúp bộ xử lý thao tác dữ liệu theo một trật tự logic w Cho phép thực hiện nhiều lệnh song song và hiệu quả hơn, gồm: ± Dự đoán đa nhánh (Multiple Branch Prediction) · Có thể đoán trước được những bước tiếp theo trong dòng chỉ lệnh. Hiệu quả dự đoán đạt được tới 90%. ± Phân tích luồng dữ liệu (Data Flow Analysis) · Phân tích và lập thứ tự cho các lệnh, để thực thi theo một trình tự tối ưu và hiệu quả nhất không phụ thuộc vào thứ tự của chương trình. ± Thực thi suy đoán (Speculative Execution) · Lưu kết quả của các lệnh đã thực hiện, cho phép bộ xử lý lấy kết quả có sẵn này sử dụng khi cần thiết.
  22. PENTIUM P6 q Kiến trúc bus đôi độc lập DIB (Dual Independent Bus) w Mở rộng băng thông của bus dữ liệu nhập/xuất, với việc tách thành hai bus độc lập: § FSB (Front Side Bus): cho hệ thống (bảng mạch chính) § BSB (Back Side Bus): cho cache L2, cho phép tăng tốc độ truy nhập cache w Cache L2: tách khỏi mainboard để đưa lên cùng bản mạch bộ xử lý hoặc được tích hợp trong khuôn bộ xử lý q C.Nghệ đa phương tiện tiên tiến SSE (Streaming SIMD Extensions) w SSE là một cải tiến quan trọng của Pentium III, w Thêm 70 lệnh mới: cải tiến xử lý dấu chấm động, xử lý âm thanh, hình ảnh, các ứng dụng 3D, nhận dạng tiếng nói tiên tiến và truy cập Internet
  23. 3. CÁC BỘ XỬ LÝ CÔNG NGHỆ TIÊN TIẾN Intel® Core™ Intel® Pentium® Intel® Celeron® Core™2 Extreme Pentium® 4/HT Celeron® D Core™2 Quad Pentium® D Celeron® M Core™2 Duo Pentium® dual-core Celeron® Core™ Duo Pentium® Extreme Edition Core™ Solo Pentium® M Mobile Pentium® 4/HT
  24. PENTIUM 4 § ViVi kiếnkiến trúctrúc NetBurstNetBurst Ø Được thiết kế để đạt được hiệu suất cao đối với tính toán các số nguyên, dấu chấm động ở tần số cao. Ø NetBurst gồm các công nghệ tích hợp: q Bus hệ thống Quad Pumped q Công nghệ siêu đường ống (Hyper Pipeline Technology) q Động cơ thực hiện nhanh REE (Rapid Execution Engine) q Thực thi động tiên tiến (Advanced Dynamic Execution) q Cache ETC (Execution Trace Cache) q Cache vận chuyển tiên tiến ATC (Advanced Transfer Cache) q SSE2 (Streaming SIMD Extention 2)
  25. PENTIUM 4 q BusBus hệhệ thốngthống QuadQuad PumpedPumped w Mở rộng băng thông bus FSB, nâng cao tốc độ truyền w Cho phép kết nối và sử dụng bộ nhớ DRAM tốc độ cao w Thực hiện truyền 4-bit trong 1 nhịp đồng hồ thay vì 1-bit như trước w Với FSB 400: 3.2 GiB/s với xung nhịp 100MHz w Các bộ xử lý sau được tăng cường với FSB 533, 800 q CôngCông nghệnghệ siêusiêu đườngđường ốngống (Hyper(Hyper PipelinePipeline Technology)Technology) w Nhiều ống lệnh  nâng cao tốc độ xử lý. w Siêu đường ống lệnh của Pentium IV với 20 phân đoạn, nâng cao khả năng xử lý. w Sử dụng L1 cache ETC, khả năng dự đoán rẽ nhánh cao giúp cho Pentium IV có tốc độ xử lý vượt trội so với các thế hệ trước đó
  26. PENTIUM 4 q ĐộngĐộng cơcơ thựcthực hiệnhiện nhanhnhanh REEREE w Thiết kế để giảm bớt thời gian trễ thực thi các chỉ lệnh số nguyên. w 2 ALU nhanh thực hiện các tính toán số học và logic đơn giản w 1 ALU chậm thực hiện các tính toán phức tạp w 2 AGU giải quyết các địa chỉ gián tiếp chạy gấp đôi tốc độ vi xử lý. w  Pentium IV xử lý gấp đôi số lệnh trong một chu kỳ nhịp q ThựcThực thithi độngđộng tiêntiên tiếntiến (Advanced Dynamic Execution) w Thiết kế sâu hơn, tiên đoán xa hơn và cải tiến giải thuật tiên đoán nhánh lệnh để giảm bớt trường hợp tiên đoán sai. w Với 20 phân đoạn (Prescott là 31)  1 lệnh nếu dự đoán sai xảy ra ở các phân đoạn cuối, sẽ bị hủy toàn bộ, gây lãng phí lớn về thời gian w Đơn vị rẽ nhánh (Branch Predition) với kỹ thuật thực thi suy đoán song song, sẽ tăng số chỉ lệnh được dự đoán lên 126 so với 42 trong kiến trúc P6  Khả năng dự đoán rẽ nhánh đúng đến 95%.
  27. PENTIUM 4 q SSE2SSE2 (Streaming(Streaming SIMDSIMD ExtentionExtention 2)2) w SSE2 được mở rộng từ SSE và MMX với 144 lệnh mới, giảm số lệnh thực thi và tăng tốc độ xử lý. w SSE2 tăng hiệu quả thực thi các ứng dụng 3D, nén và giải nén, nhận dạng tiếng nói q CacheCache vậnvận chuyểnchuyển tiêntiên tiếntiến ATCATC w Cache L2 dùng cache ATC làm việc với tần số của bộ xử lý. w ATC 8-way set kết nối trực tiếp trên chip (on-die) bằng bus 256-bit Khác biệt ? w ATC của PIV vận chuyển dữ liệu trên từng nhịp đồng hồ  đạt đủ tốc độ nhịp đồng hồ (PIV/1.5GHz đạt tốc độ 48 GiB/s) w ATC của PIII vận chuyển trên từng chu kỳ nhịp  chỉ đạt một nửa tốc độ (PIII/1GHz đạt 16GiB/s).
  28. PENTIUM 4 q ETCETC (Execution(Execution TraceTrace Cache)Cache) w ICache được thay bằng cache thực hiện theo vết ETC. w Đơn vị giải mã sẽ chuyển các lệnh CISC thành các vi thao tác đơn giản hơn và cất giữ trong ETC w Nếu dự đoán rẽ nhánh sai những vi thao tác sẽ được lấy từ ETC và đưa vào thực hiện trong ống lệnh mà không cần tiến hành lại từ đầu v CôngCông nghệnghệ lõilõi củacủa PentiumPentium 44 Willamette: 0.18μm Northwood: 0.13μm Prescott: 0.09μm (90nm) Cedar Mill: 0.09μm (90nm) Gallatin: 0.13μm (Pentium EE)
  29. CôngCông nghệnghệ siêusiêu phânphân luồngluồng HTHT (Hyper Threading Technology) w Tăng cường khả năng chạy đa ứng dụng trong cùng một thời điểm  tăng năng suất xử lý. w Cho phép CPU chạy hai loạt chuỗi hoặc luồng lệnh trong cùng một thời điểm  Có thể xử lý nhiều thông tin cùng một lúc v CôngCông nghệnghệ HTHT yêuyêu cầu?cầu? ± Bộ xử lý CPU · Hỗ trợ công nghệ HT (Các CPU P4 FSB 800, với FSB 533 là P4 3.06) ± Chipset và BIOS · Chipset và BIOS hỗ trợ công nghệ HT (từ i845) ± Hệ điều hành hỗ trợ HT · Windows XP Professional Edition, XP Home Edittion, hay Red Had Linux9, SuSE Linux 8.2, Red Flag Linux Desktop 4.0, COSIX Linux 4.0
  30. Xu hướng Bộ xử lý đa nhân (Multi Core) § YêuYêu cầucầu vềvề tốctốc độđộ xửxử lýlý ww Các tác vụ trở nên phức tạp, Các tác vụ trở nên phức tạp, ww Các ứng dụng đa luồng. Các ứng dụng đa luồng. q Giải pháp thực hiệnGiải pháp thực hiện Ø Nâng cao tốc độ xung của CPUNâng cao tốc độ xung của CPU Ø Hệ thống đa xử lýHệ thống đa xử lý Ø Các bộ xử lý đa nhânCác bộ xử lý đa nhân
  31. Xu hướng Bộ xử lý đa nhân (Multi Core) § TốcTốc độđộ xungxung vàvà hiệuhiệu năngnăng củacủa CPUCPU w Tốc độ xung có phải là yếu tố quyết định hiệu năng của CPU ? w Nâng cao tốc độ xung có phải là cách duy nhất để nâng cao hiệu năng của bộ xử lý? Hiệu năng = Tốc độ xung x IPC Hiệu năng = Tốc độ xung x IPC (Instruction Per Clock) q Sự phụ thuộc của IPC vào kiến trúc CPU: Hiệu năng không tăng đều với · Kiến trúc đường ống lệnh pipeline sự gia tăng tốc độ xung. Tốc độ xung không phải là yếu · Khả năng dự đoán rẽ nhánh lệnh tố duy nhất quyết định hiệu · Cache, FPU, bộ nhớ, FSB năng của bộ xử lý q Những yếu tố hạn chế việc nâng cao tốc độ xung: · Mức độ tiêu thụ năng lượng tăng cao khi nâng cao tốc độ xung · Nhiệt lượng lớn giải pháp case và tản nhiệt cho phù hợp · Chi phí chế tạo và giá thành sản phẩm sẽ tăng · Tốc độ xung chỉ là 1 trong các yếu tố nâng cao hiệu năng
  32. Xu hướng Bộ xử lý đa nhân (Multi Core) § ĐaĐa xửxử lýlý (MultiProcessor)(MultiProcessor) w Gồm nhiều CPU giống nhau cùng thực hiện một nhiệm vụ chung hay các nhiệm vụ được chia xẻ. w Khác với hệ thống nhiều máy tính mạng: gồm nhiều máy tính thực hiện các nhiệm vụ riêng biệt. q Kiến trúc đa xử lý được thực thi trong một máy tính cho phép: · Nâng cao hiệu suất và độ tin cậy của hệ thống · Thực thi chủ yếu trong các máy chủ và số ít máy PC q Tiến trình thực hiện: · Thực thi các nhiệm vụ lớn: các CPU sẽ cùng chia sẻ tải, · Các nhiệm vụ nhỏ: sẽ đồng thời thực hiện (xử lý song song) để tăng cường tốc độ xử lý. · Khi 1 CPU gặp sự cố  nhiệm vụ được phân chia cho các CPU còn lại. Hệ thống tiếp tục hoạt động, dù hiệu suất có giảm.
  33. Xu hướng Bộ xử lý đa nhân (Multi Core) w 2002: xu hướng CPU đơn nhân cho các máy PC vẫn chiếm ưu thế. w 2005: Chủ đề "Bộ xử lý đa nhân" cùng đánh giá “Hiệu năng trên công suất tiêu thụ"  xu hướng mới cho các bộ xử lý. q Hiệu năng hệ thống đa CPU cao hơn H.T CPU đa nhân · Đa xử lý: sự gia tăng hiệu năng gần như mức tuyến tính. · Đa nhân: đạt được mức độ gia tăng hiệu năng đến 70-80% · H.T Đa CPU: mỗi CPU có bus dữ liệu tới CPU riêng, · H.T CPU đa nhân: các nhân phải dùng chung 1 bus dữ liệu q Vấn đề khác: · Chi phí cho đa xử lý cao hơn so với CPU đa nhân: cả giá CPU và cả giá mainboard cũng đắt hơn. · Thị trường của hệ thống đa CPU hạn hẹp: workstation và server · Thị trường CPU đa nhân mở rộng: khi được ứng dụng rộng rãi cho cả các máy để bàn PC, máy notebook
  34. BỘ XỬ LÝ ĐA NHÂN v Các bộ xử lý đa nhân sử dụng các mainboard chỉ cần 1 đế cắm CPU chứ không cần phải nhiều đế như trong hệ thống đa xử lý w Tốc độ mỗi core và ảnh hưởng thế nào đến việc tăng tốc độ thực hiện khi sử dụng đa nhân? w Các chương trình khác nhau thì sẽ tận dụng được sức mạnh của dual core khác nhau?
  35. PENTIUM D § SmithfieldSmithfield (Pentium(Pentium D800)D800) Ø Là bộ xử lý 2 nhân đầu tiên của Intel, dựa trên kiến trúc Netburst Ø Hiện thực hóa CPU ảo HT thành CPU vật lý thực sự. Ø D800 giống như đặt 2 core Prescott trên cùng 1 khuôn (die). Ø Đặt hai lõi gần nhau làm cho giao tiếp giữa chúng nhanh chóng hơn do độ trễ thấp. q Nhược điểm làm hạn chế hiệu năng CPU: · Hiện tượng thắt cổ chai dữ liệu: giao tiếp với nhau phải thông qua FSB · Băng thông FSB hạn chế: không mở rộng, vẫn hạn chế ở mức 800MHz/CPU hay 400MHz cho mỗi lõi  tốc độ tính toán tăng đôi, nhưng bandwidth cho mỗi core thì không · Nhiệt lượng tỏa ra lớn và chi phí sản xuất cao: số transistor trên mỗi die tăng gấp đôi cần giải quyết vấn đề tản nhiệt
  36. PENTIUM D § KhácKhác biệtbiệt vớivới AMDAMD Ø Kiến trúc AMD tích hợp thành phần cầu bắc của chipset lên CPU Ø Là thành phần điều khiển bộ nhớ được tích hợp lên CPU Ø Được kế thừa trong CPU lõi kép  Tạo nên ưu điểm cho AMD q Truyền dữ liệu của AMD ít gặp phải hiện tượng "thắt cổ chai“ v Intel sử dụng giải pháp truyền thông tin qua FSB giữa hai lõi v AMD sử dụng công nghệ HyperTransport: · CPU đưa ra các yêu cầu trên hệ thống SRQ (System Request Queue) · Khi hệ thống rỗi, các yêu cầu sẽ được gửi tới lõi để thực hiện. · Chỉ tiến hành trên die của CPU nên tốc độ rất nhanh. · Ưu điểm này thể hiện rõ khi xử lý các ứng dụng nặng, đa luồng (Multitasking/Multithreaded). · Thiết kế dual-core, AMD không cần phải cải tiến nhiều và hệ thống của AMD có nhiều lợi thế
  37. PENTIUM D § PreslerPresler (Pentium(Pentium D900)D900) w Presler là sự kế thừa Smithfield w Hiệu năng cao hơn, nhiều tính năng mới và sử dụng ít điện hơn q Sự thay đổi lớn trong thiết kế: · Smithfield, đặt cả hai nhân vào chung một khuôn lớn · Presler, hai nhân tách ra, mỗi nhân được sản xuất độc lập và gắn lại chung với nhau trên một chip; · Giống như gồm 2 lõi nhỏ kết nối với nhau qua 1 bus tốc độ cao. · Presler  mô hình cấu trúc lõi kép (Dual Core) thực sự, Smithfield là cấu trúc lõi đôi (Double Core). w Quy trình 65nm, kích thước die ít thay đổi. w Nhiệt tỏa ra cũng ít hơn, CPU hoạt động sẽ mát hơn nhiều. w Cache L2 2x2MiB (Smithfield 2x1MiB của), gấp 2 Athlon 64X2. w Việc sản xuất đơn giản hơn, giá thành sản xuất giảm
  38. PENTIUM D Ø Pentium D và P. Extreme Edition vẫn sử dụng trên cơ sở Pentium D và P. Extreme Edition vẫn sử dụng trên cơ sở vi kiến trúc vi kiến trúc NetburstNetburst. . Ø Được bổ sung nhiều công nghệ mới, mang lại các tính Được bổ sung nhiều công nghệ mới, mang lại các tính năng tăng cường năng tăng cường v Các công nghệ tăng cường: q Enhanced Intel® SpeedStep Technology (EIST) q Extended Memory 64 Technology (EM64T) q Excute Disable Bit (XD Bit) q Streaming SIMD Extention 3 (SSE3) q Virtualization Technology (Intel® VT)
  39. PENTIUM D q EnhancedEnhanced Intel®Intel® SpeedStepSpeedStep TechnologyTechnology (EIST) · Cho phép CPU có thể tự điều chỉnh tần số và điện áp sử dụng · Giảm thiểu công suất để giảm mức tiêu thụ điện năng  giảm nhiệt phát ra khi không có nhiều yêu cầu xử lý · Chipset cũng cần hỗ trợ EIST q ExtendedExtended MemoryMemory 6464 TechnologyTechnology (EM64T) · Hỗ trợ các chỉ lệnh 64-bit, cho phép truy cập bộ nhớ vật lý và bộ nhớ ảo lớn hơn, xử lý nhiều dữ liệu hơn cho bộ nhớ chính. · Hệ thống sẽ truy xuất trực tiếp từ RAM, ít phải truy xuất dữ liệu từ ổ cứng  nâng cao hiệu quả, khai thác tối đa HĐH 64-bit
  40. PENTIUM D q ExcuteExcute DisableDisable BitBit (XD bit) · Hoàn thiện tính năng bảo mật của hệ thống · Vô hiệu hóa các mã nguy hiểm không được phép chạy trong bộ nhớ, nâng cao khả năng chống virus q SSE3SSE3 · Thêm13 lệnh mới so với SSE2, cải thiện hoạt động của công nghệ siêu phân luồng HT cho hiệu quả hơn · Tăng cường các chức năng multimedia và Internet cho hệ thống q VirtualizationVirtualization TechnologyTechnology (Intel® VT) · Công nghệ ảo hóa Intel®VT, cho phép nâng cao độ bảo mật · Cho phép tách các môi trường phần cứng độc lập riêng lẻ bên trong một máy tính đơn, · Cho phép chạy nhiều HĐH trên cùng một chip, trong những phân khu khác nhau
  41. Core™ Duo và Core™2 Duo § ViVi kiếnkiến trúctrúc Core™Core™ Ø CoreCoreTMTM 2 Duo với kiến trúc hoàn toàn 2 Duo với kiến trúc hoàn toàn mới mới Ø Nhiều công nghệ tích hợpNhiều công nghệ tích hợp v Intel® Core™ Microarchitecture: q Thực thi động mở rộng (Wide Dynamic Execution) q Quản lý điện năng thông minh (Intelligent Power Capability) q Đệm thông minh tiên tiến (Advanced Smart Cache) q Truy xuất bộ nhớ thông minh (Smart Memory Access) q Tăng tốc phương tiện số tiên tiến (Advanced Digital Media Boost)
  42. Core™ Duo và Core™2 Duo q WideWide DynamicDynamic ExecutionExecution (Thực thi động mở rộng) · Nâng cao tốc độ và hiệu quả thực hiện chương trình, · Mỗi core có thể thực thi đồng thời 4 lệnh trong một nhịp đồng hồ, · Nâng cao hiệu năng, cho phép thực hiện được nhiều công việc hơn trong thời gian ngắn hơn. q IntelligentIntelligent PowerPower CapabilityCapability (Quản lý điện năng thông minh) · Tối ưu hóa việc sử dụng năng lượng của các nhân trong bộ xử lý bằng cách chỉ bật chức năng tính toán khi cần. · Nếu không có hoạt động, hệ thống trở về trạng thái ngủ giúp giảm lượng điện năng tiêu thụ đáng kể mà không ảnh hưởng hiệu xuất của toàn hệ thống.
  43. Core™ Duo và Core™2 Duo q AdvancedAdvanced SmartSmart CacheCache (Đệm thông minh tiên tiến) · Shared cache L2 4MB, 16-way dùng chung · Phân chia động theo nhu cầu của mỗi nhân, tăng hiệu quả sử dụng · Nếu 2 nhân cần sử dụng một dữ liệu giống nhau,  lưu tại 1 nơi trong L2 chung, không cần lưu thành 2 bản tại hai vùng L2 riêng · Giảm thiểu thời gian nạp cache do hiện tượng nạp 2 lần trên hai cache và dung lượng hữu dụng của cache sẽ được tối ưu. CPU Core CPU Core CPU Core CPU Core L1 Cache L1 Cache L1 Cache L1 Cache L2 Cache L2 Cache L2 Cache Dual core Core2 Duo
  44. Core™ Duo và Core™2 Duo q SmartSmart MemoryMemory AccessAccess (Truy xuất bộ nhớ thông minh) · Tối ưu hóa việc sử dụng băng thông dữ liệu hiện có, làm giảm thời gian chờ dữ liệu cho các lệnh bên trong CPU. · Có hai kỹ thuật: Nạp trước dữ liệu và bộ nạp lệnh tiên tiến · tăng hiệu quả động cơ suy đoán thực hiện lệnh, giảm thiểu khả năng “trượt” cache q AdvancedAdvanced DigitalDigital MediaMedia BoostBoost (Tăng tốc P. tiện số tiên tiến ) · Cải thiện hiệu năng một cách đáng kể trên các ứng dụng video, hình ảnh, xử lý ảnh, đồ họa, mã hóa, · Hỗ trợ xử lý các lệnh SIMD 128-bit, tăng tốc thực thi lệnh Streaming SIMD Extension (SSE) · Rút ngắn 2 lần thời gian xử lý dữ liệu các ứng dụng multimedia