Chi phí vận hành AI lớn đến mức nào?

Thông thường, việc đầu tư nghiên cứu và phát triển liên quan trực tiếp đến giá trị của một sản phẩm, và mối quan hệ này thường không tuyến tính. Tuy nhiên, điều này không áp dụng cho quá trình nghiên cứu trí tuệ nhân tạo, năng lực tính toán phần cứng càng mạnh thì kết quả đầu ra càng tốt, à do đó, một yếu tố chi phối quan trọng đang thúc đẩy ngành công nghiệp hiện nay là chi phí huấn luyện và suy luận của AI.

Mặc dù chúng ta không biết con số chính xác, nhưng chúng tôi đã nghe từ các nguồn đáng tin cậy rằng nguồn cung cấp tính toán hiện đang bị hạn chế, trong khi nhu cầu vượt xa lên tới mức gấp 10 (!). Vì vậy, chúng tôi nghĩ rằng có thể nói rằng, hiện tại, việc truy cập vào các nguồn tính toán – với chi phí tổng thấp nhất – đã trở thành yếu tố quyết định cho sự thành công của các công ty trí tuệ nhân tạo.

Thực tế, chúng tôi đã thấy nhiều công ty chi hơn 80% tổng số vốn đã huy động của họ vào các nguồn tính toán!

Trong bài viết này, chúng tôi cố gắng phân tích các yếu tố chi phí cho một công ty trí tuệ nhân tạo. Tuy số liệu tuyệt đối sẽ thay đổi theo thời gian, nhưng chúng tôi không thấy sự giảm bớt ngay lập tức về việc các công ty trí tuệ nhân tạo bị ràng buộc bởi việc truy cập vào các nguồn tính toán. Vì vậy, hy vọng đây là một khung cảnh hữu ích để suy nghĩ về cảnh quan.

Tại sao mô hình trí tuệ nhân tạo lại tốn nhiều tài nguyên tính toán?

Có nhiều loại mô hình trí tuệ nhân tạo khác nhau và chi phí về suy luận (inference) và huấn luyện phụ thuộc vào kích thước và loại mô hình. May mắn thay, các mô hình phổ biến nhất hiện nay chủ yếu dựa trên kiến trúc transformer, bao gồm các mô hình ngôn ngữ lớn phổ biến (như GPT-3, GPT-J hoặc BERT). Trong khi số lượng phép tính chính xác cho suy luận và học của transformer phụ thuộc vào từng mô hình cụ thể (xem bài báo này), có một quy tắc đơn giản nhưng khá chính xác dựa trên số lượng tham số (tức trọng số của mạng nơ-ron) của mô hình và số lượng ký tự đầu vào và đầu ra.

Token trong thực tế là các chuỗi ngắn gồm vài ký tự. Chúng tương ứng với từ hoặc một phần từ. Cách tốt nhất để hiểu về token là thử sử dụng các công cụ phân đoạn từ công khai trực tuyến (ví dụ: OpenAI). Đối với GPT-3, độ dài trung bình của một token là 4 ký tự.

Quy tắc đơn giản cho transformer là việc thực hiện một lần truyền thuận (suy luận) cho một mô hình có p tham số cho mỗi chuỗi đầu vào và đầu ra có độ dài n token, mất khoảng 2np phép tính số thực (FLOPs)¹. Quá trình huấn luyện cho cùng một mô hình mất khoảng 6*p FLOPs cho mỗi token (tức quá trình thuận và truyền ngược yêu cầu thêm bốn phép tính nữa²). Bạn có thể ước lượng tổng chi phí huấn luyện bằng cách nhân nó với số lượng token trong dữ liệu huấn luyện.

Yêu cầu bộ nhớ cho transformer cũng phụ thuộc vào kích thước mô hình. Đối với suy luận, chúng ta cần các tham số mô hình p phù hợp với bộ nhớ. Đối với việc học (tức back-propagation), chúng ta cần lưu trữ các giá trị trung gian bổ sung cho mỗi tham số giữa quá trình truyền thuận và truyền ngược. Giả sử chúng ta sử dụng số thực 32 bit, điều này sẽ là thêm 8 byte cho mỗi tham số. Để huấn luyện một mô hình có 175 tỷ tham số, chúng ta sẽ cần lưu trữ hơn một terabyte dữ liệu trong bộ nhớ – điều này vượt quá bất kỳ GPU nào hiện có và yêu cầu chúng ta phải chia mô hình thành nhiều card. Yêu cầu bộ nhớ cho suy luận và huấn luyện có thể được tối ưu bằng cách sử dụng các giá trị số thực có độ dài ngắn hơn, với số bit 16 trở nên phổ biến và dự kiến sẽ có số bit 8 trong tương lai gần.

Nỗ lực tính toán cần thiết cho quá trình huấn luyện (toàn bộ dữ liệu huấn luyện) và suy luận (1024 token) cho một số mô hình văn bản phổ biến

Bảng trên hiển thị kích thước và chi phí tính toán cho một số mô hình phổ biến. GPT-3 có khoảng 175 tỷ tham số, và với 1.024 token đầu vào và đầu ra, kết quả là một chi phí tính toán xấp xỉ 350 nghìn tỷ phép tính dấu phẩy động (tức là Teraflops hoặc TFLOPs). Quá trình huấn luyện một mô hình như GPT-3 yêu cầu khoảng 3.14 x 10^23 phép tính dấu phẩy động. Các mô hình khác như LLaMA của Meta có yêu cầu tính toán cao hơn. Huấn luyện một mô hình như vậy là một trong những nhiệm vụ tính toán phức tạp nhất mà loài người đã thực hiện cho đến nay.

Tóm lại, cơ sở hạ tầng trí tuệ nhân tạo đắt đỏ vì các vấn đề thuật toán bên dưới rất khó tính toán. Độ phức tạp thuật toán của việc sắp xếp một bảng cơ sở dữ liệu với một triệu mục là không đáng kể so với độ phức tạp của việc tạo ra một từ duy nhất với GPT-3. Điều này có nghĩa là bạn nên chọn mô hình nhỏ nhất mà giải quyết được trường hợp sử dụng của bạn.

Thông tin tích cực là đối với transformers, chúng ta có thể dễ dàng ước lượng được bao nhiêu tài nguyên tính toán và bộ nhớ một mô hình có kích thước nhất định sẽ tiêu thụ. Và vì vậy, việc lựa chọn phần cứng phù hợp trở thành xem xét tiếp theo.

Thảo luận về thời gian và chi phí cho GPU

Làm thế nào độ phức tạp tính toán chuyển đổi thành thời gian? Một nhân xử lý thông thường thường có thể thực thi 1-2 lệnh trong mỗi chu kỳ, và tốc độ đồng hồ của bộ xử lý đã ổn định ở mức khoảng 3 GHz trong 15 năm qua do kết thúc của Dennard Scaling. Thực thi một hoạt động suy luận duy nhất của GPT-3 mà không tận dụng bất kỳ kiến trúc song song nào sẽ mất khoảng 350 TFLOP / (3 GHz * 1 FLOP) hoặc 116.000 giây, tức là 32 giờ. Điều này rất không thực tế; thay vào đó, chúng ta cần các chip chuyên dụng để tăng tốc nhiệm vụ này.

Trong thực tế, tất cả các mô hình trí tuệ nhân tạo hiện nay chạy trên các thẻ sử dụng một số lượng rất lớn các lõi chuyên dụng. Ví dụ, một GPU NVIDIA A100 có 512 “tensor cores” có thể thực hiện phép nhân ma trận 4×4 (tương đương với 64 phép nhân và cộng, hoặc 128 FLOP) trong một chu kỳ duy nhất. Các thẻ tăng tốc trí tuệ nhân tạo thường được gọi là GPU (đơn vị xử lý đồ họa), vì kiến trúc ban đầu được phát triển cho trò chơi trên máy tính để bàn. Trong tương lai, chúng ta dự đoán trí tuệ nhân tạo sẽ ngày càng trở thành một dòng sản phẩm riêng biệt.

Thẻ GPU A100 có hiệu suất danh định là 312 TFLOP, trong lý thuyết sẽ làm giảm thời gian suy luận cho GPT-3 xuống khoảng 1 giây. Tuy nhiên, tính toán này quá đơn giản vì nhiều lý do. Thứ nhất, đối với hầu hết các trường hợp sử dụng, hạn chế không phải là sức mạnh tính toán của GPU mà là khả năng truyền dữ liệu từ bộ nhớ đồ họa chuyên dụng đến các nhân tensor. Thứ hai, 175 tỷ trọng số của GPT-3 sẽ chiếm tới 700GB và không thể chứa trong bộ nhớ đồ họa của bất kỳ GPU nào. Cần sử dụng các kỹ thuật như phân vùng và truyền trọng số. Thứ ba, có nhiều tối ưu hóa (ví dụ: sử dụng biểu diễn số thực ngắn hơn, như FP16, FP8 hoặc ma trận thưa) được sử dụng để tăng tốc tính toán. Tuy nhiên, tổng quan, phép tính trên đây cho chúng ta một cái nhìn về chi phí tính toán tổng thể của các mô hình ngôn ngữ lớn (LLM) hiện nay.

Huấn luyện một mô hình biến đổi mất khoảng ba lần thời gian so với việc thực hiện suy luận. Tuy nhiên, với việc bộ dữ liệu huấn luyện lớn gấp khoảng 300 triệu lần so với câu hỏi suy luận, thời gian huấn luyện kéo dài lên đến 1 tỷ lần. Trên một GPU duy nhất, việc huấn luyện sẽ mất hàng thập kỷ; trong thực tế, việc này được thực hiện trên các cụm tính toán lớn trong các trung tâm dữ liệu được dành riêng hoặc thường là trên đám mây. Huấn luyện cũng khó khăn hơn việc thực hiện suy luận khi trọng số cập nhật phải được trao đổi giữa các nút. Yêu cầu bộ nhớ và băng thông giữa các GPU thường trở thành yếu tố quan trọng hơn, với việc sử dụng kết nối tốc độ cao và các mạng vải chuyên dụng. Khi huấn luyện các mô hình rất lớn, việc thiết lập mạng lưới phù hợp có thể trở thành thách thức chính. Nhìn vào tương lai, dự kiến các bộ gia tốc AI sẽ tích hợp khả năng mạng trên thẻ hoặc ngay trên vi mạch.

Đối với việc huấn luyện GPT-3, thì đây là một quá trình đắt đỏ hơn nhiều. Tính toán chỉ chi phí tính toán cho 3,14 * 10^23 FLOPs với tỷ lệ trên sẽ cho chúng ta một ước tính khoảng 560.000 đô la trên các thẻ A100 cho một lần huấn luyện duy nhất. Trong thực tế, trong quá trình huấn luyện, chúng ta không thể đạt được hiệu suất gần như 100% trên GPU; tuy nhiên, chúng ta cũng có thể sử dụng các tối ưu hóa để giảm thời gian huấn luyện. Ước tính khác về chi phí huấn luyện GPT-3 dao động từ 500.000 đến 4,6 triệu đô la, tùy thuộc vào giả định về phần cứng. Lưu ý rằng đây là chi phí của một lần chạy duy nhất và không phải là tổng chi phí. Có thể sẽ cần nhiều lần chạy và các nhà cung cấp đám mây sẽ yêu cầu cam kết dài hạn (sẽ đề cập thêm về điều này bên dưới). Việc huấn luyện các mô hình hàng đầu vẫn đắt đỏ, nhưng có thể đạt được đối với một start-up có nguồn lực tốt.

Tóm lại, trí tuệ nhân tạo phát sinh yêu cầu đầu tư khổng lồ vào cơ sở hạ tầng AI hiện nay. Không có lý do để tin rằng điều này sẽ thay đổi trong tương lai gần. Huấn luyện một mô hình như GPT-3 là một trong những nhiệm vụ tính toán phức tạp nhất mà con người từng thực hiện. Và trong khi GPU đang trở nhanh hơn và chúng ta tìm cách tối ưu hóa huấn luyện, sự mở rộng nhanh chóng của AI vô hiệu hóa cả hai hiệu ứng này.

Các yếu tố cần xem xét cho cơ sở hạ tầng AI

Cho đến đây, chúng tôi đã cố gắng giúp bạn hiểu một số khái niệm cơ bản về quy mô cần thiết để thực hiện việc huấn luyện và suy luận các mô hình AI, cũng như những thông số cơ bản đằng sau chúng. Với ngữ cảnh đó, bây giờ chúng tôi muốn cung cấp một số hướng dẫn thực tế về cách quyết định sử dụng cơ sở hạ tầng AI nào.

Cơ sở hạ tầng ngoại vi so với nội bộ

Đối mặt với thực tế, GPU là những gì thú vị. Nhiều kỹ sư và những người sáng lập có tư duy kỹ thuật có xu hướng lựa chọn cung cấp phần cứng AI riêng của họ, không chỉ vì nó cung cấp sự kiểm soát chi tiết về việc huấn luyện mô hình, mà còn vì có một cái gì đó thú vị khi khai thác lượng lớn sức mạnh tính toán (ví dụ A).

Tuy nhiên, thực tế là nhiều startup, đặc biệt là các công ty ứng dụng, không cần phải xây dựng cơ sở hạ tầng AI riêng của mình ngay từ ngày đầu tiên. Thay vào đó, các dịch vụ mô hình được chứa như OpenAI hoặc Hugging Face (cho ngôn ngữ) và Replicate (cho tạo ảnh) cho phép những người sáng lập nhanh chóng tìm kiếm sự phù hợp giữa sản phẩm và thị trường mà không cần quản lý cơ sở hạ tầng hoặc mô hình cơ bản.

Các dịch vụ này đã trở nên rất tốt đến mức nhiều công ty không bao giờ rời bỏ chúng. Nhà phát triển có thể kiểm soát hiệu suất mô hình một cách ý nghĩa thông qua kỹ thuật tạo lời gợi ý và các trừu tượng điều chỉnh tinh chỉnh bậc cao hơn (tức là tinh chỉnh tinh chỉnh thông qua các cuộc gọi API). Giá cả cho các dịch vụ này được tính dựa trên lượng sử dụng, do đó thường rẻ hơn việc chạy cơ sở hạ tầng riêng biệt. Chúng tôi đã thấy các công ty ứng dụng tạo ra hơn 50 triệu đô la doanh thu hàng năm và được định giá hơn 1 tỷ đô la, sử dụng dịch vụ mô hình được chứa dưới nền tảng.

Tuy nhiên, các startup khác, đặc biệt là những người đang huấn luyện các mô hình cơ sở mới hoặc xây dựng các ứng dụng AI tích hợp theo chiều dọc, không thể tránh khỏi việc chạy các mô hình riêng của họ trực tiếp trên GPU. Điều này có thể là do mô hình thực chất là sản phẩm và nhóm đang tìm kiếm “phù hợp thị trường mô hình”, hoặc do yêu cầu kiểm soát chi tiết về huấn luyện và/hoặc suy luận để đạt được các khả năng cụ thể hoặc giảm chi phí biên lớn với quy mô lớn. Dù sao đi nữa, quản lý cơ sở hạ tầng có thể trở thành một nguồn lợi thế cạnh tranh.

Đám mây so với việc xây dựng trung tâm dữ liệu

Trong hầu hết các trường hợp, đám mây là nơi đúng để xây dựng cơ sở hạ tầng AI của bạn. Chi phí ban đầu thấp, khả năng mở rộng lên và xuống, khả năng có sẵn khu vực, và không bị phân tán sự chú ý khỏi việc xây dựng trung tâm dữ liệu riêng của bạn là những yếu tố hấp dẫn đối với hầu hết các startup và công ty lớn.

Nhưng có một vài ngoại lệ với quy tắc này:

Nếu bạn hoạt động với quy mô rất lớn, việc tự mình vận hành trung tâm dữ liệu có thể trở nên hiệu quả về mặt chi phí hơn. Điểm giá chính xác thay đổi dựa trên vị trí địa lý và cấu hình, nhưng thường yêu cầu chi tiêu cơ sở hạ tầng hơn 50 triệu đô la mỗi năm.
Bạn cần phần cứng rất cụ thể mà bạn không thể có được từ nhà cung cấp đám mây. Ví dụ, các loại GPU không phổ biến, cũng như yêu cầu bộ nhớ, lưu trữ hoặc mạng không thông thường.
Bạn không thể tìm thấy một đám mây phù hợp về mặt địa chính trị.

Nếu bạn muốn xây dựng trung tâm dữ liệu riêng, đã có các phân tích giá/trình biểu hiệu toàn diện về GPU cho cấu hình riêng của bạn (ví dụ, phân tích của Tim Dettmer). Ngoài chi phí và hiệu suất của card chính nó, việc lựa chọn phần cứng cũng phụ thuộc vào điện năng, không gian và làm mát. Ví dụ, hai card RTX 3080 Ti cùng có khả năng tính toán gốc tương tự như một card A100, nhưng tiêu thụ điện lần lượt là 700W và 300W. Sự khác biệt về điện năng 3.500 kWh với giá thị trường là 0,10 USD/kWh trong suốt vòng đời ba năm tăng chi phí của RTX 3080 Ti gần 2 lần (khoảng 1.000 USD).

Tuy nhiên, chúng tôi dự đoán rằng đa số các startup sẽ sử dụng dịch vụ đám mây.

So sánh các nhà cung cấp dịch vụ đám mây.

Amazon Web Services (AWS), Microsoft Azure và Google Cloud Platform (GCP) đều cung cấp các phiên bản máy ảo có GPU, nhưng cũng có các nhà cung cấp mới xuất hiện tập trung vào khối lượng công việc trí tuệ nhân tạo. Dưới đây là một khung nhìn chúng tôi đã thấy nhiều nhà sáng lập sử dụng để chọn nhà cung cấp đám mây:

Giá cả: Bảng dưới đây hiển thị giá cả cho một số nhà cung cấp đám mây lớn và nhỏ chuyên về lĩnh vực cụ thể vào ngày 7 tháng 4 năm 2023. Dữ liệu này chỉ mang tính chất tham khảo, vì các phiên bản máy ảo khác nhau đáng kể về băng thông mạng, chi phí xuất dữ liệu, chi phí bổ sung từ CPU và mạng, các chiết khấu có sẵn và các yếu tố khác. Ví dụ, Google yêu cầu một phiên bản tối ưu hóa với công nghệ tăng tốc A2 cho một phiên bản A100 40GB, điều này có thể làm tăng chi phí lên đến 25%.

Khả năng tính toán trên phần cứng cụ thể là một hàng hoá. Khiêm tốn mà nói, chúng ta có thể mong đợi giá cả tương đối đồng đều, nhưng thực tế không phải như vậy. Và mặc dù tồn tại những khác biệt đáng kể về tính năng giữa các nhà cung cấp đám mây, nhưng chúng không đủ để giải thích tại sao giá cả cho một NVIDIA A100 theo hình thức yêu cầu lập tức (on-demand) biến đổi theo mức gần 4 lần giữa các nhà cung cấp.

Ở phân khúc giá cao nhất, các đám mây công cộng lớn tính một khoản phụ phí dựa trên uy tín thương hiệu, độ tin cậy được chứng minh và nhu cầu quản lý một loạt các khối lượng công việc khác nhau. Các nhà cung cấp AI chuyên nghiệp nhỏ hơn cung cấp giá thấp hơn, có thể do chạy các trung tâm dữ liệu được thiết kế đặc biệt (ví dụ: Coreweave) hoặc khai thác các đám mây khác (ví dụ: Lambda Labs).

Về mặt thực tế, hầu hết các người mua lớn đàm phán giá trực tiếp với các nhà cung cấp đám mây, thường cam kết một số yêu cầu tối thiểu về chi tiêu cũng như thời gian cam kết tối thiểu (chúng tôi đã thấy từ 1-3 năm). Các khác biệt giá cả giữa các đám mây sẽ giảm bớt sau khi đàm phán, nhưng chúng tôi đã thấy thứ hạng trong bảng trên vẫn tương đối ổn định. Đáng chú ý là các công ty nhỏ có thể nhận được giá cả cạnh tranh từ các đám mây chuyên ngành mà không cần cam kết chi tiêu lớn.

Tính sẵn sàng: Các GPU mạnh nhất (ví dụ: Nvidia A100) đã liên tục khan hiếm trong hơn 12 tháng qua.

Có lý thuyết rằng ba nhà cung cấp đám mây hàng đầu sẽ có sẵn hàng hóa nhiều nhất, nhờ sức mua lớn và nguồn tài nguyên phong phú. Tuy nhiên, đáng ngạc nhiên là nhiều startup không thấy điều này là đúng. Các đám mây lớn có nhiều phần cứng nhưng cũng phải đáp ứng nhu cầu của khách hàng lớn – ví dụ: Azure là nơi chủ yếu đặt ChatGPT – và liên tục thêm/cho thuê công suất để đáp ứng nhu cầu. Trong khi đó, Nvidia đã cam kết cung cấp phần cứng rộng rãi cho toàn ngành, bao gồm cả việc cung cấp cho các nhà cung cấp đặc biệt mới. (Họ làm điều này để công bằng và để giảm sự phụ thuộc vào một số khách hàng lớn cạnh tranh với họ.)

Kết quả là, nhiều startup tìm thấy nhiều chip có sẵn hơn, bao gồm cả những chiếc Nvidia H100 tiên tiến nhất, tại các nhà cung cấp đám mây nhỏ hơn. Nếu bạn sẵn lòng làm việc với một công ty cơ sở hạ tầng mới hơn, bạn có thể giảm thời gian chờ đợi cho phần cứng và có thể tiết kiệm tiền trong quá trình đó.

Mô hình cung cấp tính toán: Hiện nay, các đám mây lớn chỉ cung cấp các trường hợp sử dụng với GPU riêng, lí do là ảo hóa GPU vẫn là một vấn đề chưa được giải quyết. Các đám mây đặc biệt dành cho trí tuệ nhân tạo cung cấp các mô hình khác như container hoặc batch jobs, có thể xử lý các nhiệm vụ cá nhân mà không phải chịu chi phí khởi động và hủy bỏ của một trường hợp sử dụng. Nếu bạn thoải mái với mô hình này, nó có thể giảm đáng kể chi phí.

Kết nối mạng: Đối với việc huấn luyện đặc biệt, băng thông mạng là một yếu tố quan trọng trong việc lựa chọn nhà cung cấp. Các cụm máy với kết nối chuyên dụng giữa các nút, chẳng hạn như NVLink, cần thiết để huấn luyện một số mô hình lớn. Đối với việc tạo ra hình ảnh, phí giao thông ra ngoài cũng có thể là một yếu tố chủ động chi phí lớn.

Hỗ trợ khách hàng: Các nhà cung cấp đám mây lớn phục vụ một nguồn khách hàng rộng lớn trên hàng ngàn SKU sản phẩm. Có thể khó để thu hút sự chú ý của dịch vụ hỗ trợ khách hàng hoặc sửa lỗi, trừ khi bạn là một khách hàng lớn. Trên thực tế, nhiều đám mây đặc biệt dành cho trí tuệ nhân tạo cung cấp hỗ trợ nhanh chóng và phản hồi nhanh ngay cả cho các khách hàng nhỏ. Điều này phần là do họ hoạt động ở quy mô nhỏ hơn, nhưng cũng vì khối lượng công việc của họ đồng nhất hơn – do đó, họ có động lực hơn để tập trung vào các tính năng và lỗi cụ thể của trí tuệ nhân tạo.

So sánh các GPU

Nếu mọi thứ còn lại đều giống nhau, các GPU hàng đầu sẽ hoạt động tốt nhất trên hầu hết các công việc. Tuy nhiên, như bạn có thể thấy trong bảng dưới đây, phần cứng tốt nhất cũng đáng kể đắt hơn. Việc chọn loại GPU phù hợp cho ứng dụng cụ thể của bạn có thể giảm đáng kể chi phí và có thể là yếu tố quyết định giữa một mô hình kinh doanh khả thi và không khả thi.

Quyết định điều chỉnh xuống danh sách là lựa chọn GPU có chi phí hiệu quả nhất cho ứng dụng của bạn là một quyết định chủ yếu dựa trên yếu tố kỹ thuật và vượt xa phạm vi của bài viết này. Tuy nhiên, dưới đây chúng tôi sẽ chia sẻ một số tiêu chí lựa chọn quan trọng nhất mà chúng tôi đã thấy:

Huấn luyện so với suy luận: Như chúng ta đã thấy ở phần đầu tiên, việc huấn luyện một mô hình Transformer đòi hỏi chúng ta lưu trữ 8 byte dữ liệu để huấn luyện ngoài trọng số mô hình. Điều này có nghĩa là một GPU tiêu chuẩn cao cấp với 12GB bộ nhớ chỉ có thể được sử dụng để huấn luyện một mô hình 4 tỷ tham số hạn chế. Trong thực tế, huấn luyện các mô hình lớn được thực hiện trên các cụm máy tính với ưu tiên có nhiều GPU trên mỗi máy chủ, nhiều VRAM và kết nối băng thông cao giữa các máy chủ (tức là các cụm máy tính được xây dựng bằng cách sử dụng GPU trung tâm dữ liệu hàng đầu).

Cụ thể, nhiều mô hình sẽ có hiệu suất chi phí tốt nhất trên NVIDIA H100, nhưng hiện nay rất khó tìm thấy và thường đòi hỏi cam kết dài hạn hơn một năm. NVIDIA A100 đang chạy hầu hết quá trình huấn luyện mô hình hiện nay; nó dễ tìm thấy hơn nhưng đối với các cụm lớn, cũng có thể đòi hỏi cam kết dài hạn.

Yêu cầu bộ nhớ: LLMs lớn có số lượng tham số quá cao để lưu trữ trên bất kỳ thẻ nào. Chúng cần được chia thành nhiều thẻ và yêu cầu một cấu hình tương tự như quá trình huấn luyện. Nói cách khác, bạn có thể cần H100 hoặc A100 ngay cả cho suy luận LLM. Nhưng các mô hình nhỏ hơn (ví dụ: Stable Diffusion) yêu cầu ít VRAM hơn nhiều. Trong khi A100 vẫn được ưa chuộng, chúng tôi đã thấy các startup sử dụng A10, A40, A4000, A5000 và A6000, hoặc thậm chí các thẻ RTX.

Hỗ trợ phần cứng: Trong khi đa số các khối công việc trong các công ty mà chúng tôi đã nói chuyện chạy trên NVIDIA, một số ít đã bắt đầu thử nghiệm với các nhà cung cấp khác. Phổ biến nhất là Google TPU, nhưng Intel Gaudi 2 cũng đang nhận được sự quan tâm. Thách thức với các nhà cung cấp này là hiệu suất của mô hình của bạn thường phụ thuộc nhiều vào sự có sẵn của các tối ưu hóa phần mềm cho những con chip này. Có lẽ bạn sẽ phải thực hiện một bản chứng minh khái niệm để hiểu về hiệu suất.

Yêu cầu độ trễ: Nói chung, các khối công việc ít nhạy cảm với độ trễ (ví dụ: xử lý dữ liệu hàng loạt hoặc ứng dụng không yêu cầu phản hồi giao diện người dùng tương tác) có thể sử dụng GPU yếu hơn. Điều này có thể giảm chi phí tính toán lên đến 3-4 lần (ví dụ: so sánh A100 với A10 trên AWS). Ngược lại, các ứng dụng dành cho người dùng cuối thường cần sử dụng các thẻ hàng đầu để mang lại trải nghiệm người dùng thú vị và thời gian thực. Tối ưu hóa mô hình thường là cần thiết để đưa chi phí vào một phạm vi quản lý được.

Tính không đều: Các công ty Generative AI thường gặp những đỉnh điểm đáng kể trong nhu cầu vì công nghệ này mới và hấp dẫn. Không lạ khi thấy khối lượng yêu cầu tăng lên 10 lần trong một ngày, dựa trên việc ra mắt sản phẩm mới, hoặc tăng 50% mỗi tuần một cách nhất quán. Xử lý những đỉnh điểm này thường dễ dàng hơn trên GPU yếu hơn, vì có khả năng có sẵn nhiều nút tính toán theo yêu cầu. Thường thì hợp lý để phục vụ loại lưu lượng này bằng các tài nguyên có chi phí thấp hơn – với sự hy sinh về hiệu suất – nếu nó đến từ người dùng ít tương tác hoặc ít duy trì.

Tối ưu hóa và lập lịch mô hình

Các tối ưu hóa phần mềm có thể ảnh hưởng rất lớn đến thời gian chạy của mô hình – và việc có được cải tiến gấp 10 lần không phải là điều hiếm gặp. Tuy nhiên, bạn cần xác định phương pháp nào sẽ hiệu quả nhất với mô hình và hệ thống cụ thể của bạn.

Một số kỹ thuật hoạt động với một loạt mô hình khá rộng. Sử dụng biểu diễn số thực ngắn hơn (tức là FP16 hoặc FP8 so với FP32 ban đầu) hoặc lượng tử hóa (INT8, INT4, INT2) đạt được một tốc độ tăng cường thường tuyến tính với việc giảm bit. Đôi khi điều này yêu cầu sửa đổi mô hình, nhưng ngày càng có công nghệ có sẵn tự động làm việc với độ chính xác kết hợp hoặc ngắn hơn. Giảm trọng lượng mạng neural giảm số lượng trọng số bằng cách bỏ qua các trọng số có giá trị thấp. Kết hợp với việc nhân ma trận thưa hiệu quả, điều này có thể đạt được tăng tốc đáng kể trên GPU hiện đại. Một tập hợp kỹ thuật tối ưu hóa khác định vị vấn đề hạn chế băng thông bộ nhớ (ví dụ: bằng cách truyền dữ liệu trọng số mô hình theo luồng).

Các tối ưu hóa khác phụ thuộc vào từng mô hình cụ thể. Ví dụ, Stable Diffusion đã có những tiến bộ đáng kể về lượng VRAM cần thiết cho việc suy luận. Một lớp tối ưu hóa khác là tùy chỉnh phụ thuộc vào phần cứng. TensorRT của NVIDIA bao gồm một số tối ưu hóa, nhưng chỉ hoạt động trên phần cứng của NVIDIA. Cuối cùng, lập lịch các nhiệm vụ AI có thể tạo ra những hạn chế hoặc cải thiện hiệu suất đáng kể. Phân bổ các mô hình cho GPU một cách sao cho tối thiểu hóa việc trao đổi trọng số, lựa chọn GPU tốt nhất cho một nhiệm vụ nếu có nhiều GPU có sẵn, và tối thiểu hóa thời gian chết bằng cách tập trung công việc thành hàng trước đó là những kỹ thuật phổ biến.

Cuối cùng, tối ưu hóa mô hình vẫn còn là một nghệ thuật “đen tối” một chút, và phần lớn các startup mà chúng tôi trao đổi làm việc với bên thứ ba để hỗ trợ một số khía cạnh phần mềm này. Thường thì những công ty này không phải là nhà cung cấp MLops truyền thống, mà thay vào đó là những công ty chuyên về tối ưu hóa cho các mô hình sinh sản cụ thể (ví dụ: OctoML hoặc SegMind).

Chi phí hạ tầng trí tuệ nhân tạo (AI) sẽ tiến triển như thế nào?

Trong những năm gần đây, chúng ta đã chứng kiến sự tăng trưởng mạnh mẽ về số lượng tham số mô hình và khả năng tính toán của GPU. Tuy nhiên, chưa rõ liệu xu hướng này sẽ tiếp tục phát triển hay không.

Hiện nay, được rất công nhận rằng có một mối quan hệ giữa số lượng tham số tối ưu và kích thước tập dữ liệu huấn luyện (xem công trình Chinchilla của DeepMind để biết thêm chi tiết về điều này). Các mô hình ngôn ngữ (LLMs) tốt nhất hiện nay được huấn luyện trên Common Crawl (một bộ sưu tập gồm 4,5 tỷ trang web, tương đương khoảng 10% số trang web tồn tại trên Internet). Tập dữ liệu huấn luyện cũng bao gồm Wikipedia và một bộ sưu tập sách, tuy nhiên cả hai đều nhỏ hơn nhiều (tổng số sách tồn tại được ước tính chỉ khoảng 100 triệu quyển). Một số ý tưởng khác, chẳng hạn như chuyển âm thành văn bản hoặc chuyển đổi nội dung video, đã được đề xuất, nhưng không có ý tưởng nào có kích thước gần bằng với các tập dữ liệu hiện có. Chưa rõ liệu chúng ta có thể thu thập được tập dữ liệu huấn luyện phi tổng hợp có kích thước lớn gấp 10 lần so với những gì đã được sử dụng trước đây.

Tiến triển chi phí hạ tầng AI trong tương lai sẽ phụ thuộc vào nhiều yếu tố, bao gồm sự tiến bộ trong kiến trúc mô hình, sự có sẵn và kích thước của tập dữ liệu huấn luyện, và sự phát triển trong công nghệ phần cứng. Dự đoán chính xác về cách các yếu tố này sẽ tiến triển và tương tác là khó khăn, làm cho việc xác định động lực chi phí hạ tầng AI trong tương lai trở nên khó khăn.

Hiệu suất của GPU sẽ tiếp tục tăng, nhưng tốc độ tăng trưởng sẽ chậm hơn. Định luật Moore vẫn còn hiệu lực, cho phép sử dụng nhiều bóng bán dẫn và lõi xử lý hơn, nhưng công suất và I/O đang trở thành các yếu tố hạn chế. Ngoài ra, nhiều công nghệ tối ưu hóa dễ dàng đã được áp dụng.

Tuy nhiên, điều này không có nghĩa là chúng ta không kỳ vọng sự tăng cường nhu cầu về khả năng tính toán. Ngay cả khi mô hình và tập dữ liệu huấn luyện tăng trưởng chậm, sự phát triển của ngành công nghiệp trí tuệ nhân tạo và số lượng nhà phát triển AI tăng sẽ tạo nên nhu cầu về GPU nhanh hơn và mạnh mẽ hơn. Một phần lớn khả năng của GPU được sử dụng cho việc kiểm tra bởi các nhà phát triển trong giai đoạn phát triển mô hình, và nhu cầu này tăng theo tỷ lệ tuyến tính với số lượng nhân viên. Hiện chưa có dấu hiệu cho thấy tình trạng thiếu GPU hiện tại sẽ giảm trong tương lai gần.

Sự tăng chi phí cao này của hạ tầng AI có thể tạo ra một rào cản khiến cho các đối thủ mới không thể đuổi kịp các công ty đang có nguồn vốn mạnh? Chúng ta chưa biết câu trả lời cho câu hỏi này. Hiện nay, chi phí huấn luyện một LLM có thể tạo ra một rào cản, nhưng các mô hình mã nguồn mở như Alpaca hoặc Stable Diffusion đã cho thấy các thị trường này vẫn còn sơ khai và có thể thay đổi nhanh chóng. Theo thời gian, cấu trúc chi phí của các tầng phần mềm trí tuệ nhân tạo mới nổi (xem bài viết trước đây của chúng tôi) có thể trở nên giống hơn với ngành phần mềm truyền thống.

Cuối cùng, điều này sẽ là một điều tốt: Lịch sử đã chỉ ra rằng điều này dẫn đến hệ sinh thái sôi động với sự đổi mới nhanh chóng và nhiều cơ hội cho các nhà sáng lập doanh nghiệp.

Nguồn: Andreessen Horowitz

Post Views: 775

Tags: AI ChatGPT

Chi phí vận hành AI lớn đến mức nào?

Related Posts

AI 2027: Dự báo về tương lai siêu trí tuệ gần hơn bạn nghĩ

Cách chuyển hướng HTTP sang HTTPS và www sang non-www

Sự tăng trưởng người dùng của các mạng xã hội phổ biến tại Việt Nam tính đến đầu năm 2023

AI 2027: Dự báo về tương lai siêu trí tuệ gần hơn bạn nghĩ

Anh Đức

Categories

Liên kết

Navigate Site

Welcome Back!

Retrieve your password

Chi phí vận hành AI lớn đến mức nào?

Tại sao mô hình trí tuệ nhân tạo lại tốn nhiều tài nguyên tính toán?

Thảo luận về thời gian và chi phí cho GPU

Các yếu tố cần xem xét cho cơ sở hạ tầng AI

Cơ sở hạ tầng ngoại vi so với nội bộ

Đám mây so với việc xây dựng trung tâm dữ liệu

So sánh các nhà cung cấp dịch vụ đám mây.

So sánh các GPU

Tối ưu hóa và lập lịch mô hình

Chi phí hạ tầng trí tuệ nhân tạo (AI) sẽ tiến triển như thế nào?

Related Posts

AI 2027: Dự báo về tương lai siêu trí tuệ gần hơn bạn nghĩ

Cách chuyển hướng HTTP sang HTTPS và www sang non-www

Sự tăng trưởng người dùng của các mạng xã hội phổ biến tại Việt Nam tính đến đầu năm 2023

AI 2027: Dự báo về tương lai siêu trí tuệ gần hơn bạn nghĩ

Anh Đức

Categories

Liên kết

Navigate Site

Follow Us

Welcome Back!

Retrieve your password