-
Lee Min Ho xác nhận kết hôn vào tháng 5 -
Yamaha chính thức ra mắt "vua côn tay" 155cc mới giá 85 triệu đồng: Khắc chế cứng loạt xe của Honda -
Đây là chiếc iPhone tai thỏ giá rẻ đáng mua nhất tháng 4/2026, camera xịn hơn cả iPhone 17e -
Mẹ Hoa hậu Thùy Tiên đáp trả cực gắt trước chỉ trích: "Chắc vào cốc tu mới vừa lòng các bạn" -
Gemini đã nói Showbiz Việt trước lệnh cấm hát nhép: Cuộc "thanh lọc" nghệ thuật đầy khắc nghiệt -
Cà phê cả ngày: Nhóm khách ngồi 10 tiếng, quán phụ thu 40k/người gây tranh cãi -
Kia Seltos phiên bản 2026 chính thức ra mắt giá 544 triệu đồng: Thiết kế nét hơn Honda HR-V và Creta -
Bảng giá Galaxy S25 chính hãng tháng 4/2026: Rẻ nhất từ 12 triệu, Galaxy S25 Ultra rẻ áp đảo iPhone 17 -
Chiến dịch 5 tuần của Mỹ tại Iran: Những mục tiêu chiến lược còn dang dở của Washington -
Tân Hoa hậu Phan Phương Oanh tự lập từ năm 16 tuổi, công khai gu người yêu gây bất ngờ
Công nghệ
21/10/2025 15:33DeepSeek ra mắt bom tấn mới: "Mắt thần AI" DeepSeek-OCR, có thể đọc hiểu như con người, hiệu quả xử lý dữ liệu tăng đến 20 lần
Startup AI DeepSeek lại một lần nữa khiến thế giới công nghệ rung động khi ra mắt mô hình AI đa phương thức DeepSeek-OCR với khả năng sử dụng thị giác máy tính để "đọc" thông tin văn bản, giúp giảm đáng kể số lượng token cần xử lý mà vẫn giữ độ chính xác cao. Token là đơn vị văn bản nhỏ nhất mà mô hình AI xử lý, và việc giảm số token đồng nghĩa với tiết kiệm chi phí tính toán khổng lồ.
Thay vì xử lý văn bản theo cách đọc truyền thống, mô hình này chuyển đổi nội dung thành dạng hình ảnh và sử dụng khả năng nhận thức thị giác để nén thông tin. Cách tiếp cận này cho phép các mô hình ngôn ngữ lớn xử lý khối lượng văn bản khổng lồ mà không phải chịu chi phí tính toán tăng theo tỷ lệ thuận. Khả năng này cũng tương tự như việc đọc một trang sách của con người bằng cách nhìn vào toàn bộ đoạn văn hoặc trang sách thay vì đọc từng chữ.

Kết quả mà DeepSeek công bố thực sự ấn tượng khi mô hình có thể giảm số token từ 7 đến 20 lần so với phương pháp xử lý văn bản truyền thống, đây là bước tiến đầy hứa hẹn trong việc giải quyết thách thức về ngữ cảnh dài trong các mô hình ngôn ngữ lớn. Hơn thế nữa, mô hình này không chỉ đọc chữ, mà còn hiểu bố cục, liên kết, cấu trúc, nghĩa là ngữ nghĩa của trang tài liệu đó, bao gồm cả bảng biểu và hình ảnh bên trong.
Động thái này phù hợp với triết lý mà DeepSeek đã theo đuổi qua hai mô hình mã nguồn mở đột phá V3 và R1: nâng cao hiệu suất AI trong khi hạ thấp chi phí xây dựng và sử dụng. Về mặt kỹ thuật, DeepSeek-OCR bao gồm hai thành phần chính. Thành phần đầu tiên là DeepEncoder, động cơ cốt lõi duy trì mức kích hoạt thấp ngay cả khi xử lý đầu vào có độ phân giải cao, đồng thời đạt được tỷ lệ nén mạnh mẽ. Thành phần thứ hai là bộ giải mã DeepSeek3B-MoE-A570M, một mô hình Mixture-of-Experts với 570 triệu tham số có nhiệm vụ tái tạo lại văn bản gốc.
Kiến trúc Mixture-of-Experts hoạt động theo nguyên lý phân chia mô hình thành các mạng con chuyên xử lý một tập hợp con của dữ liệu đầu vào, giúp tối ưu hóa hiệu suất mà không cần kích hoạt toàn bộ mô hình. Ngoài khả năng xử lý các tác vụ thị giác tiêu chuẩn, DeepSeek-OCR còn phân tích được nội dung trực quan có cấu trúc phức tạp như bảng biểu, công thức toán học và sơ đồ hình học, mở ra tiềm năng ứng dụng trong lĩnh vực tài chính và khoa học.

Theo các bài kiểm tra chuẩn mà công ty công bố, khi tỷ lệ nén dưới mười lần, DeepSeek-OCR đạt được độ chính xác giải mã lên tới 97%. Thậm chí khi tỷ lệ nén lên tới 20 lần, mô hình vẫn ghi nhận độ chính xác khoảng 60%, cho thấy khả năng bảo toàn thông tin mạnh mẽ ngay cả trong điều kiện nén cực cao.
Trên bộ dữ liệu chuẩn OmniDocBench, DeepSeek-OCR vượt trội hơn các mô hình OCR chính như GOT-OCR 2.0 và MinerU 2.0 trong khi sử dụng ít token hơn nhiều. Cụ thể, DeepSeek-OCR chỉ cần khoảng 100 token hình ảnh cho mỗi trang, trong khi GOT-OCR 2.0 cần 256 token và MinerU 2.0 cần tới 6.000 token.
Điểm nổi bật nhất của DeepSeek-OCR chính là tốc độ xử lý đáng kinh ngạc. Mô hình có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày trên hệ thống tính toán chỉ với một card đồ họa NVIDIA A100-40G. Con số này mở ra khả năng mở rộng quy mô chưa từng có cho việc tạo dữ liệu huấn luyện mô hình ngôn ngữ lớn. Với DeepSeek-OCR, người dùng có thể xử lý ngữ cảnh cực dài một cách linh hoạt, trong đó nội dung gần đây được giữ ở độ phân giải cao, trong khi các ngữ cảnh cũ hơn tiêu thụ ít tài nguyên tính toán hơn.
Về mặt huấn luyện, mô hình được đào tạo trên tập dữ liệu khổng lồ gồm hơn 30 triệu trang PDF bằng 100 ngôn ngữ khác nhau, cùng 10 triệu mẫu OCR cảnh tự nhiên, 10 triệu biểu đồ, 5 triệu công thức hóa học và 1 triệu bài toán hình học.
Sự đa dạng này giúp mô hình không chỉ đọc văn bản thông thường mà còn hiểu và xử lý các sơ đồ khoa học và phương trình phức tạp. DeepEncoder, trái tim của hệ thống, là sự kết hợp giữa các backbone SAM và CLIP, được tăng cường bởi bộ nén tích chập 16 lần, biến hàng nghìn mảnh hình ảnh thành chỉ 100-200 token hình ảnh tinh gọn.

Mô hình còn có chế độ đa độ phân giải mở rộng từ 512x512 pixel lên tới 1280x1280 pixel, kết hợp các ô cục bộ với góc nhìn toàn cảnh để xử lý hóa đơn, bản vẽ kỹ thuật và báo giấy mà không cần đào tạo lại. Kiến trúc hai giai đoạn của DeepSeek-OCR thể hiện sự tinh tế kỹ thuật: DeepEncoder tạo ra các token, trong khi bộ giải mã Mixture-of-Experts xuất ra văn bản có cấu trúc dạng Markdown với khả năng xử lý đa ngôn ngữ.
Cần làm rõ một điểm quan trọng để tránh hiểu lầm. Mô hình này không tạo ra hoặc chỉnh sửa hình ảnh để lưu trữ dữ liệu bên trong chúng. Thuật ngữ nén quang học đề cập đến cách hiệu quả mà mô hình AI xử lý và biểu diễn thông tin trực quan từ hình ảnh hoặc tài liệu trong quá trình nhận dạng ký tự quang học.
Mô hình nhận đầu vào là hình ảnh như tài liệu được quét, trang PDF hoặc biểu đồ, sau đó nén các chi tiết trực quan thành số lượng nhỏ các token hình ảnh để AI hiểu và trích xuất nội dung. Việc nén này diễn ra bên trong quy trình xử lý nhằm làm cho nó nhanh hơn và hiệu quả hơn.
Động thái mới nhất với DeepSeek-OCR một lần nữa khẳng định cam kết của công ty trong việc đẩy mạnh hiệu suất AI trong khi giảm thiểu chi phí. Việc nén quang học có thể coi là giải pháp cho bài toán ngữ cảnh dài của các mô hình ngôn ngữ lớn. Hãy tưởng tượng một tài liệu có một triệu token được thu gọn thành bản đồ trực quan chỉ 100.000 token, mở đường cho thế hệ mô hình AI tiếp theo xử lý tài liệu như vỏ não thị giác được tăng cường.
Các ứng dụng tiềm năng của công nghệ này rất rộng lớn. Phân tích tài liệu trực tiếp, OCR theo luồng cho khả năng tiếp cận, và dịch thuật thời gian thực với ngữ cảnh trực quan giờ đây trở nên khả thi về mặt kinh tế. DeepSeek-OCR không chỉ là một nâng cấp OCR thông thường mà là sự thay đổi mang tính cách mạng trong cách máy móc nhận thức và xử lý dữ liệu, đánh dấu bước tiến quan trọng trong hành trình phát triển trí tuệ nhân tạo.
- Giá vàng tăng hơn 70% sau 1 năm, nhiều người quay lại tích sản: Chuyên gia cảnh báo sai lầm và ba nguyên tắc đầu tư vàng (1 giờ trước)
- Bắt thêm 7 người vụ cướp giật vàng tại Liên Hoa Bảo Tháp, đường dây dàn cảnh móc túi lộ phương thức hoạt động (1 giờ trước)
- Danh sách chủ tịch và phó chủ tịch khóa mới của 31 tỉnh, thành phố vừa được Thủ tướng phê chuẩn (2 giờ trước)
- Làn sóng "khai tử" ngành ngoại ngữ tại Trung Quốc: Sự thoái trào của kỹ năng thuần túy trước kỷ nguyên trí tuệ nhân tạo (2 giờ trước)
- "Tiểu Long Nữ" Lý Nhược Đồng cúi đầu xin lỗi, hứa hoàn tiền cho khán giả sau bê bối quảng cáo hàng giả (2 giờ trước)
- Cháu gái tỷ phú Malaysia kết hôn cùng hậu duệ đời thứ 76 của Khổng Tử, bất ngờ mối quan hệ trong gia phả (2 giờ trước)
- Lộ diện mặt trước siêu hot của iPhone 18 Pro Max, đây là cách nhận diện dễ nhất khi so với iPhone 17 Pro Max (3 giờ trước)
- Sốc: Điện thoại bẩn gấp 10 lần bồn cầu, bạn có biết đang cầm cả 'ổ vi khuẩn' trên tay mỗi ngày? (3 giờ trước)
- Khởi tố đối tượng đột nhập Thảo Cầm Viên Sài Gòn trộm thiên nga trắng (3 giờ trước)
- Tuyên án tù cho người phụ nữ dùng xyanua đầu độc nhân tình rồi lao xe xuống đèo (4 giờ trước)