Pages

Sunday, February 24, 2019

Overview of JETCAS Issue on Immersive Video Coding and Transmission (Part 1)

JETCAS issue on immersive video coding and transmission presents the latest developments in immersive video research. This blog summarizes the papers related to coding and transmission of 360-degree video, which is one of the most popular types of immersive media.

360-degree Video Coding

To provide an excellent immersive experience, 360-degree videos require extremely high resolution with high frame rate (4K/8K + 60/90 fps). As a result, 360 video require much higher bandwidth compared with conventional 2D video. Therefore, efficient compression technology is highly desirable for storage and transmission of 360 video.

The paper [1] proposes a hybrid Equirectangular-Cubemap projection that can achieve more uniform sampling and reduce the boundary artifacts across different faces. In addition, a set of coding tools that can make use of the spherical continuity in 360 video are proposed. The proposed algorithm can effectively reduce the BR-rate and the seam artifacts caused by discontinuous edge and frame boundary.

In [2], the projection format is customized based on the input video content. Especially, the hybrid angular cubemap (HAC) projection is utilized to adapt the the sampling within each face. Also, an adaptive frame packing technique is used to select the face arrangement in a frame. To alleviate the "face seam" artifacts in the rendered viewports, the relationship of samples and blocks in the spherical geometry is considered to improve intra/inter prediction and in-loop filters.

To address the deformation of video content caused by mapping from sphere to 2D plan, the paper [3] proposes a new motion model based on spherical coordinates transform. The proposed model is shown to be effective in improving the motion compensation/estimation in panoramic video coding.

360-degree Video Transmission

Though advanced coding technologies can significantly reduce the bitrate of 360 video, delivery of 360 video is still a challenging task due to limitations in network resources, as well as constraints imposed by en-user devices. Therefore, cost-effective delivery technology is necessary for the wide adoption of VR/AR applications.

In [4], we propose a server-based adaptation framework for 360 video streaming over networks. The proposed method utilizes tiling-based viewport adaptive streaming to reduce the required network bandwidth for 360 video. Also, the proposed tile selection algorithm can effectively deal with the user head movements within each video segment.

In tiling-based viewport adaptive streaming, it is important to tile the video in an effective manner. Conventionally, the video is divided into equal sized tiles. The paper [5] addresses this issue by considering the Visual Attention map. Especially, the video is divided in to non-overlapping variable sizes taking into account the Visual Attention map.

Effective viewport adaptation methods require accurate estimations of viewport positions. However, the large buffer size in HTTP Adaptive Streaming may severely affect viewport position estimation accuracy. Taking the idea of scalable video coding, [6] can reduce the client buffer size down to one segment duration by using a two-tier system. To achieve this feature, the whole video is encoded into a base tier, which is always delivered to the client, and multiple enhancement layers each corresponds to a viewport position.

In [7], the authors analyze the impact of the end-to-end delay to tile-based viewport adaptive streaming. It is found that the gain compared to viewport-independent approach drops to 8% for a delay of 1 second. To address this issue, the authors propose to combine viewport prediction with a velocity-based QP distribution.

To facilitate delivery of 360 video over wireless networks, the paper [8] proposes a pseudo-analog transmission framework called OmniCast. The proposed framework features a spherical domain power-distortion optimization framework and two adaptive block partitions algorithms. Experiment results shows that the proposed framework outperforms JPEG2000-based solution and the conventional Softcast.

The last paper [9] presents a real time 3D 360-degree telepresence system. To deal with the mismatch between the estimated and actual viewports caused by system delay, the proposed system uses cameras with a larger field of view than the visual field of the user. The level of delay compensation is improved with Gate Recurrent Units (GRU)-based head-motion prediction method.

References
[1] J. Lin et al., "Efficient Projection and Coding Tools for 360° Video," doi: 10.1109/JETCAS.2019.2899660
[2] P. Hanhart, X. Xiu, Y. He and Y. Ye, "360-degree Video Coding based on Projection Format Adaptation and Spherical Neighboring Relationship," doi: 10.1109/JETCAS.2018.2888960
[3] Y. Wang, D. Liu, S. Ma, F. Wu and W. Gao, "Spherical Coordinates Transform-Based Motion Model for Panoramic Video Coding," doi: 10.1109/JETCAS.2019.2896265
[4] D. V. Nguyen, H. T. T. Tran, A. T. Pham and T. C. Thang, "An Optimal Tile-based Approach for Viewport-adaptive 360-degree Video Streaming," doi: 10.1109/JETCAS.2019.2899488
[5] C. Ozcinar, J. Cabrera and A. Smolic, "Visual Attention-Aware Omnidirectional Video Streaming Using Optimal Tiles for Virtual Reality," doi: 10.1109/JETCAS.2019.2895096
[6] L. Sun et al., "A Two-Tier System for On-Demand Streaming of 360 Degree Video over Dynamic Networks," doi: 10.1109/JETCAS.2019.2898877
[7] Y. Sanchez, G. S. Bhullar, R. Skupin, C. Hellge and T. Schierl, "Delay Impact on MPEG OMAF’s tile-based viewport-dependent 360° video streaming," doi: 10.1109/JETCAS.2019.2899516
[8] J. Zhao, R. Xiong and J. Xu, "OmniCast: Wireless Pseudo-Analog Transmission for Omnidirectional Video," doi: 10.1109/JETCAS.2019.2898750
[9] T. Aykut, J. Xu and E. Steinbach, "Realtime 3D 360-degree Telepresence with Deep-learning-based Head-motion Prediction," doi: 10.1109/JETCAS.2019.2897220


 




Saturday, February 23, 2019

Tổng quan về hệ thống live video streaming (Phần 2)


Trễ trong hệ thống live streaming

Như đã phân tích trong phần 1, video sau khi thu phải trải qua các công đoạn nén (encoding), truyền (transmission), giải nén (decoding) trước khi được hiển thị lên màn hình của người dùng.  Thời gian cần để xử lý mỗi công đoạn trên gây ra trễ (delay) giữa thời gian thực tế của sự kiện và thời gian người dùng xem sự kiện. Các thành phần trễ chính trong hệ thống live streaming được chỉ ra trong hình trên. Ở đây, trễ được tính từ lúc một ảnh được đưa vào Encoder cho đến khi ảnh đó ra khỏi Decoder.

  1. Encoding delay: Đây là thời gian Encoder cần để nén một ảnh của video. Các Encoder sẽ có các lựa chọn về thời gian nén cho các ứng dụng khác nhau. Với cùng một mức chất lượng đầu ra, thời gian nén càng nhanh sẽ làm cho hiệu suất nén giảm và ngược lại. Thời gian thực tế để nén một ảnh phụ thuộc vào nhiều yếu tố, ví dụ như encoder được cài đặt trên phần mềm (software-based encoder) hay phần cứng (harward-based encoder), kích thước của ảnh, chất lượng đầu ra của ảnh. Các encoders nhanh nhất hiện nay có thể nén một ảnh dưới 1 mili giây.  
  2. Packetization delay: Như đã phân tích trong phần 1, việc truyền dữ liệu từ bên gửi đến bên nhận được thực hiện thông qua các giao thức streaming (streaming protocols). Bạn có thể xem các giao thức này như các công ty vận chuyển hàng hóa. Để có thể chuyển hàng đến đúng người nhận thì sau khi nhận hàng, các công ty này sẽ phải đóng gói, thêm địa chỉ người nhận/gửi rồi mới gửi đi. Công việc của các streaming ptococols cũng tương tự như vậy. Và việc đóng gói (Packetization) gây ra trễ trong hệ thống. Thời gian cho việc đóng gói này có thể chỉ vài mili giây (RTP, RTMP) nhưng cũng có thể lên đến vài giây (MPEG-DASH, HLS). 
  3. Transmission delay: Đây là thời gian để chuyển dữ liệu từ bên gửi đến bên nhận. Cũng tương tự như việc vận chuyển hàng hóa. Thời gian chuyền dữ liệu phụ thuộc vào 1) khoảng cách giữa bên gửi và bên nhận, 2) tốc độ của đường truyền, 3) đặc tính của giao thức truyền.
  4. Client buffering delay: Khi bạn bắt đầu nhấn nút play, các ảnh trong video được giải nén và hiện thị lên màn hình với tốc độ không đổi bằng frame rate của video. Do vậy, nếu một ảnh không đến được phía nhận trước thời gian nó phải được hiện thị, quá trình hiển thị video sẽ bị chậm, gây ra hiện tượng giật lag khi xem. Do mạng Internet không đảm bảo một băng thông cố định, thời gian truyền mỗi ảnh sẽ rất biến động. Do vậy, khả năng cao là người xem sẽ phải chứng kiến rất nhiều hiện tượng giật lag nếu việc hiển thị video được thực hiện ngay sau khi ảnh đầu tiên của video đến. Để xử lý vấn đề này, bên nhận sẽ không bắt đầu quá trình hiện thị video ngay khi ảnh đầu tiên đến, mà thay vào đó đợi cho đến khi một số lượng ảnh nhất định đã được nhận thì mới bắt đầu. Thời gian này gọi là "client buffering delay". Thời gian này có thể từ vài trăm mili giây đến vài giây, phụ thuộc vào từng hệ thống.
Các hệ thống live streaming có nhiều yêu cầu khác nhau về thời gian trễ.
  1. 1s-5s: Các ứng dụng như trực tiếp các sự kiện thể thao, tin tức yêu cầu trễ từ 1-5 giây. Điều này để đảm bảo rằng tín hiệu nhận được không bị chậm hơn tín hiệu trên tivi. Trung bình trễ trong các hệ thống truyền hình cáp là 5-6 giây. Với các dịch vụ OTT, đây sẽ là mục tiêu chính để có thể tiến tới thay thế hoàn toàn tivi.  
  2. 200ms-1s: Mức trễ này là yêu cầu đối với các ứng dụng như cá cược/đấu giá trực tuyến, camera giám sát.
  3. < 200ms: Các hệ thống tương tác như video call, cloud gaming, hay telepresence yêu cầu mức trễ này để có thể đảm bảo được chất lượng dịch vụ. Các hệ thống video call tốt nhất hiện nay (Google Hangout, Skype) có trễ gần với mức này. Các ứng dụng như cloud gaming hay telepresence yêu cầu trễ phải dưới 100ms. Các công nghệ, kỹ thuật mới là rất cần thiết để có thể đảm bảo được mức trễ này. 





Sunday, February 17, 2019

Tổng quan về hệ thống live video streaming (Phần 1)


Live video streaming là gì?

Live video streaming là hệ thống giúp bạn xem trực tiếp bóng đá, tivi, concert qua mạng Internet, gọi video call cho bạn bè qua Skype, Facebook Messenger, hay điều khiển robot từ xa (telepresence).

Hai vấn đề chính với hệ thống live streaming?

1. Tín hiệu nhận từ hệ thống live streaming bị chậm hơn so với tín hiệu trên tivi: Bạn hẳn sẽ rất khó chịu khi nhà bên cạnh đã hò hét ầm ĩ khi có bàn thắng trong khi tỷ số trên màn hình máy tính của bạn vẫn là 0-0.

2. Bị dừng hình trong lúc đang xem (buffering): Vấn đề này gây ra do hệ thống không thích ứng được sự biến động đường truyền Internet , đặc biệt là trong các trường hợp dùng Wifi hay mạng di động.

Hệ thống live streaming hoạt động như thế nào?

Trước hết, các bạn cần phải hiểu một số khái niệm, thành phần cơ bản cho việc truyền video qua mạng Internet.

1. Video Capturing (Thu video): Việc thu video được thực hiện bằng việc chụp các ảnh liên tiếp nhau. Phổ biến nhất hiện nay là 30 hoặc 60 ảnh trên 1 giây (30/60fps). Bạn có thể thu video từ camera của smartphone, webcam của laptop, hay từ các máy quay chuyên nghiệp.

2. Video encoding/decoding (Nén/giải nén video): Video gốc thường chứa rất nhiều thông tin dư thừa, ví dụ như hai ảnh  liên tiếp nhau thường có rất nhiều phần giống nhau, thậm chí trong cùng một ảnh cũng có những phần giống nhau. Ngoài ra, có rất nhiều thông tin trong video mà mắt con người không phân biệt được. Những đặc tính này được sử dụng để làm giảm kích thước của video gốc thông qua loại bỏ các thông tin dư thừa. Quá trình này được gọi là nén video. Các công cụ tốt nhất hiện nay có thể làm giảm kích thước của video gốc vài trăm lần. Video với độ phân giải HD sau khi nén  có bitrate từ 6Mbps-10Mbps (Bitrate: số lượng dữ liệu tính theo bit có trong 1 giây video). Giải nén video là quá trình khôi phục lại video gốc từ video đã được nén. Việc này sẽ được thực hiện ở phía nhận tín hiệu, cụ thể các trình duyệt Web hoặc các Mobile apps sẽ chịu trách nhiệm việc này.

3. Protocol (Giao thức): Protocol là ngôn ngữ mà các máy tính dùng để giao tiếp với nhau. Cụ thể, thì nó là một tập hợp các quy tắc, định dạng, và hành động để truyền dữ liệu từ máy tính này đến  máy tính khác. Có rất nhiều giao thức được sử dụng cho nhiều mục đích khác nhau. Bài này sẽ chỉ tập trung vào các giao thức để truyền video.

Hình 1: Các thành phần của hệ thống live streaming.

Hệ thống live streaming hoạt động như sau:
1. Camera thu video sau đó chuyển cho Encoder
2. Encoder nén video rồi chuyển cho Sender
3. Sender sẽ gửi video đã được nén đến bên nhận Receiver
4. Receiver nhận video rồi chuyển cho Decoder
5. Decoder sẽ giải nén video và sau đó video sẽ được hiển thị lên màn hình người dùng.

Chú ý rằng camera sẽ gửi dữ liệu đến Encoder sau khi thu được một số lượng ảnh nhất định. Các Encoder phổ biến hiện nay bao gồm x264, x265, và OBS. Để phù hợp với live streaming, các encoders hiện nay thường được cài đặt trên phần cứng (hardware-based encoding). Tương tự như vậy, việc giải nén video ở phía nhận cũng có thể được chuyển lên phần cứng để tăng tốc độ.

Việc truyền dữ liệu từ Sender đến Receiver được thực hiện thông qua các giao thức truyền video như HLS, MPEG-DASH, RTMP, RTP/RTSP. RTMP (phát triển bởi Adobe) vẫn đang là lựa chọn phổ biến cho hệ thống live streaming vì nó có thể đảm bảo được trễ thấp. HLS và MPEG-DASH là hai giao thức phổ biến cho trường hợp truyền on-demand (không trực tiếp). Tuy nhiên, nhiều kỹ thuật để giảm trễ cho HLS/MPEG-DASH đã và đang được triển khai.

Việc chạy video ở phía nhận hiện nay phổ biến nhất là sử dụng HTLM5 Video Tag vì nó cho phép chạy video ngay trong trình duyệt web mà không cần cài đặt thêm các plugin bên ngoài như Flash, VLC.

Phần tới sẽ phân tích về trễ của hệ thống live streaming so với hệ thống truyền hình.


Wednesday, February 13, 2019

Nhật ký xin việc (kỳ 1)


--- Thời gian biểu xin việc tại Nhật ----
  • Tháng 3 - Tháng 5: Các công ty bắt đầu cho entry, i.e, đăng ký thông tin cá nhân. Thông thường sẽ có hai dạng: 1. Đăng ký trực tiếp trên trang web công ty. 2. Đăng ký qua các trang xin việc như https://job.mynavi.jp
  • Tháng 3 - Tháng 5: 企業説明会: Giới thiệu về công ty. Hình thức phổ biến nhất là các job fairs, ngoài ra cũng sẽ có những công ty tổ chức ngay tại công ty đó. Nội dung chính là giới thiệu về công ty, và kế hoạch tuyển dụng.
  • Giữa tháng 3 - tháng 5: Các công ty bắt đầu nhận hồ sơ xin việc. Hồ sơ sẽ bao gồm sơ yếu lí lịch, thông tin PR bản thân, lý do lựa chọn công ty đó, việc muốn làm sau khi vào công ty. Sẽ có nhiều yêu cầu khác phụ thuộc vào từng công ty.
  • Tháng 6 - tháng 9: Kiểm tra năng lực và phỏng vấn. Giai đoạn này sẽ có nhiều phần: Coding, Aptitude Test, Situation Test, etc. Các công ty sẽ sử dụng các thứ tự khác nhau.
  • Tháng 10~: Nhận offer.
*Lưu ý:
  • Trong số các research labs của các công ty lớn (NTT, Toshiba, Hitachi, Panasonic, NEC, IBM Japan), NTT Research bắt đầu sớm nhất, nhận hồ sơ từ tháng 1.
  • Nhiều công ty hiện nay tuyển dụng quanh năm, bạn có thể tìm các jobs đang mở trên các trang như LinkedIn, Glassdoor, Wantedly. Đây là hai trang chuyên cho sinh viên PhD: JREC-IN, Wakate-engine.  

--- Tham gia Job Fairs ---

Mục đích tham gia job fairs là để tìm hiểu thông tin về công ty đó. Hình thức chính sẽ là các công ty làm presentation về công ty họ, sau đó sẽ cho thời gian để mình đặt câu hỏi.

Nếu bạn muốn tìm R&D jobs, phải chú ý khi một công ty đề cập đến cả việc làm Sytem Integrator (phần mềm) và R&D. Khi đó, cần hỏi rõ xem cụ thể phần SI chiếm bao nhiêu phần trăm, phần R&D chiếm bao nhiêu phần trăm. Các công ty nhỏ thì có thể trong phần giới thiệu công ty thì họ có đề cập đến việc R&D, rất nhiều nhân viên cũng là PhD/Master students, nhưng có thể chỉ là để PR.

Để tìm hiểu xem cụ thể công ty ấy làm gì, điểm mạnh và điểm yếu là gì, ngoài trang homepage của công ty đó, bạn nên tham khảo các trang web cung cấp feedbacks của nhân viên như: Glassdoor, Vorkers.

--- Làm hồ sơ xin việc ---

Một số câu hỏi thường gặp trong hồ sơ xin việc:

  • Hãy cho biết việc mà bạn đã dành nhiều công sức nhất trong thời gian đi học? Từ đó bạn học được những gì?
  • Điểm mạnh của bạn là gì?
  • Những kĩ năng chuyên môn của bạn là gì?
  • Tại sao bạn lại chọn công ty chúng tôi?
  • Bạn muốn làm gì sau khi vào công ty?
  • Hãy cho biết tin tức gần đây về công ty chúng tôi mà bạn quan tâm? Nêu lý do 

Để trả lời các câu hỏi trên bạn phải tìm hiểu kỹ về công ty định apply, trả lời được các câu hỏi sau sẽ giúp bạn hiểu rõ hơn về một công ty.

  • Vision của công ty là gì?
  • Công ty nằm ở sector nào? industry nào? 
  • Mô hình kinh doanh chính (business model) của công ty là gì?
  • Điểm mạnh của công ty là gì?
  • Các nhân viên của công ty này nói gì?


--- Phỏng vấn ---

Nội dung phỏng vấn của cty WAP cho vị trí AI Research Engineer

Phần 1: Hỏi đáp (15 phút)
 - Hãy giới thiệu ngắn ngọn về bản thân bạn?
 - Bạn đang làm nghiên cứu về topic nào? vấn đề mấu chốt là gì? làm cách nào để bạn giải quyết nó?
 - Bạn có kinh nghiệm gì về AI/ML?
 - Ngôn ngữ lập trình nào bạn thành thạo nhất? bạn bắt đầu lập trình từ khi nào?
 - Bạn đã từng tham gia vào các cuộc thi IT/programming nào?
 - Bạn đã từng tham gia vào hoạt động ngoại khóa nào?
 - Nghiên cứu của bạn có thể áp dụng được vào xử lý ngôn ngữ tự nhiên không?
 - Bạn có câu hỏi gì không?

Phần 2: Coding (45 phút)
 - Người phỏng vấn sẽ đưa ra một bài toán, yêu cầu mình phải viết code (trên bảng) để giải bài toán đó.
 - Yêu cầu là phải tìm ra thuật toán với độ phức tạp tính toán nhỏ nhất. Người phỏng vấn sẽ yêu cầu bạn xác định độ phức tạp tính toán của thuật toán mình viết, e.g., O(n).

Đề bài:
Cho hai dãy số tự nhiên bất kỳ, viết thuật toán đề tìm giá trị tuyệt đối nhỏ nhất của hiệu hai phần tử bất kỳ từu hai dãy số trên.

Ví dụ:
a  = [1 3 15 11]
b = [8 6 10 2]
output: 1

*Google cũng dùng cách này khi phỏng vấn:
link1: https://www.youtube.com/watch?v=uQdy914JRKQ
link2: https://www.youtube.com/watch?v=XKu_SEDAykw

* Trang này tập hợp bài test coding của rất nhiều công ty
https://practice.geeksforgeeks.org/company-tags



Sunday, February 10, 2019

Tech news (Week #6)

YouTube giới thiệu tính năng mới cho phép các nhà tạo nội dung (creators) kết hợp spatial audio với stereo audio. Người xem có thể sử dụng tính năng mới này trên trên ứng dụng YouTube mobile hoặc trên trình duyệt web. Spatial audio (3D audio) là tổng hợp của tất cả các âm thanh đến từ tất cả các hướng mà con người có thể nghe được, đây là dạng tự nhiên của âm thanh mà chúng ta vẫn nghe hàng ngày. Spatial audio là một thành phần quan trọng trong hệ thống thực tế ảo (Virtual Reality). Một trong những thử thách lớn trong việc tạo nội dung VR là việc thiết kế âm thanh (sound design) và tạo âm thanh 3D (spatial audio production). Với các nhà thiết kế âm thanh, nhiệm vụ quan trọng là phải kết hợp chính xác âm thanh trong không gian ba chiều với các vật thể trong video. Các nguồn âm thanh từ các vật thể trong video được gọi là "diegetic sound source". Bên cạnh đó, có những nguồn âm thanh không đến từ những vật trong video, ví dụ như nhạc nền và được gọi là "non-diegetic sound source". Hệ thống spatial audio rendering trong VR cần tái tạo một cách chính xác ý định của người thiết kế âm thanh. Để là được điều này, YouTube sử dụng hai thuật toán riêng biệt cho hai nguồn âm thanh (diegetic và non-diegetic).

Hulu giới thiệu tính năng Pause Ad với mục tiêu nhằm cải thiện trải nghiệm cho người dùng và tăng tính hiệu quả cho các nhãn hàng (brands). Với tính năng này, quảng cáo sẽ được hiển thị khi người dùng tạm dừng chương trình đang xem, thay vì hiển thị khi chương trình đang chạy như trước đây. Nghiên cứu của Hulu cho thấy rằng người dùng bây giờ khó chấp nhận quảng cáo khi đang xem chương trình. Vì vậy, tính năng mới này sẽ mang đến trải nghiệm tốt hơn cho người xem, đồng thời tăng tính hiệu quả cho các quảng cáo. Cách thức tiến hành quảng cáo mới này đang trong quá trình thử nghiệm với hai nhãn hàng lớn là Cocacola và Charmin.

[1] https://youtube-eng.googleblog.com/2018/12/add-stereo-music-or-narration-to-vr.html
[2] https://www.hulu.com/press/hulu-update/hulu-unveils-new-pause-ad-experience/



Friday, February 1, 2019

Tech news (Week #5)

Xu thế phát triển của trí tuệ nhân tạo Artificial Inteligent (AI)

Báo cáo mới nhất từ tổ chức sở hữu trí tuệ thế giới (WIPO) cho chúng ta biết về tình hình hiện tại và xu thế phát triển của AI
- AI đang đi từ nghiên cứu đến thực tiễn rất nhanh. Tỷ lệ công bố khoa học trên bằng sáng chế về AI đã giảm từ 8:1 vào năm 2010 xuống còn 3:1 vào năm 2016.
- Machine learning là công nghệ được chú trọng nhất, được đề cập đến trong hơn một phần ba số AI-related patents. Trong các kỹ thuật ML, deep learning và neural network là hai công nghệ có số lượng patent nhiều nhất. Deep learning là công nghệ phát triển nhanh nhất với số lượng patent tăng hơn 130% mỗi năm.
- computer vision là ứng dụng phổ biến nhất của AI với hơn một nửa số patent. Theo sau là robotics và các hệ thống điều khiển.
- AI đang phát triển mạnh nhất trong lĩnh vực telecommunication (15% số patent), tiếp theo là vận tải (15%), y tế (12%), tương tác người máy (Human-Computer Interaction).
- Phần lớn các patent được đăng ký bởi các công ty từ Mỹ, Nhật, và Trung Quốc. IBM sở hữu số patent nhiều nhất(~8000), theo sau là Microsoft (~6000). Ba công ty còn lại trong top 5 là Toshiba, Samsung, NEC với khoảng 5000 patents.
- Trung quốc có đến 17 trong top 20 trường đại học và các tổ chức nghiên cứu có nhiều patents nhất. Đứng đầu là Chinese Academy of Science, thứ hai là ETRI (Hàn).
- Khó khăn chính cho các start-up
 Phần lớn các startup hiện tại đang tập trung vào "vertical applications", tức là tìm các vấn đề yêu cầu đánh giá của con người, sử dụng các công nghệ AI để tìm ra giải pháp tự động hoá. các lĩnh vực tiềm năng là chế tạo, dịch vụ, bán lẻ. Tuy nhiên,  vốn đầu tư cho các startup hiện tại vẫn đang còn thiếu.
- Vấn đề công nghệ với AI
 các công nghệ AI hiện tại đang cần rất nhiều dữ liệu để training .  Tuy nhiên, rất nhiều vấn đề thực tế không có nhiều data. Ví dụ nếu muốn sử dụng AI để phát hiện sai sót trong sản phẩm, bạn phải có khả năng train với 100 hoặc thậm chí 10 mẫu. Đây vẫn là một thử thách lớn cho AI.




Vimeo thúc đẩy chiến lược "Push to social"

Vimeo thông báo rằng người dùng bây giờ có thể chia sẻ video trên Vimeo tới LinkedIn với chỉ một vài lần click chuột. Đây là bước tiếp theo trong chiến lược "Push to Social" mà dịch cụ chia sẻ video này đang theo đuổi. Bắt đầu từ năm 2017 bằng việc cung cấp dịch vụ live streaming,  "Push to Social" cho phép người dùng của Vimeo đưa video lên các mạng xã hội một cách dễ dàng. Vimeo hiện tại đang hỗ trợ Facebook, Youtube, Twitter và gần nhất là LinkedIn.

Lịch sử hình thành và phát triển của Vimeo:
Ra đời năm 2007, Vimeo là dịch vụ upload và chia sẻ video cho các nhà làm phim độc lập (indie filmmakers). Khác với Youtube, video trên Vimeo không có quảng cáo, nhưng bạn phải trả tiền hàng tháng. Số lượng videos có thể upload cũng bị hạn chế.  Điểm mạnh của Vimeo là nó hỗ trợ creators tạo ra video chất lượng cao (nhiều người có thể cùng edit một video, chất lượng hình ảnh được nâng cao với các công nghệ như HDR)

References
[1] WIPO Technology Trends 2019: Artificial Intelligence, https://www.wipo.int › wipo_pub_1055
[2]
http://www.streamingmedia.com/Articles/Editorial/Featured-Articles/How-Vimeo-Pivoted-Away-From-Original-Content-and-Found-its-Niche-129733.aspx



Năm 2022 nhìn lại

Một năm bận rộn cũng sắp kết thúc. Để bố kể cho Sóc nghe về năm nay của nhà mình nhé. Nửa đầu năm là thời gian mà cả bố mẹ đều lao đầu vào c...