Guía del ingeniero para la IA integrada

3 consejos que nadie te dice para tu examen de ingreso a la universidad (Junio 2019).

$config[ads_text] not found
Anonim

Se están haciendo disponibles muchos recursos para ayudar a los ingenieros a explorar cómo aprovechar el nuevo mundo del aprendizaje profundo en sus diseños con restricciones de energía.

Por Rick Merritt, Jefe de la Oficina de Silicon Valley, EE Times

Si está buscando dar los primeros pasos en el bosque del aprendizaje profundo, no está solo y hay muchos recursos.

Las redes neuronales profundas son esencialmente una nueva forma de computación. En lugar de escribir un programa para ejecutar en un procesador que escupe datos, usted transmite datos a través de un modelo algorítmico que filtra los resultados.

El enfoque comenzó a llamar la atención después del concurso 2012 de ImageNet, cuando algunos algoritmos ofrecían mejores resultados que los humanos para identificar imágenes. La visión por computadora fue el primer campo en sentir un gran impulso.

Desde entonces, los gigantes de la web como Amazon, Google y Facebook han comenzado a aplicar el aprendizaje profundo al video, el habla y la traducción, en cualquier lugar donde tenían grandes conjuntos de datos que podían combinar para encontrar nuevas perspectivas. Recientemente, el CEO de Google, Sundar Pichai, dijo que las técnicas son tan fundamentales como el descubrimiento de la electricidad o el fuego.

El fuego se ha propagado rápidamente. El año pasado, más de 300 millones de teléfonos inteligentes se enviaron con alguna forma de capacidad de red neuronal; 800, 000 aceleradores de inteligencia artificial (AI) se enviarán a centros de datos este año, y cada día, 700 millones de personas usan algún tipo de asistente personal inteligente como Amazon Echo o Siri de Apple, dijo CC Wei, co-director ejecutivo del fabricante de chips TSMC. . Llamó hoy a AI y 5G los dos controladores de la industria de los semiconductores.

Entonces, si está considerando su primer diseño de placa o SoC para AI, tiene mucha compañía. Y hay mucha ayuda.

Se dice que hasta 50 compañías están vendiendo o preparando algún tipo de aceleradores de silicio AI. Algunos son bloques de IP para SoCs, algunos son chips, y algunos son sistemas.

Pero hay algunos pasos importantes antes de comenzar a clasificar lo que Jeff Bier, fundador de Embedded Vision Alliance, llama "una explosión cámbrica" ​​de nuevos productos de IA.

Primero, mida dónde se encuentra su aplicación en el amplio espectro de requisitos de rendimiento de AI. Esto le ayudará a eliminar rápidamente muchas opciones de silicio y software, y se centrará en los pocos que mejor se adapten a sus tareas.

En un extremo, los autos sin conductor necesitan clasificarse a través de múltiples cámaras, radares, lidares y otros sensores para tomar decisiones de conducción en tiempo real. Necesitan una red de aceleradores dedicados.

En el otro extremo, las redes de sensores en un campo agrícola solo deberían detectar e informar un cambio significativo en la humedad del suelo, arrojando goteo de datos cada hora o incluso a diario hasta que ocurra un cambio. Una entrada con un microcontrolador Arm Cortex-M ejecutando su biblioteca CMSIS-DSP puede ser suficiente aquí, dijo Bier.

Jeff Bier es el fundador de Embedded Vision Alliance.

El siguiente paso es seleccionar y entrenar el modelo de red neuronal correcto a partir de una sopa de opciones de alfabeto. Dos de los más populares son las redes neuronales convolucionales (CNN), generalmente para imágenes, y las redes neuronales recurrentes (RNN), por lo general para voz y audio. Sin embargo, los científicos de datos están lanzando nuevas variantes e híbridos casi a medida que aumentan los casos de uso.

La buena noticia es que los investigadores a menudo hacen que sus últimos algoritmos estén disponibles gratuitamente a través de documentos técnicos, con la esperanza de que ganen tracción. También se pueden encontrar modelos a través de los marcos de software de AI que los gigantes de la web mantienen y promueven, como Amazon MxNet, Google's TensorFlow, Facebook Caffe2 y Microsoft CNTK 2.0.

Luego, necesita encontrar los conjuntos de datos apropiados para su aplicación, etiquetarlos y usarlos para entrenar el modelo algorítmico que ha seleccionado. Algunos conjuntos de datos están disponibles en el dominio público, pero para obtener los mejores resultados, puede necesitar crear, o al menos adaptar, uno para sus necesidades.

Compañías de servicios como Samasource e iMerit están surgiendo para ayudar con el arduo trabajo de curar y etiquetar grandes conjuntos de datos. Los gigantes de la web como Amazon, Google y Microsoft también tienen herramientas para que comiences con la esperanza de que uses sus servicios en la nube para entrenar y ejecutar tus modelos.

Puede profundizar en los detalles en programas de educación en vivo y en línea. Por ejemplo, el Embedded Vision Summit anual de Bier ejecuta un curso de capacitación de un día sobre TensorFlow, uno de los marcos de AI más populares. Startup Fast.ai también ejecuta una serie de cursos en línea .

Se espera que Arm envíe y proporcione detalles este verano de su núcleo ML genéricamente llamado. Fuente de la imagen: Arm.
Elegir el silicio correcto
Muchas aplicaciones pueden no requerir ningún silicio especial si obtiene el software correcto. Los chips existentes como Snapdragon de Qualcomm pueden ofrecer "un rendimiento tremendo en trabajos de IA si sabes lo que estás haciendo", dijo Bier.

En abril, Qualcomm lanzó sus chips QCS603 y QCS605 y software relacionado, diseñados para llevar las capacidades de IA al IoT. Son esencialmente variaciones de Snapdragon SoC con algunas versiones que admiten vidas extendidas para usuarios industriales.

NXP hizo una demostración en enero de sus SoC i.MX ejecutando aplicaciones de aprendizaje profundo en un prototipo de microondas y refrigerador inteligentes. La demostración de FoodNet mostró que los chips tenían hasta 20 clasificadores y manejaban operaciones de inferencia en 8 a 66 milisegundos usando una combinación de bloques GPU existentes y núcleos Arm Cortex-A y -M.

Dicho esto, NXP, al igual que muchos proveedores de chips integrados, espera asociarse pronto con fabricantes de acelerador de terceros. Eventualmente, pretende ofrecer sus propios bloques de aceleradores de IA.

QuickLogic está un paso adelante. Anunció el 4 de mayo su plataforma Quick AI, emparejando sus chips EOS S3 utilizados en altavoces inteligentes con un chip acelerador de AI de Nepes Corp. Software de dos terceros ayuda a personalizar algoritmos y capacitarlos en el campo para usos tales como sistemas de visión de fábrica, mantenimiento predictivo y drones.

Desde 2016, los proveedores establecidos y de inicio de chips y de IP anuncian aceleradores de inteligencia artificial, muchas de sus piezas están disponibles ahora. En general, han agregado unidades enteras a bloques GPU o unidades SIMD extendidas en núcleos DSP, dijo Linley Gwennap de The Linley Group.

Más recientemente, el TPU interno de Google dejó en claro que el aprendizaje profundo necesita aceleradores del álgebra lineal, por lo general en forma de grandes matrices de acumulación múltiple (MAC) con mucha memoria. Algunos dispositivos están agregando hardware para aspectos específicos de redes neuronales como activaciones y puesta en común, dijo Gwennap.

Muchas opciones hechas en China
EE Times ha rastreado a más de 20 compañías que trabajan en aceleradores de AI de clientes hasta la fecha. Hay muchos más. En un informe de julio de 2017 de China, donde las startups de AI están en boga, el emprendedor en serie Chris Rowen informó sobre varios de los cuales aún no habíamos oído hablar, incluyendo DeepGlint, Emotibot, Megvii, Intellifusion, Minieye, Momenta, MorphX, Rokid, SenseTime y Zero Zero Robotics en visión y AISpeech, Mobvoi y Unisound en audio.

Un puñado de compañías en China vale la pena considerarlo.

Horizon Robotics es uno de los más interesantes. Fundado por un puñado de expertos en inteligencia artificial de Baidu y Facebook, ya está enviando dos chips comerciales de 40 nm, así como cámaras y subsistemas ADAS que los utilizan. Ha recaudado más de $ 100 millones en capital de riesgo para alimentar una hoja de ruta que incluye chips de 28 y 16 nm.

Bier dijo que "vio algunas demostraciones muy impresionantes" de la "compañía de dos años que se está moviendo muy rápido", lo que las convierte en una de las cuatro startups de IA que recomienda.

Otro de los favoritos de Bier es NovuMind, en parte porque su fundador, Ren Wu, es uno de los pocos tecnólogos con una larga trayectoria tanto en IA como en diseño de procesadores. Su NovuTensor de 28 nm tiene como objetivo entregar 15 tera operaciones / segundo (TOPS) a menos de 5 W, y se está preparando un seguimiento de 16 nm.

Dos startups de China obtuvieron sus núcleos de inteligencia artificial diseñados en teléfonos inteligentes de gigantes de dispositivos.

Un bloque de IA de Cambricon alimenta el teléfono Kirin 970 de Huawei. A principios de mayo, la compañía anunció su núcleo de 1M que promete hasta 5 TOPS / W para teléfonos, altavoces inteligentes, cámaras y automóviles. También anunció el MLU100, un acelerador de centro de datos que engulle 110 W.

El chip Aristotle de DeePhi utiliza una arquitectura híbrida de CPU / GPU. Fuente de la imagen: DeePhi.
DeePhi de Beijing tiene un núcleo de IA diseñado en Exynos 9810 de Samsung y el teléfono Galaxy S9. La startup lanzó su chip Aristotle para CNN y el chip Descartes para RNN junto con placas adaptadas para cámaras, automóviles y servidores. Rowen los considera "una de las startups de aprendizaje profundo más avanzada e impresionante" de China.

Chris Rowen es un emprendedor en serie que se adentra en la IA.
Rowen también recomienda a Megvii, con sede en Beijing. La tecnología de reconocimiento facial Face ++ de la startup aprovecha la base de datos de caras del gobierno chino, también utilizada por AliPay de Alibaba. También está aprovechando su valuación de miles de millones de dólares para ayudar a migrar su tecnología basada en la nube a dispositivos integrados, dijo Rowen.

Competencia calentada en núcleos
De vuelta en los Estados Unidos, Intel ha estado haciendo un gran trabajo tratando de mantenerse al borde del silicio de IA. Su adquisición en 2016 de Movidius está orientada a sistemas de clientes con chips que ya aparecen en múltiples drones de DJI y cámaras de seguridad. Ha lanzado múltiples generaciones de chips, y Gwennap espera que se reduzca a un núcleo y aparezca en los chipsets de PC en los próximos años.

Si está diseñando su propio SoC, hay muchos núcleos de AI disponibles. Irónicamente, Arm, que domina el procesador IP, será uno de los últimos en ingresar al campo de la IA cuando libere su núcleo ML este verano, pero el Proyecto Trillium Arm, anunciado en febrero, sugiere que su oferta será amplia y profunda.

Cadence, Ceva, Imagination, Synopsys y VeriSilicon tienen múltiples núcleos de AI disponibles, en algunos casos, durante casi dos años. Han hecho que el espacio sea altamente competitivo y rico con opciones en diferentes niveles de rendimiento usando diversas arquitecturas.

Ceva proporciona un conjunto de cuatro núcleos de AI para diferentes casos de uso. Fuente de la imagen: Ceva.
Nvidia es un caballo oscuro aquí. Domina el mercado del entrenamiento basado en la nube con sus voluminosas GPU Volta V100 anunciadas en mayo de 2017 . Pero también quiere entrar en autos sin conductor con su chip Xavier a finales de este año.

En un esfuerzo por superar la dura competencia, Nvidia creó el código abierto de Xavier IP bajo el nombre NVDLA. Se están diseñando múltiples chips con el IP, pero ninguno ha sido anunciado, dijo un ejecutivo de Nvidia en marzo .

El espacio automotriz es especialmente competitivo. Intel adquirió Mobileye para chips de IA en automóviles y está trabajando estrechamente con fabricantes de equipos originales, incluido BMW . Una gran cantidad de nuevas empresas se centran en el sector, incluido AImotive, que actualmente está diseñando un chip de prueba para funcionar en su propia flota de automóviles.

Otra media docena de nuevas empresas
Para aquellos con el estómago para trabajar con una startup, hay muchos otros hambrientos por ahí.

GreenWaves está aprovechando los proyectos de código abierto RISC-V y PULP para entregar GAP8, un chip de 55 nm que se anunció en 2016 y planea entregar 12 GOPS a 20 mW y 400 MHz. Su objetivo es liderar el consumo de energía para dispositivos IoT, pero no espera producción en volumen hasta fin de año.

Videantis de Alemania está otorgando licencias para un núcleo de inteligencia artificial para sistemas de visión. Su objetivo es entregar a 16 nm un rango de 0.1 tera de acumulaciones múltiples / segundo (TMAC / s) para dispositivos de ultra bajo costo a 36 TMAC / s para dispositivos de alto rendimiento que utilizan una arquitectura multicore VLIW / SIMD DSP.

ThinCI detalló su procesador gráfico de flujo continuo para visión y sistemas ADAS en Hot Chips en agosto pasado, pero dijo que aún no lo había grabado. La compañía ya está trabajando con el inversor y socio Denso en un sistema que espera se integre en los modelos del 2020.

Bier dice que otro de sus favoritos es Mythic, aplicando una arquitectura de procesador en memoria de diez años a AI . Promete un gran salto en el rendimiento / vatio, pero no se espera que las piezas estén en producción hasta finales de 2019.

Un grupo de ex-ingenieros de silicio de Google formaron la startup Groq con un sitio web que reivindica un procesador de inferencia capaz de 8 TOPS / W y 400 TOPS / s, que se lanzará en algún momento de este año. Hasta el momento, la compañía no ha concedido ninguna entrevista.

Esperanto anunció en noviembre que planea tomar una hoja de papel para el desafío de la IA usando núcleos RISC-V. Al igual que muchas nuevas empresas, incluye un equipo de ingenieros veteranos de microprocesadores ansiosos por asumir un desafío histórico, pero no proporciona un margen de tiempo para la entrega de silicio.

Dos startups estrechamente vigiladas planean diseñar chips pero venden sistemas, probablemente dirigidos a empresas que desean ejecutar trabajos de inteligencia artificial en sus nubes privadas.

La arquitectura de flujo de datos de Wave Computing es una combinación natural para los algoritmos de inteligencia artificial, dijo Bier. Sin embargo, no parece abordar los sistemas integrados, especialmente dado el uso de chips de la memoria HBM2 que consume mucha potencia y sus planes para dispositivos Linux de 3U.

Del mismo modo, SambaNova salió de modo sigiloso en marzo con un equipo de dos tecnólogos de Stanford y un ex diseñador de procesadores SPARC en Sun Microsystems. Si bien los planes aún son incompletos, una conferencia de abril por parte de su CEO sugirió que competirá con Wave para entregar dispositivos de inteligencia artificial para los usuarios empresariales.

Ambas empresas finalmente pueden convertir chips o tecnología de licencia para sistemas integrados, por lo que vale la pena verlos.